- Описание :
RL Unplugged — это набор тестов для автономного обучения с подкреплением. RL Unplugged разработан с учетом следующих соображений: чтобы упростить использование, мы предоставляем наборы данных с унифицированным API, который позволяет практикующим специалистам легко работать со всеми данными в наборе после того, как общий конвейер был установлен.
Наборы данных соответствуют формату RLDS для представления шагов и эпизодов.
Набор данных DeepMind Lab имеет несколько уровней сложного, частично наблюдаемого пакета Deepmind Lab . Набор данных DeepMind Lab собирается путем обучения распределенных агентов R2D2 Kapturowski et al., 2018 с нуля индивидуальным задачам. Мы записывали опыт всех актеров в течение всего тренировочного цикла несколько раз для каждой задачи. Подробности процесса создания набора данных описаны в Gulcehre et al., 2021 .
Мы выпускаем наборы данных для пяти разных уровней DeepMind Lab: seekavoid_arena_01
, explore_rewards_few
, explore_rewards_many
, rooms_watermaze
, rooms_select_nonmatching_object
. Мы также выпускаем наборы данных моментальных снимков для уровня seekavoid_arena_01
, которые мы сгенерировали наборы данных из обученного моментального снимка R2D2 с различными уровнями эпсилон для эпсилон-жадного алгоритма при оценке агента в среде.
Набор данных DeepMind Lab довольно масштабный. Мы рекомендуем вам попробовать его, если вы заинтересованы в крупномасштабных автономных моделях RL с памятью.
Домашняя страница : https://github.com/deepmind/deepmind-research/tree/master/rl_unplugged
Исходный код :
tfds.rl_unplugged.rlu_dmlab_rooms_watermaze.RluDmlabRoomsWatermaze
Версии :
-
1.0.0
: Первоначальный выпуск. -
1.1.0
: Добавлен is_last. -
1.2.0
(по умолчанию): исправление BGR -> RGB для наблюдения за пикселями.
-
Размер загрузки :
Unknown size
Автоматическое кэширование ( документация ): Нет
Структура функции :
FeaturesDict({
'episode_id': int64,
'episode_return': float32,
'steps': Dataset({
'action': int64,
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'last_action': int64,
'last_reward': float32,
'pixels': Image(shape=(72, 96, 3), dtype=uint8),
}),
'reward': float32,
}),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
id_эпизода | Тензор | int64 | ||
эпизод_возврат | Тензор | поплавок32 | ||
шаги | Набор данных | |||
шаги/действие | Тензор | int64 | ||
шаги/скидка | Тензор | поплавок32 | ||
шаги / is_first | Тензор | логический | ||
шаги/is_last | Тензор | логический | ||
шаги/is_terminal | Тензор | логический | ||
шаги/наблюдение | ОсобенностиDict | |||
шаги/наблюдение/последнее_действие | Тензор | int64 | ||
шаги/наблюдение/last_reward | Тензор | поплавок32 | ||
шаги/наблюдение/пиксели | Изображение | (72, 96, 3) | uint8 | |
шаги/награда | Тензор | поплавок32 |
Ключи под наблюдением (см . документ
as_supervised
):None
Рисунок ( tfds.show_examples ): не поддерживается.
Цитата :
@article{gulcehre2021rbve,
title={Regularized Behavior Value Estimation},
author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
Sergio G{\'{o} }mez Colmenarejo and
Ziyu Wang and
Jakub Sygnowski and
Thomas Paine and
Konrad Zolna and
Yutian Chen and
Matthew W. Hoffman and
Razvan Pascanu and
Nando de Freitas},
year={2021},
journal = {CoRR},
url = {https://arxiv.org/abs/2103.09575},
eprint={2103.09575},
archivePrefix={arXiv},
}
rlu_dmlab_rooms_watermaze/training_0 (конфигурация по умолчанию)
Размер набора данных :
894.50 GiB
.Сплиты :
Расколоть | Примеры |
---|---|
'train' | 67 876 |
- Примеры ( tfds.as_dataframe ):
rlu_dmlab_rooms_watermaze/training_1
Размер набора данных :
898.74 GiB
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 66 922 |
- Примеры ( tfds.as_dataframe ):
rlu_dmlab_rooms_watermaze/training_2
Размер набора данных :
825.49 GiB
.Сплиты :
Расколоть | Примеры |
---|---|
'train' | 67 081 |
- Примеры ( tfds.as_dataframe ):