- Описание :
RL Unplugged — это набор тестов для автономного обучения с подкреплением. RL Unplugged разработан с учетом следующих соображений: чтобы упростить использование, мы предоставляем наборы данных с унифицированным API, который позволяет практикующим специалистам легко работать со всеми данными в наборе после того, как общий конвейер был установлен.
Наборы данных соответствуют формату RLDS для представления шагов и эпизодов.
Эти задачи состоят из задач на передвижение в коридоре с участием CMU Humanoid, для которых в предыдущих усилиях использовались либо данные захвата движения Merel et al., 2019a , Merel et al., 2019b, либо обучение с нуля Song et al., 2020 . Кроме того, репозиторий DM Locomotion содержит набор задач, адаптированных для работы с виртуальным грызуном Merel et al., 2020 . Мы подчеркиваем, что задачи DM Locomotion сочетают в себе сложный непрерывный контроль с высокой степенью свободы и восприятие на основе богатых эгоцентрических наблюдений. Подробнее о том, как был сгенерирован набор данных, см. в документе.
Мы рекомендуем вам попробовать автономные методы RL в наборе данных DeepMind Locomotion, если вы заинтересованы в очень сложном автономном наборе данных RL с непрерывным пространством действий.
Домашняя страница : https://github.com/deepmind/deepmind-research/tree/master/rl_unplugged
Исходный код :
tfds.rl_unplugged.rlu_locomotion.RluLocomotion
Версии :
-
1.0.0
(по умолчанию): Первоначальный выпуск.
-
Размер загрузки :
Unknown size
Автоматическое кэширование ( документация ): Нет
Ключи под наблюдением (см . документ
as_supervised
):None
Рисунок ( tfds.show_examples ): не поддерживается.
Цитата :
@inproceedings{gulcehre2020rl,
title = {RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning},
author = {Gulcehre, Caglar and Wang, Ziyu and Novikov, Alexander and Paine, Thomas and G'{o}mez, Sergio and Zolna, Konrad and Agarwal, Rishabh and Merel, Josh S and Mankowitz, Daniel J and Paduraru, Cosmin and Dulac-Arnold, Gabriel and Li, Jerry and Norouzi, Mohammad and Hoffman, Matthew and Heess, Nicolas and de Freitas, Nando},
booktitle = {Advances in Neural Information Processing Systems},
pages = {7248--7259},
volume = {33},
year = {2020}
}
rlu_locomotion/humanoid_corridor (конфигурация по умолчанию)
Размер набора данных :
1.88 GiB
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 4000 |
- Структура функции :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(56,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'walker': FeaturesDict({
'body_height': Tensor(shape=(1,), dtype=float32),
'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
'end_effectors_pos': Tensor(shape=(12,), dtype=float32),
'joints_pos': Tensor(shape=(56,), dtype=float32),
'joints_vel': Tensor(shape=(56,), dtype=float32),
'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
'sensors_gyro': Tensor(shape=(3,), dtype=float32),
'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
'world_zaxis': Tensor(shape=(3,), dtype=float32),
}),
}),
'reward': float32,
}),
'timestamp': int64,
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
id_эпизода | Тензор | int64 | ||
шаги | Набор данных | |||
шаги/действие | Тензор | (56,) | поплавок32 | |
шаги/скидка | Тензор | поплавок32 | ||
шаги / is_first | Тензор | логический | ||
шаги/is_last | Тензор | логический | ||
шаги/is_terminal | Тензор | логический | ||
шаги/наблюдение | ОсобенностиDict | |||
шаги/наблюдение/ходок | ОсобенностиDict | |||
шаги/наблюдение/ходок/body_height | Тензор | (1,) | поплавок32 | |
шаги/наблюдение/ходок/эгоцентрическая_камера | Изображение | (64, 64, 3) | uint8 | |
шаги/наблюдение/ходок/end_efectors_pos | Тензор | (12,) | поплавок32 | |
шаги/наблюдение/ходок/joints_pos | Тензор | (56,) | поплавок32 | |
шаги/наблюдение/ходок/joints_vel | Тензор | (56,) | поплавок32 | |
шаги/наблюдение/ходок/sensors_accelerometer | Тензор | (3,) | поплавок32 | |
шаги/наблюдение/ходок/sensors_gyro | Тензор | (3,) | поплавок32 | |
шаги/наблюдение/ходок/sensors_velocimeter | Тензор | (3,) | поплавок32 | |
шаги/наблюдение/ходок/world_zaxis | Тензор | (3,) | поплавок32 | |
шаги/награда | Тензор | поплавок32 | ||
отметка времени | Тензор | int64 |
- Примеры ( tfds.as_dataframe ):
rlu_locomotion/humanoid_gaps
Размер набора данных :
4.57 GiB
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 8000 |
- Структура функции :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(56,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'walker': FeaturesDict({
'body_height': Tensor(shape=(1,), dtype=float32),
'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
'end_effectors_pos': Tensor(shape=(12,), dtype=float32),
'joints_pos': Tensor(shape=(56,), dtype=float32),
'joints_vel': Tensor(shape=(56,), dtype=float32),
'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
'sensors_gyro': Tensor(shape=(3,), dtype=float32),
'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
'world_zaxis': Tensor(shape=(3,), dtype=float32),
}),
}),
'reward': float32,
}),
'timestamp': int64,
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
id_эпизода | Тензор | int64 | ||
шаги | Набор данных | |||
шаги/действие | Тензор | (56,) | поплавок32 | |
шаги/скидка | Тензор | поплавок32 | ||
шаги / is_first | Тензор | логический | ||
шаги/is_last | Тензор | логический | ||
шаги/is_terminal | Тензор | логический | ||
шаги/наблюдение | ОсобенностиDict | |||
шаги/наблюдение/ходок | ОсобенностиDict | |||
шаги/наблюдение/ходок/body_height | Тензор | (1,) | поплавок32 | |
шаги/наблюдение/ходок/эгоцентрическая_камера | Изображение | (64, 64, 3) | uint8 | |
шаги/наблюдение/ходок/end_efectors_pos | Тензор | (12,) | поплавок32 | |
шаги/наблюдение/ходок/joints_pos | Тензор | (56,) | поплавок32 | |
шаги/наблюдение/ходок/joints_vel | Тензор | (56,) | поплавок32 | |
шаги/наблюдение/ходок/sensors_accelerometer | Тензор | (3,) | поплавок32 | |
шаги/наблюдение/ходок/sensors_gyro | Тензор | (3,) | поплавок32 | |
шаги/наблюдение/ходок/sensors_velocimeter | Тензор | (3,) | поплавок32 | |
шаги/наблюдение/ходок/world_zaxis | Тензор | (3,) | поплавок32 | |
шаги/награда | Тензор | поплавок32 | ||
отметка времени | Тензор | int64 |
- Примеры ( tfds.as_dataframe ):
rlu_locomotion/humanoid_walls
Размер набора данных :
2.36 GiB
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 4000 |
- Структура функции :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(56,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'walker': FeaturesDict({
'body_height': Tensor(shape=(1,), dtype=float32),
'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
'end_effectors_pos': Tensor(shape=(12,), dtype=float32),
'joints_pos': Tensor(shape=(56,), dtype=float32),
'joints_vel': Tensor(shape=(56,), dtype=float32),
'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
'sensors_gyro': Tensor(shape=(3,), dtype=float32),
'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
'world_zaxis': Tensor(shape=(3,), dtype=float32),
}),
}),
'reward': float32,
}),
'timestamp': int64,
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
id_эпизода | Тензор | int64 | ||
шаги | Набор данных | |||
шаги/действие | Тензор | (56,) | поплавок32 | |
шаги/скидка | Тензор | поплавок32 | ||
шаги / is_first | Тензор | логический | ||
шаги/is_last | Тензор | логический | ||
шаги/is_terminal | Тензор | логический | ||
шаги/наблюдение | ОсобенностиDict | |||
шаги/наблюдение/ходок | ОсобенностиDict | |||
шаги/наблюдение/ходок/body_height | Тензор | (1,) | поплавок32 | |
шаги/наблюдение/ходок/эгоцентрическая_камера | Изображение | (64, 64, 3) | uint8 | |
шаги/наблюдение/ходок/end_efectors_pos | Тензор | (12,) | поплавок32 | |
шаги/наблюдение/ходок/joints_pos | Тензор | (56,) | поплавок32 | |
шаги/наблюдение/ходок/joints_vel | Тензор | (56,) | поплавок32 | |
шаги/наблюдение/ходок/sensors_accelerometer | Тензор | (3,) | поплавок32 | |
шаги/наблюдение/ходок/sensors_gyro | Тензор | (3,) | поплавок32 | |
шаги/наблюдение/ходок/sensors_velocimeter | Тензор | (3,) | поплавок32 | |
шаги/наблюдение/ходок/world_zaxis | Тензор | (3,) | поплавок32 | |
шаги/награда | Тензор | поплавок32 | ||
отметка времени | Тензор | int64 |
- Примеры ( tfds.as_dataframe ):
rlu_locomotion/rodent_bowl_escape
Размер набора данных :
16.46 GiB
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 2000 |
- Структура функции :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(38,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'walker': FeaturesDict({
'appendages_pos': Tensor(shape=(15,), dtype=float32),
'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
'joints_pos': Tensor(shape=(30,), dtype=float32),
'joints_vel': Tensor(shape=(30,), dtype=float32),
'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
'sensors_gyro': Tensor(shape=(3,), dtype=float32),
'sensors_touch': Tensor(shape=(4,), dtype=float32),
'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
'tendons_pos': Tensor(shape=(8,), dtype=float32),
'tendons_vel': Tensor(shape=(8,), dtype=float32),
'world_zaxis': Tensor(shape=(3,), dtype=float32),
}),
}),
'reward': float32,
}),
'timestamp': int64,
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
id_эпизода | Тензор | int64 | ||
шаги | Набор данных | |||
шаги/действие | Тензор | (38,) | поплавок32 | |
шаги/скидка | Тензор | поплавок32 | ||
шаги / is_first | Тензор | логический | ||
шаги/is_last | Тензор | логический | ||
шаги/is_terminal | Тензор | логический | ||
шаги/наблюдение | ОсобенностиDict | |||
шаги/наблюдение/ходок | ОсобенностиDict | |||
шаги/наблюдение/ходок/appendages_pos | Тензор | (15,) | поплавок32 | |
шаги/наблюдение/ходок/эгоцентрическая_камера | Изображение | (64, 64, 3) | uint8 | |
шаги/наблюдение/ходок/joints_pos | Тензор | (30,) | поплавок32 | |
шаги/наблюдение/ходок/joints_vel | Тензор | (30,) | поплавок32 | |
шаги/наблюдение/ходок/sensors_accelerometer | Тензор | (3,) | поплавок32 | |
шаги/наблюдение/ходок/sensors_gyro | Тензор | (3,) | поплавок32 | |
шаги/наблюдение/ходок/sensors_touch | Тензор | (4,) | поплавок32 | |
шаги/наблюдение/ходок/sensors_velocimeter | Тензор | (3,) | поплавок32 | |
шаги/наблюдение/ходок/tendons_pos | Тензор | (8,) | поплавок32 | |
шаги/наблюдение/ходок/tendons_vel | Тензор | (8,) | поплавок32 | |
шаги/наблюдение/ходок/world_zaxis | Тензор | (3,) | поплавок32 | |
шаги/награда | Тензор | поплавок32 | ||
отметка времени | Тензор | int64 |
- Примеры ( tfds.as_dataframe ):
rlu_locomotion/rodent_gaps
Размер набора данных :
8.90 GiB
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 2000 |
- Структура функции :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(38,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'walker': FeaturesDict({
'appendages_pos': Tensor(shape=(15,), dtype=float32),
'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
'joints_pos': Tensor(shape=(30,), dtype=float32),
'joints_vel': Tensor(shape=(30,), dtype=float32),
'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
'sensors_gyro': Tensor(shape=(3,), dtype=float32),
'sensors_touch': Tensor(shape=(4,), dtype=float32),
'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
'tendons_pos': Tensor(shape=(8,), dtype=float32),
'tendons_vel': Tensor(shape=(8,), dtype=float32),
'world_zaxis': Tensor(shape=(3,), dtype=float32),
}),
}),
'reward': float32,
}),
'timestamp': int64,
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
id_эпизода | Тензор | int64 | ||
шаги | Набор данных | |||
шаги/действие | Тензор | (38,) | поплавок32 | |
шаги/скидка | Тензор | поплавок32 | ||
шаги / is_first | Тензор | логический | ||
шаги/is_last | Тензор | логический | ||
шаги/is_terminal | Тензор | логический | ||
шаги/наблюдение | ОсобенностиDict | |||
шаги/наблюдение/ходок | ОсобенностиDict | |||
шаги/наблюдение/ходок/appendages_pos | Тензор | (15,) | поплавок32 | |
шаги/наблюдение/ходок/эгоцентрическая_камера | Изображение | (64, 64, 3) | uint8 | |
шаги/наблюдение/ходок/joints_pos | Тензор | (30,) | поплавок32 | |
шаги/наблюдение/ходок/joints_vel | Тензор | (30,) | поплавок32 | |
шаги/наблюдение/ходок/sensors_accelerometer | Тензор | (3,) | поплавок32 | |
шаги/наблюдение/ходок/sensors_gyro | Тензор | (3,) | поплавок32 | |
шаги/наблюдение/ходок/sensors_touch | Тензор | (4,) | поплавок32 | |
шаги/наблюдение/ходок/sensors_velocimeter | Тензор | (3,) | поплавок32 | |
шаги/наблюдение/ходок/tendons_pos | Тензор | (8,) | поплавок32 | |
шаги/наблюдение/ходок/tendons_vel | Тензор | (8,) | поплавок32 | |
шаги/наблюдение/ходок/world_zaxis | Тензор | (3,) | поплавок32 | |
шаги/награда | Тензор | поплавок32 | ||
отметка времени | Тензор | int64 |
- Примеры ( tfds.as_dataframe ):
rlu_locomotion/rodent_mazes
Размер набора данных :
20.71 GiB
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 2000 |
- Структура функции :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(38,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'walker': FeaturesDict({
'appendages_pos': Tensor(shape=(15,), dtype=float32),
'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
'joints_pos': Tensor(shape=(30,), dtype=float32),
'joints_vel': Tensor(shape=(30,), dtype=float32),
'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
'sensors_gyro': Tensor(shape=(3,), dtype=float32),
'sensors_touch': Tensor(shape=(4,), dtype=float32),
'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
'tendons_pos': Tensor(shape=(8,), dtype=float32),
'tendons_vel': Tensor(shape=(8,), dtype=float32),
'world_zaxis': Tensor(shape=(3,), dtype=float32),
}),
}),
'reward': float32,
}),
'timestamp': int64,
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
id_эпизода | Тензор | int64 | ||
шаги | Набор данных | |||
шаги/действие | Тензор | (38,) | поплавок32 | |
шаги/скидка | Тензор | поплавок32 | ||
шаги / is_first | Тензор | логический | ||
шаги/is_last | Тензор | логический | ||
шаги/is_terminal | Тензор | логический | ||
шаги/наблюдение | ОсобенностиDict | |||
шаги/наблюдение/ходок | ОсобенностиDict | |||
шаги/наблюдение/ходок/appendages_pos | Тензор | (15,) | поплавок32 | |
шаги/наблюдение/ходок/эгоцентрическая_камера | Изображение | (64, 64, 3) | uint8 | |
шаги/наблюдение/ходок/joints_pos | Тензор | (30,) | поплавок32 | |
шаги/наблюдение/ходок/joints_vel | Тензор | (30,) | поплавок32 | |
шаги/наблюдение/ходок/sensors_accelerometer | Тензор | (3,) | поплавок32 | |
шаги/наблюдение/ходок/sensors_gyro | Тензор | (3,) | поплавок32 | |
шаги/наблюдение/ходок/sensors_touch | Тензор | (4,) | поплавок32 | |
шаги/наблюдение/ходок/sensors_velocimeter | Тензор | (3,) | поплавок32 | |
шаги/наблюдение/ходок/tendons_pos | Тензор | (8,) | поплавок32 | |
шаги/наблюдение/ходок/tendons_vel | Тензор | (8,) | поплавок32 | |
шаги/наблюдение/ходок/world_zaxis | Тензор | (3,) | поплавок32 | |
шаги/награда | Тензор | поплавок32 | ||
отметка времени | Тензор | int64 |
- Примеры ( tfds.as_dataframe ):
rlu_locomotion/rodent_two_touch
Размер набора данных :
23.05 GiB
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 2000 |
- Структура функции :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(38,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'walker': FeaturesDict({
'appendages_pos': Tensor(shape=(15,), dtype=float32),
'egocentric_camera': Image(shape=(64, 64, 3), dtype=uint8),
'joints_pos': Tensor(shape=(30,), dtype=float32),
'joints_vel': Tensor(shape=(30,), dtype=float32),
'sensors_accelerometer': Tensor(shape=(3,), dtype=float32),
'sensors_gyro': Tensor(shape=(3,), dtype=float32),
'sensors_touch': Tensor(shape=(4,), dtype=float32),
'sensors_velocimeter': Tensor(shape=(3,), dtype=float32),
'tendons_pos': Tensor(shape=(8,), dtype=float32),
'tendons_vel': Tensor(shape=(8,), dtype=float32),
'world_zaxis': Tensor(shape=(3,), dtype=float32),
}),
}),
'reward': float32,
}),
'timestamp': int64,
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
id_эпизода | Тензор | int64 | ||
шаги | Набор данных | |||
шаги/действие | Тензор | (38,) | поплавок32 | |
шаги/скидка | Тензор | поплавок32 | ||
шаги / is_first | Тензор | логический | ||
шаги/is_last | Тензор | логический | ||
шаги/is_terminal | Тензор | логический | ||
шаги/наблюдение | ОсобенностиDict | |||
шаги/наблюдение/ходок | ОсобенностиDict | |||
шаги/наблюдение/ходок/appendages_pos | Тензор | (15,) | поплавок32 | |
шаги/наблюдение/ходок/эгоцентрическая_камера | Изображение | (64, 64, 3) | uint8 | |
шаги/наблюдение/ходок/joints_pos | Тензор | (30,) | поплавок32 | |
шаги/наблюдение/ходок/joints_vel | Тензор | (30,) | поплавок32 | |
шаги/наблюдение/ходок/sensors_accelerometer | Тензор | (3,) | поплавок32 | |
шаги/наблюдение/ходок/sensors_gyro | Тензор | (3,) | поплавок32 | |
шаги/наблюдение/ходок/sensors_touch | Тензор | (4,) | поплавок32 | |
шаги/наблюдение/ходок/sensors_velocimeter | Тензор | (3,) | поплавок32 | |
шаги/наблюдение/ходок/tendons_pos | Тензор | (8,) | поплавок32 | |
шаги/наблюдение/ходок/tendons_vel | Тензор | (8,) | поплавок32 | |
шаги/наблюдение/ходок/world_zaxis | Тензор | (3,) | поплавок32 | |
шаги/награда | Тензор | поплавок32 | ||
отметка времени | Тензор | int64 |
- Примеры ( tfds.as_dataframe ):