- Описание :
RL Unplugged — это набор тестов для автономного обучения с подкреплением. RL Unplugged разработан с учетом следующих соображений: чтобы упростить использование, мы предоставляем наборы данных с унифицированным API, который позволяет практикующим специалистам легко работать со всеми данными в наборе после того, как общий конвейер был установлен.
Наборы данных соответствуют формату RLDS для представления шагов и эпизодов.
DeepMind Control Suite Tassa et al., 2018 — набор задач управления, реализованный в MuJoCo Todorov et al., 2012 . Мы рассматриваем подмножество заданий, представленных в наборе, которые охватывают широкий спектр трудностей.
Большинство наборов данных в этой области создаются с использованием D4PG. Для сред Манипулятор вставки шара и Манипулятор вставки штифта мы используем V-MPO Song et al., 2020 для генерации данных, поскольку D4PG не может решить эти задачи. Мы выпускаем наборы данных для 9 задач контрольного набора. Подробнее о том, как был сгенерирован набор данных, см. в документе.
DeepMind Control Suite — это традиционный тест непрерывного действия RL. В частности, мы рекомендуем вам протестировать свой подход в DeepMind Control Suite, если вы заинтересованы в сравнении с другими современными методами автономного RL.
Домашняя страница : https://github.com/deepmind/deepmind-research/tree/master/rl_unplugged
Исходный код :
tfds.rl_unplugged.rlu_control_suite.RluControlSuite
Версии :
-
1.0.0
(по умолчанию): Первоначальный выпуск.
-
Размер загрузки :
Unknown size
Ключи под наблюдением (см . документ
as_supervised
):None
Рисунок ( tfds.show_examples ): не поддерживается.
Цитата :
@inproceedings{gulcehre2020rl,
title = {RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning},
author = {Gulcehre, Caglar and Wang, Ziyu and Novikov, Alexander and Paine, Thomas and G'{o}mez, Sergio and Zolna, Konrad and Agarwal, Rishabh and Merel, Josh S and Mankowitz, Daniel J and Paduraru, Cosmin and Dulac-Arnold, Gabriel and Li, Jerry and Norouzi, Mohammad and Hoffman, Matthew and Heess, Nicolas and de Freitas, Nando},
booktitle = {Advances in Neural Information Processing Systems},
pages = {7248--7259},
volume = {33},
year = {2020}
}
rlu_control_suite/cartpole_swingup (конфигурация по умолчанию)
Размер набора данных :
2.12 MiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 40 |
- Структура функции :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(1,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'position': Tensor(shape=(3,), dtype=float32),
'velocity': Tensor(shape=(2,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
id_эпизода | Тензор | int64 | ||
шаги | Набор данных | |||
шаги/действие | Тензор | (1,) | поплавок32 | |
шаги/скидка | Тензор | поплавок32 | ||
шаги / is_first | Тензор | логический | ||
шаги/is_last | Тензор | логический | ||
шаги/is_terminal | Тензор | логический | ||
шаги/наблюдение | ОсобенностиDict | |||
шаги/наблюдение/позиция | Тензор | (3,) | поплавок32 | |
шаги/наблюдение/скорость | Тензор | (2,) | поплавок32 | |
шаги/награда | Тензор | поплавок32 | ||
отметка времени | Тензор | int64 |
- Примеры ( tfds.as_dataframe ):
rlu_control_suite/cheetah_run
Размер набора данных :
36.58 MiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 300 |
- Структура функции :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'position': Tensor(shape=(8,), dtype=float32),
'velocity': Tensor(shape=(9,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
id_эпизода | Тензор | int64 | ||
шаги | Набор данных | |||
шаги/действие | Тензор | (6,) | поплавок32 | |
шаги/скидка | Тензор | поплавок32 | ||
шаги / is_first | Тензор | логический | ||
шаги/is_last | Тензор | логический | ||
шаги/is_terminal | Тензор | логический | ||
шаги/наблюдение | ОсобенностиDict | |||
шаги/наблюдение/позиция | Тензор | (8,) | поплавок32 | |
шаги/наблюдение/скорость | Тензор | (9,) | поплавок32 | |
шаги/награда | Тензор | поплавок32 | ||
отметка времени | Тензор | int64 |
- Примеры ( tfds.as_dataframe ):
rlu_control_suite/finger_turn_hard
Размер набора данных :
47.61 MiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 500 |
- Структура функции :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(2,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'dist_to_target': Tensor(shape=(1,), dtype=float32),
'position': Tensor(shape=(4,), dtype=float32),
'target_position': Tensor(shape=(2,), dtype=float32),
'velocity': Tensor(shape=(3,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
id_эпизода | Тензор | int64 | ||
шаги | Набор данных | |||
шаги/действие | Тензор | (2,) | поплавок32 | |
шаги/скидка | Тензор | поплавок32 | ||
шаги / is_first | Тензор | логический | ||
шаги/is_last | Тензор | логический | ||
шаги/is_terminal | Тензор | логический | ||
шаги/наблюдение | ОсобенностиDict | |||
шаги/наблюдение/dist_to_target | Тензор | (1,) | поплавок32 | |
шаги/наблюдение/позиция | Тензор | (4,) | поплавок32 | |
шаги/наблюдение/target_position | Тензор | (2,) | поплавок32 | |
шаги/наблюдение/скорость | Тензор | (3,) | поплавок32 | |
шаги/награда | Тензор | поплавок32 | ||
отметка времени | Тензор | int64 |
- Примеры ( tfds.as_dataframe ):
rlu_control_suite/fish_swim
Размер набора данных :
32.81 MiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 200 |
- Структура функции :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(5,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'joint_angles': Tensor(shape=(7,), dtype=float32),
'target': Tensor(shape=(3,), dtype=float32),
'upright': Tensor(shape=(1,), dtype=float32),
'velocity': Tensor(shape=(13,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
id_эпизода | Тензор | int64 | ||
шаги | Набор данных | |||
шаги/действие | Тензор | (5,) | поплавок32 | |
шаги/скидка | Тензор | поплавок32 | ||
шаги / is_first | Тензор | логический | ||
шаги/is_last | Тензор | логический | ||
шаги/is_terminal | Тензор | логический | ||
шаги/наблюдение | ОсобенностиDict | |||
шаги/наблюдение/joint_angles | Тензор | (7,) | поплавок32 | |
шаги/наблюдение/цель | Тензор | (3,) | поплавок32 | |
шаги / наблюдение / вертикально | Тензор | (1,) | поплавок32 | |
шаги/наблюдение/скорость | Тензор | (13,) | поплавок32 | |
шаги/награда | Тензор | поплавок32 | ||
отметка времени | Тензор | int64 |
- Примеры ( tfds.as_dataframe ):
rlu_control_suite/humanoid_run
Размер набора данных :
1.21 GiB
Автоматическое кэширование ( документация ): Нет
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 3000 |
- Структура функции :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(21,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'com_velocity': Tensor(shape=(3,), dtype=float32),
'extremities': Tensor(shape=(12,), dtype=float32),
'head_height': Tensor(shape=(1,), dtype=float32),
'joint_angles': Tensor(shape=(21,), dtype=float32),
'torso_vertical': Tensor(shape=(3,), dtype=float32),
'velocity': Tensor(shape=(27,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
id_эпизода | Тензор | int64 | ||
шаги | Набор данных | |||
шаги/действие | Тензор | (21,) | поплавок32 | |
шаги/скидка | Тензор | поплавок32 | ||
шаги / is_first | Тензор | логический | ||
шаги/is_last | Тензор | логический | ||
шаги/is_terminal | Тензор | логический | ||
шаги/наблюдение | ОсобенностиDict | |||
шаги/наблюдение/com_velocity | Тензор | (3,) | поплавок32 | |
шаги/наблюдение/конечности | Тензор | (12,) | поплавок32 | |
шаги/наблюдение/head_height | Тензор | (1,) | поплавок32 | |
шаги/наблюдение/joint_angles | Тензор | (21,) | поплавок32 | |
шаги/наблюдение/torso_vertical | Тензор | (3,) | поплавок32 | |
шаги/наблюдение/скорость | Тензор | (27,) | поплавок32 | |
шаги/награда | Тензор | поплавок32 | ||
отметка времени | Тензор | int64 |
- Примеры ( tfds.as_dataframe ):
rlu_control_suite/manipulator_insert_ball
Размер набора данных :
385.41 MiB
.Автоматическое кэширование ( документация ): Нет
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 1500 |
- Структура функции :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(5,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'arm_pos': Tensor(shape=(16,), dtype=float32),
'arm_vel': Tensor(shape=(8,), dtype=float32),
'hand_pos': Tensor(shape=(4,), dtype=float32),
'object_pos': Tensor(shape=(4,), dtype=float32),
'object_vel': Tensor(shape=(3,), dtype=float32),
'target_pos': Tensor(shape=(4,), dtype=float32),
'touch': Tensor(shape=(5,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
id_эпизода | Тензор | int64 | ||
шаги | Набор данных | |||
шаги/действие | Тензор | (5,) | поплавок32 | |
шаги/скидка | Тензор | поплавок32 | ||
шаги / is_first | Тензор | логический | ||
шаги/is_last | Тензор | логический | ||
шаги/is_terminal | Тензор | логический | ||
шаги/наблюдение | ОсобенностиDict | |||
шаги/наблюдение/arm_pos | Тензор | (16,) | поплавок32 | |
шаги/наблюдение/arm_vel | Тензор | (8,) | поплавок32 | |
шаги/наблюдение/hand_pos | Тензор | (4,) | поплавок32 | |
шаги/наблюдение/object_pos | Тензор | (4,) | поплавок32 | |
шаги/наблюдение/object_vel | Тензор | (3,) | поплавок32 | |
шаги/наблюдение/target_pos | Тензор | (4,) | поплавок32 | |
шаги/наблюдение/прикосновение | Тензор | (5,) | поплавок32 | |
шаги/награда | Тензор | поплавок32 | ||
отметка времени | Тензор | int64 |
- Примеры ( tfds.as_dataframe ):
rlu_control_suite/manipulator_insert_peg
Размер набора данных :
385.73 MiB
.Автоматическое кэширование ( документация ): Нет
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 1500 |
- Структура функции :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(5,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'arm_pos': Tensor(shape=(16,), dtype=float32),
'arm_vel': Tensor(shape=(8,), dtype=float32),
'hand_pos': Tensor(shape=(4,), dtype=float32),
'object_pos': Tensor(shape=(4,), dtype=float32),
'object_vel': Tensor(shape=(3,), dtype=float32),
'target_pos': Tensor(shape=(4,), dtype=float32),
'touch': Tensor(shape=(5,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
id_эпизода | Тензор | int64 | ||
шаги | Набор данных | |||
шаги/действие | Тензор | (5,) | поплавок32 | |
шаги/скидка | Тензор | поплавок32 | ||
шаги / is_first | Тензор | логический | ||
шаги/is_last | Тензор | логический | ||
шаги/is_terminal | Тензор | логический | ||
шаги/наблюдение | ОсобенностиDict | |||
шаги/наблюдение/arm_pos | Тензор | (16,) | поплавок32 | |
шаги/наблюдение/arm_vel | Тензор | (8,) | поплавок32 | |
шаги/наблюдение/hand_pos | Тензор | (4,) | поплавок32 | |
шаги/наблюдение/object_pos | Тензор | (4,) | поплавок32 | |
шаги/наблюдение/object_vel | Тензор | (3,) | поплавок32 | |
шаги/наблюдение/target_pos | Тензор | (4,) | поплавок32 | |
шаги/наблюдение/прикосновение | Тензор | (5,) | поплавок32 | |
шаги/награда | Тензор | поплавок32 | ||
отметка времени | Тензор | int64 |
- Примеры ( tfds.as_dataframe ):
rlu_control_suite/walker_stand
Размер набора данных :
31.78 MiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 200 |
- Структура функции :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'height': Tensor(shape=(1,), dtype=float32),
'orientations': Tensor(shape=(14,), dtype=float32),
'velocity': Tensor(shape=(9,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
id_эпизода | Тензор | int64 | ||
шаги | Набор данных | |||
шаги/действие | Тензор | (6,) | поплавок32 | |
шаги/скидка | Тензор | поплавок32 | ||
шаги / is_first | Тензор | логический | ||
шаги/is_last | Тензор | логический | ||
шаги/is_terminal | Тензор | логический | ||
шаги/наблюдение | ОсобенностиDict | |||
шаги/наблюдение/высота | Тензор | (1,) | поплавок32 | |
шаги/наблюдение/ориентация | Тензор | (14,) | поплавок32 | |
шаги/наблюдение/скорость | Тензор | (9,) | поплавок32 | |
шаги/награда | Тензор | поплавок32 | ||
отметка времени | Тензор | int64 |
- Примеры ( tfds.as_dataframe ):
rlu_control_suite/walker_walk
Размер набора данных :
31.78 MiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 200 |
- Структура функции :
FeaturesDict({
'episode_id': int64,
'steps': Dataset({
'action': Tensor(shape=(6,), dtype=float32),
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'height': Tensor(shape=(1,), dtype=float32),
'orientations': Tensor(shape=(14,), dtype=float32),
'velocity': Tensor(shape=(9,), dtype=float32),
}),
'reward': float32,
}),
'timestamp': int64,
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
id_эпизода | Тензор | int64 | ||
шаги | Набор данных | |||
шаги/действие | Тензор | (6,) | поплавок32 | |
шаги/скидка | Тензор | поплавок32 | ||
шаги / is_first | Тензор | логический | ||
шаги/is_last | Тензор | логический | ||
шаги/is_terminal | Тензор | логический | ||
шаги/наблюдение | ОсобенностиDict | |||
шаги/наблюдение/высота | Тензор | (1,) | поплавок32 | |
шаги/наблюдение/ориентация | Тензор | (14,) | поплавок32 | |
шаги/наблюдение/скорость | Тензор | (9,) | поплавок32 | |
шаги/награда | Тензор | поплавок32 | ||
отметка времени | Тензор | int64 |
- Примеры ( tfds.as_dataframe ):