rlu_rwrl

  • Описание :

RL Unplugged — это набор тестов для автономного обучения с подкреплением. RL Unplugged разработан с учетом следующих соображений: чтобы упростить использование, мы предоставляем наборы данных с унифицированным API, который позволяет практикующим специалистам легко работать со всеми данными в наборе после того, как общий конвейер был установлен.

Наборы данных соответствуют формату RLDS для представления шагов и эпизодов.

Примеры в наборе данных представляют переходы SAR, сохраняемые при запуске частично обученного онлайн-агента, как описано в https://arxiv.org/abs/1904.12901 . Мы следуем формату набора данных RLDS, как указано в https://github.com/google-research . /rlds#формат набора данных

Всего мы выпускаем 40 наборов данных по 8 задачам — без комбинированных задач и с простыми комбинированными задачами на тележках, ходячих, четвероногих и гуманоидных задачах. Каждая задача содержит наборы данных 5 различных размеров: 1%, 5%, 20%, 40% и 100%. Обратите внимание, что меньший набор данных не обязательно будет подмножеством больших. Подробнее о том, как был сгенерирован набор данных, см. в документе.

@misc{gulcehre2020rl,
    title={RL Unplugged: Benchmarks for Offline Reinforcement Learning},
    author={Caglar Gulcehre and Ziyu Wang and Alexander Novikov and Tom Le Paine
        and  Sergio Gómez Colmenarejo and Konrad Zolna and Rishabh Agarwal and
        Josh Merel and Daniel Mankowitz and Cosmin Paduraru and Gabriel
        Dulac-Arnold and Jerry Li and Mohammad Norouzi and Matt Hoffman and
        Ofir Nachum and George Tucker and Nicolas Heess and Nando deFreitas},
    year={2020},
    eprint={2006.13888},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

rlu_rwrl/cartpole_swingup_combined_challenge_none_1_percent (конфигурация по умолчанию)

  • Размер набора данных : 172.43 KiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'train' 5
  • Структура функции :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(1,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'position': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(2,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
эпизод_возврат Тензор поплавок32
шаги Набор данных
шаги/действие Тензор (1,) поплавок32
шаги/скидка Тензор (1,) поплавок32
шаги / is_first Тензор логический
шаги/is_last Тензор логический
шаги/is_terminal Тензор логический
шаги/наблюдение ОсобенностиDict
шаги/наблюдение/позиция Тензор (3,) поплавок32
шаги/наблюдение/скорость Тензор (2,) поплавок32
шаги/награда Тензор (1,) поплавок32

rlu_rwrl/cartpole_swingup_combined_challenge_none_5_percent

  • Размер набора данных : 862.13 KiB

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'train' 25
  • Структура функции :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(1,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'position': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(2,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
эпизод_возврат Тензор поплавок32
шаги Набор данных
шаги/действие Тензор (1,) поплавок32
шаги/скидка Тензор (1,) поплавок32
шаги / is_first Тензор логический
шаги/is_last Тензор логический
шаги/is_terminal Тензор логический
шаги/наблюдение ОсобенностиDict
шаги/наблюдение/позиция Тензор (3,) поплавок32
шаги/наблюдение/скорость Тензор (2,) поплавок32
шаги/награда Тензор (1,) поплавок32

rlu_rwrl/cartpole_swingup_combined_challenge_none_20_percent

  • Размер набора данных : 3.37 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'train' 100
  • Структура функции :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(1,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'position': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(2,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
эпизод_возврат Тензор поплавок32
шаги Набор данных
шаги/действие Тензор (1,) поплавок32
шаги/скидка Тензор (1,) поплавок32
шаги / is_first Тензор логический
шаги/is_last Тензор логический
шаги/is_terminal Тензор логический
шаги/наблюдение ОсобенностиDict
шаги/наблюдение/позиция Тензор (3,) поплавок32
шаги/наблюдение/скорость Тензор (2,) поплавок32
шаги/награда Тензор (1,) поплавок32

rlu_rwrl/cartpole_swingup_combined_challenge_none_40_percent

  • Размер набора данных : 6.74 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'train' 200
  • Структура функции :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(1,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'position': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(2,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
эпизод_возврат Тензор поплавок32
шаги Набор данных
шаги/действие Тензор (1,) поплавок32
шаги/скидка Тензор (1,) поплавок32
шаги / is_first Тензор логический
шаги/is_last Тензор логический
шаги/is_terminal Тензор логический
шаги/наблюдение ОсобенностиDict
шаги/наблюдение/позиция Тензор (3,) поплавок32
шаги/наблюдение/скорость Тензор (2,) поплавок32
шаги/награда Тензор (1,) поплавок32

rlu_rwrl/cartpole_swingup_combined_challenge_none_100_percent

  • Размер набора данных : 16.84 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'train' 500
  • Структура функции :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(1,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'position': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(2,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
эпизод_возврат Тензор поплавок32
шаги Набор данных
шаги/действие Тензор (1,) поплавок32
шаги/скидка Тензор (1,) поплавок32
шаги / is_first Тензор логический
шаги/is_last Тензор логический
шаги/is_terminal Тензор логический
шаги/наблюдение ОсобенностиDict
шаги/наблюдение/позиция Тензор (3,) поплавок32
шаги/наблюдение/скорость Тензор (2,) поплавок32
шаги/награда Тензор (1,) поплавок32

rlu_rwrl/quadruped_walk_combined_challenge_none_1_percent

  • Размер набора данных : 1.77 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'train' 5
  • Структура функции :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(12,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'egocentric_state': Tensor(shape=(44,), dtype=float32),
            'force_torque': Tensor(shape=(24,), dtype=float32),
            'imu': Tensor(shape=(6,), dtype=float32),
            'torso_upright': Tensor(shape=(1,), dtype=float32),
            'torso_velocity': Tensor(shape=(3,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
эпизод_возврат Тензор поплавок32
шаги Набор данных
шаги/действие Тензор (12,) поплавок32
шаги/скидка Тензор (1,) поплавок32
шаги / is_first Тензор логический
шаги/is_last Тензор логический
шаги/is_terminal Тензор логический
шаги/наблюдение ОсобенностиDict
шаги/наблюдение/эгоцентрическое_состояние Тензор (44,) поплавок32
шаги/наблюдение/force_torque Тензор (24,) поплавок32
шаги/наблюдение/иму Тензор (6,) поплавок32
шаги/наблюдение/torso_upright Тензор (1,) поплавок32
шаги/наблюдение/torso_velocity Тензор (3,) поплавок32
шаги/награда Тензор (1,) поплавок32

rlu_rwrl/quadruped_walk_combined_challenge_none_5_percent

  • Размер набора данных : 8.86 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'train' 25
  • Структура функции :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(12,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'egocentric_state': Tensor(shape=(44,), dtype=float32),
            'force_torque': Tensor(shape=(24,), dtype=float32),
            'imu': Tensor(shape=(6,), dtype=float32),
            'torso_upright': Tensor(shape=(1,), dtype=float32),
            'torso_velocity': Tensor(shape=(3,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
эпизод_возврат Тензор поплавок32
шаги Набор данных
шаги/действие Тензор (12,) поплавок32
шаги/скидка Тензор (1,) поплавок32
шаги / is_first Тензор логический
шаги/is_last Тензор логический
шаги/is_terminal Тензор логический
шаги/наблюдение ОсобенностиDict
шаги/наблюдение/эгоцентрическое_состояние Тензор (44,) поплавок32
шаги/наблюдение/force_torque Тензор (24,) поплавок32
шаги/наблюдение/иму Тензор (6,) поплавок32
шаги/наблюдение/torso_upright Тензор (1,) поплавок32
шаги/наблюдение/torso_velocity Тензор (3,) поплавок32
шаги/награда Тензор (1,) поплавок32

rlu_rwrl/quadruped_walk_combined_challenge_none_20_percent

  • Размер набора данных : 35.46 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'train' 100
  • Структура функции :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(12,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'egocentric_state': Tensor(shape=(44,), dtype=float32),
            'force_torque': Tensor(shape=(24,), dtype=float32),
            'imu': Tensor(shape=(6,), dtype=float32),
            'torso_upright': Tensor(shape=(1,), dtype=float32),
            'torso_velocity': Tensor(shape=(3,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
эпизод_возврат Тензор поплавок32
шаги Набор данных
шаги/действие Тензор (12,) поплавок32
шаги/скидка Тензор (1,) поплавок32
шаги / is_first Тензор логический
шаги/is_last Тензор логический
шаги/is_terminal Тензор логический
шаги/наблюдение ОсобенностиDict
шаги/наблюдение/эгоцентрическое_состояние Тензор (44,) поплавок32
шаги/наблюдение/force_torque Тензор (24,) поплавок32
шаги/наблюдение/иму Тензор (6,) поплавок32
шаги/наблюдение/torso_upright Тензор (1,) поплавок32
шаги/наблюдение/torso_velocity Тензор (3,) поплавок32
шаги/награда Тензор (1,) поплавок32

rlu_rwrl/quadruped_walk_combined_challenge_none_40_percent

  • Размер набора данных : 70.92 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'train' 200
  • Структура функции :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(12,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'egocentric_state': Tensor(shape=(44,), dtype=float32),
            'force_torque': Tensor(shape=(24,), dtype=float32),
            'imu': Tensor(shape=(6,), dtype=float32),
            'torso_upright': Tensor(shape=(1,), dtype=float32),
            'torso_velocity': Tensor(shape=(3,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
эпизод_возврат Тензор поплавок32
шаги Набор данных
шаги/действие Тензор (12,) поплавок32
шаги/скидка Тензор (1,) поплавок32
шаги / is_first Тензор логический
шаги/is_last Тензор логический
шаги/is_terminal Тензор логический
шаги/наблюдение ОсобенностиDict
шаги/наблюдение/эгоцентрическое_состояние Тензор (44,) поплавок32
шаги/наблюдение/force_torque Тензор (24,) поплавок32
шаги/наблюдение/иму Тензор (6,) поплавок32
шаги/наблюдение/torso_upright Тензор (1,) поплавок32
шаги/наблюдение/torso_velocity Тензор (3,) поплавок32
шаги/награда Тензор (1,) поплавок32

rlu_rwrl/quadruped_walk_combined_challenge_none_100_percent

  • Размер набора данных : 177.29 MiB .

  • Автокэширование ( документация ): только когда shuffle_files=False (поезд)

  • Сплиты :

Расколоть Примеры
'train' 500
  • Структура функции :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(12,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'egocentric_state': Tensor(shape=(44,), dtype=float32),
            'force_torque': Tensor(shape=(24,), dtype=float32),
            'imu': Tensor(shape=(6,), dtype=float32),
            'torso_upright': Tensor(shape=(1,), dtype=float32),
            'torso_velocity': Tensor(shape=(3,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
эпизод_возврат Тензор поплавок32
шаги Набор данных
шаги/действие Тензор (12,) поплавок32
шаги/скидка Тензор (1,) поплавок32
шаги / is_first Тензор логический
шаги/is_last Тензор логический
шаги/is_terminal Тензор логический
шаги/наблюдение ОсобенностиDict
шаги/наблюдение/эгоцентрическое_состояние Тензор (44,) поплавок32
шаги/наблюдение/force_torque Тензор (24,) поплавок32
шаги/наблюдение/иму Тензор (6,) поплавок32
шаги/наблюдение/torso_upright Тензор (1,) поплавок32
шаги/наблюдение/torso_velocity Тензор (3,) поплавок32
шаги/награда Тензор (1,) поплавок32

rlu_rwrl/walker_walk_combined_challenge_none_1_percent

  • Размер набора данных : 6.27 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'train' 50
  • Структура функции :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'height': Tensor(shape=(1,), dtype=float32),
            'orientations': Tensor(shape=(14,), dtype=float32),
            'velocity': Tensor(shape=(9,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
эпизод_возврат Тензор поплавок32
шаги Набор данных
шаги/действие Тензор (6,) поплавок32
шаги/скидка Тензор (1,) поплавок32
шаги / is_first Тензор логический
шаги/is_last Тензор логический
шаги/is_terminal Тензор логический
шаги/наблюдение ОсобенностиDict
шаги/наблюдение/высота Тензор (1,) поплавок32
шаги/наблюдение/ориентация Тензор (14,) поплавок32
шаги/наблюдение/скорость Тензор (9,) поплавок32
шаги/награда Тензор (1,) поплавок32

rlu_rwrl/walker_walk_combined_challenge_none_5_percent

  • Размер набора данных : 31.34 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'train' 250
  • Структура функции :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'height': Tensor(shape=(1,), dtype=float32),
            'orientations': Tensor(shape=(14,), dtype=float32),
            'velocity': Tensor(shape=(9,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
эпизод_возврат Тензор поплавок32
шаги Набор данных
шаги/действие Тензор (6,) поплавок32
шаги/скидка Тензор (1,) поплавок32
шаги / is_first Тензор логический
шаги/is_last Тензор логический
шаги/is_terminal Тензор логический
шаги/наблюдение ОсобенностиDict
шаги/наблюдение/высота Тензор (1,) поплавок32
шаги/наблюдение/ориентация Тензор (14,) поплавок32
шаги/наблюдение/скорость Тензор (9,) поплавок32
шаги/награда Тензор (1,) поплавок32

rlu_rwrl/walker_walk_combined_challenge_none_20_percent

  • Размер набора данных : 125.37 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'train' 1000
  • Структура функции :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'height': Tensor(shape=(1,), dtype=float32),
            'orientations': Tensor(shape=(14,), dtype=float32),
            'velocity': Tensor(shape=(9,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
эпизод_возврат Тензор поплавок32
шаги Набор данных
шаги/действие Тензор (6,) поплавок32
шаги/скидка Тензор (1,) поплавок32
шаги / is_first Тензор логический
шаги/is_last Тензор логический
шаги/is_terminal Тензор логический
шаги/наблюдение ОсобенностиDict
шаги/наблюдение/высота Тензор (1,) поплавок32
шаги/наблюдение/ориентация Тензор (14,) поплавок32
шаги/наблюдение/скорость Тензор (9,) поплавок32
шаги/награда Тензор (1,) поплавок32

rlu_rwrl/walker_walk_combined_challenge_none_40_percent

  • Размер набора данных : 250.75 MiB .

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'train' 2000
  • Структура функции :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'height': Tensor(shape=(1,), dtype=float32),
            'orientations': Tensor(shape=(14,), dtype=float32),
            'velocity': Tensor(shape=(9,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
эпизод_возврат Тензор поплавок32
шаги Набор данных
шаги/действие Тензор (6,) поплавок32
шаги/скидка Тензор (1,) поплавок32
шаги / is_first Тензор логический
шаги/is_last Тензор логический
шаги/is_terminal Тензор логический
шаги/наблюдение ОсобенностиDict
шаги/наблюдение/высота Тензор (1,) поплавок32
шаги/наблюдение/ориентация Тензор (14,) поплавок32
шаги/наблюдение/скорость Тензор (9,) поплавок32
шаги/награда Тензор (1,) поплавок32

rlu_rwrl/walker_walk_combined_challenge_none_100_percent

  • Размер набора данных : 626.86 MiB .

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'train' 5000
  • Структура функции :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'height': Tensor(shape=(1,), dtype=float32),
            'orientations': Tensor(shape=(14,), dtype=float32),
            'velocity': Tensor(shape=(9,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
эпизод_возврат Тензор поплавок32
шаги Набор данных
шаги/действие Тензор (6,) поплавок32
шаги/скидка Тензор (1,) поплавок32
шаги / is_first Тензор логический
шаги/is_last Тензор логический
шаги/is_terminal Тензор логический
шаги/наблюдение ОсобенностиDict
шаги/наблюдение/высота Тензор (1,) поплавок32
шаги/наблюдение/ориентация Тензор (14,) поплавок32
шаги/наблюдение/скорость Тензор (9,) поплавок32
шаги/награда Тензор (1,) поплавок32

rlu_rwrl/humanoid_walk_combined_challenge_none_1_percent

  • Размер набора данных : 69.40 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'train' 200
  • Структура функции :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(21,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'com_velocity': Tensor(shape=(3,), dtype=float32),
            'extremities': Tensor(shape=(12,), dtype=float32),
            'head_height': Tensor(shape=(1,), dtype=float32),
            'joint_angles': Tensor(shape=(21,), dtype=float32),
            'torso_vertical': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(27,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
эпизод_возврат Тензор поплавок32
шаги Набор данных
шаги/действие Тензор (21,) поплавок32
шаги/скидка Тензор (1,) поплавок32
шаги / is_first Тензор логический
шаги/is_last Тензор логический
шаги/is_terminal Тензор логический
шаги/наблюдение ОсобенностиDict
шаги/наблюдение/com_velocity Тензор (3,) поплавок32
шаги/наблюдение/конечности Тензор (12,) поплавок32
шаги/наблюдение/head_height Тензор (1,) поплавок32
шаги/наблюдение/joint_angles Тензор (21,) поплавок32
шаги/наблюдение/torso_vertical Тензор (3,) поплавок32
шаги/наблюдение/скорость Тензор (27,) поплавок32
шаги/награда Тензор (1,) поплавок32

rlu_rwrl/humanoid_walk_combined_challenge_none_5_percent

  • Размер набора данных : 346.98 MiB .

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'train' 1000
  • Структура функции :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(21,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'com_velocity': Tensor(shape=(3,), dtype=float32),
            'extremities': Tensor(shape=(12,), dtype=float32),
            'head_height': Tensor(shape=(1,), dtype=float32),
            'joint_angles': Tensor(shape=(21,), dtype=float32),
            'torso_vertical': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(27,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
эпизод_возврат Тензор поплавок32
шаги Набор данных
шаги/действие Тензор (21,) поплавок32
шаги/скидка Тензор (1,) поплавок32
шаги / is_first Тензор логический
шаги/is_last Тензор логический
шаги/is_terminal Тензор логический
шаги/наблюдение ОсобенностиDict
шаги/наблюдение/com_velocity Тензор (3,) поплавок32
шаги/наблюдение/конечности Тензор (12,) поплавок32
шаги/наблюдение/head_height Тензор (1,) поплавок32
шаги/наблюдение/joint_angles Тензор (21,) поплавок32
шаги/наблюдение/torso_vertical Тензор (3,) поплавок32
шаги/наблюдение/скорость Тензор (27,) поплавок32
шаги/награда Тензор (1,) поплавок32

rlu_rwrl/humanoid_walk_combined_challenge_none_20_percent

  • Размер набора данных : 1.36 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'train' 4000
  • Структура функции :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(21,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'com_velocity': Tensor(shape=(3,), dtype=float32),
            'extremities': Tensor(shape=(12,), dtype=float32),
            'head_height': Tensor(shape=(1,), dtype=float32),
            'joint_angles': Tensor(shape=(21,), dtype=float32),
            'torso_vertical': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(27,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
эпизод_возврат Тензор поплавок32
шаги Набор данных
шаги/действие Тензор (21,) поплавок32
шаги/скидка Тензор (1,) поплавок32
шаги / is_first Тензор логический
шаги/is_last Тензор логический
шаги/is_terminal Тензор логический
шаги/наблюдение ОсобенностиDict
шаги/наблюдение/com_velocity Тензор (3,) поплавок32
шаги/наблюдение/конечности Тензор (12,) поплавок32
шаги/наблюдение/head_height Тензор (1,) поплавок32
шаги/наблюдение/joint_angles Тензор (21,) поплавок32
шаги/наблюдение/torso_vertical Тензор (3,) поплавок32
шаги/наблюдение/скорость Тензор (27,) поплавок32
шаги/награда Тензор (1,) поплавок32

rlu_rwrl/humanoid_walk_combined_challenge_none_40_percent

  • Размер набора данных : 2.71 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'train' 8000
  • Структура функции :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(21,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'com_velocity': Tensor(shape=(3,), dtype=float32),
            'extremities': Tensor(shape=(12,), dtype=float32),
            'head_height': Tensor(shape=(1,), dtype=float32),
            'joint_angles': Tensor(shape=(21,), dtype=float32),
            'torso_vertical': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(27,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
эпизод_возврат Тензор поплавок32
шаги Набор данных
шаги/действие Тензор (21,) поплавок32
шаги/скидка Тензор (1,) поплавок32
шаги / is_first Тензор логический
шаги/is_last Тензор логический
шаги/is_terminal Тензор логический
шаги/наблюдение ОсобенностиDict
шаги/наблюдение/com_velocity Тензор (3,) поплавок32
шаги/наблюдение/конечности Тензор (12,) поплавок32
шаги/наблюдение/head_height Тензор (1,) поплавок32
шаги/наблюдение/joint_angles Тензор (21,) поплавок32
шаги/наблюдение/torso_vertical Тензор (3,) поплавок32
шаги/наблюдение/скорость Тензор (27,) поплавок32
шаги/награда Тензор (1,) поплавок32

rlu_rwrl/humanoid_walk_combined_challenge_none_100_percent

  • Размер набора данных : 6.78 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'train' 20 000
  • Структура функции :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(21,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'com_velocity': Tensor(shape=(3,), dtype=float32),
            'extremities': Tensor(shape=(12,), dtype=float32),
            'head_height': Tensor(shape=(1,), dtype=float32),
            'joint_angles': Tensor(shape=(21,), dtype=float32),
            'torso_vertical': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(27,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
эпизод_возврат Тензор поплавок32
шаги Набор данных
шаги/действие Тензор (21,) поплавок32
шаги/скидка Тензор (1,) поплавок32
шаги / is_first Тензор логический
шаги/is_last Тензор логический
шаги/is_terminal Тензор логический
шаги/наблюдение ОсобенностиDict
шаги/наблюдение/com_velocity Тензор (3,) поплавок32
шаги/наблюдение/конечности Тензор (12,) поплавок32
шаги/наблюдение/head_height Тензор (1,) поплавок32
шаги/наблюдение/joint_angles Тензор (21,) поплавок32
шаги/наблюдение/torso_vertical Тензор (3,) поплавок32
шаги/наблюдение/скорость Тензор (27,) поплавок32
шаги/награда Тензор (1,) поплавок32

rlu_rwrl/cartpole_swingup_combined_challenge_easy_1_percent

  • Размер набора данных : 369.84 KiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'train' 5
  • Структура функции :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(1,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'dummy-0': Tensor(shape=(1,), dtype=float32),
            'dummy-1': Tensor(shape=(1,), dtype=float32),
            'dummy-2': Tensor(shape=(1,), dtype=float32),
            'dummy-3': Tensor(shape=(1,), dtype=float32),
            'dummy-4': Tensor(shape=(1,), dtype=float32),
            'dummy-5': Tensor(shape=(1,), dtype=float32),
            'dummy-6': Tensor(shape=(1,), dtype=float32),
            'dummy-7': Tensor(shape=(1,), dtype=float32),
            'dummy-8': Tensor(shape=(1,), dtype=float32),
            'dummy-9': Tensor(shape=(1,), dtype=float32),
            'position': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(2,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
эпизод_возврат Тензор поплавок32
шаги Набор данных
шаги/действие Тензор (1,) поплавок32
шаги/скидка Тензор (1,) поплавок32
шаги / is_first Тензор логический
шаги/is_last Тензор логический
шаги/is_terminal Тензор логический
шаги/наблюдение ОсобенностиDict
шаги/наблюдение/манекен-0 Тензор (1,) поплавок32
шаги/наблюдение/манекен-1 Тензор (1,) поплавок32
шаги/наблюдение/манекен-2 Тензор (1,) поплавок32
шаги/наблюдение/манекен-3 Тензор (1,) поплавок32
шаги/наблюдение/манекен-4 Тензор (1,) поплавок32
шаги/наблюдение/манекен-5 Тензор (1,) поплавок32
шаги/наблюдение/манекен-6 Тензор (1,) поплавок32
шаги/наблюдение/манекен-7 Тензор (1,) поплавок32
шаги/наблюдение/манекен-8 Тензор (1,) поплавок32
шаги/наблюдение/манекен-9 Тензор (1,) поплавок32
шаги/наблюдение/позиция Тензор (3,) поплавок32
шаги/наблюдение/скорость Тензор (2,) поплавок32
шаги/награда Тензор (1,) поплавок32

rlu_rwrl/cartpole_swingup_combined_challenge_easy_5_percent

  • Размер набора данных : 1.81 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'train' 25
  • Структура функции :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(1,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'dummy-0': Tensor(shape=(1,), dtype=float32),
            'dummy-1': Tensor(shape=(1,), dtype=float32),
            'dummy-2': Tensor(shape=(1,), dtype=float32),
            'dummy-3': Tensor(shape=(1,), dtype=float32),
            'dummy-4': Tensor(shape=(1,), dtype=float32),
            'dummy-5': Tensor(shape=(1,), dtype=float32),
            'dummy-6': Tensor(shape=(1,), dtype=float32),
            'dummy-7': Tensor(shape=(1,), dtype=float32),
            'dummy-8': Tensor(shape=(1,), dtype=float32),
            'dummy-9': Tensor(shape=(1,), dtype=float32),
            'position': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(2,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
эпизод_возврат Тензор поплавок32
шаги Набор данных
шаги/действие Тензор (1,) поплавок32
шаги/скидка Тензор (1,) поплавок32
шаги / is_first Тензор логический
шаги/is_last Тензор логический
шаги/is_terminal Тензор логический
шаги/наблюдение ОсобенностиDict
шаги/наблюдение/манекен-0 Тензор (1,) поплавок32
шаги/наблюдение/манекен-1 Тензор (1,) поплавок32
шаги/наблюдение/манекен-2 Тензор (1,) поплавок32
шаги/наблюдение/манекен-3 Тензор (1,) поплавок32
шаги/наблюдение/манекен-4 Тензор (1,) поплавок32
шаги/наблюдение/манекен-5 Тензор (1,) поплавок32
шаги/наблюдение/манекен-6 Тензор (1,) поплавок32
шаги/наблюдение/манекен-7 Тензор (1,) поплавок32
шаги/наблюдение/манекен-8 Тензор (1,) поплавок32
шаги/наблюдение/манекен-9 Тензор (1,) поплавок32
шаги/наблюдение/позиция Тензор (3,) поплавок32
шаги/наблюдение/скорость Тензор (2,) поплавок32
шаги/награда Тензор (1,) поплавок32

rlu_rwrl/cartpole_swingup_combined_challenge_easy_20_percent

  • Размер набора данных : 7.22 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'train' 100
  • Структура функции :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(1,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'dummy-0': Tensor(shape=(1,), dtype=float32),
            'dummy-1': Tensor(shape=(1,), dtype=float32),
            'dummy-2': Tensor(shape=(1,), dtype=float32),
            'dummy-3': Tensor(shape=(1,), dtype=float32),
            'dummy-4': Tensor(shape=(1,), dtype=float32),
            'dummy-5': Tensor(shape=(1,), dtype=float32),
            'dummy-6': Tensor(shape=(1,), dtype=float32),
            'dummy-7': Tensor(shape=(1,), dtype=float32),
            'dummy-8': Tensor(shape=(1,), dtype=float32),
            'dummy-9': Tensor(shape=(1,), dtype=float32),
            'position': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(2,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
эпизод_возврат Тензор поплавок32
шаги Набор данных
шаги/действие Тензор (1,) поплавок32
шаги/скидка Тензор (1,) поплавок32
шаги / is_first Тензор логический
шаги/is_last Тензор логический
шаги/is_terminal Тензор логический
шаги/наблюдение ОсобенностиDict
шаги/наблюдение/манекен-0 Тензор (1,) поплавок32
шаги/наблюдение/манекен-1 Тензор (1,) поплавок32
шаги/наблюдение/манекен-2 Тензор (1,) поплавок32
шаги/наблюдение/манекен-3 Тензор (1,) поплавок32
шаги/наблюдение/манекен-4 Тензор (1,) поплавок32
шаги/наблюдение/манекен-5 Тензор (1,) поплавок32
шаги/наблюдение/манекен-6 Тензор (1,) поплавок32
шаги/наблюдение/манекен-7 Тензор (1,) поплавок32
шаги/наблюдение/манекен-8 Тензор (1,) поплавок32
шаги/наблюдение/манекен-9 Тензор (1,) поплавок32
шаги/наблюдение/позиция Тензор (3,) поплавок32
шаги/наблюдение/скорость Тензор (2,) поплавок32
шаги/награда Тензор (1,) поплавок32

rlu_rwrl/cartpole_swingup_combined_challenge_easy_40_percent

  • Размер набора данных : 14.45 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'train' 200
  • Структура функции :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(1,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'dummy-0': Tensor(shape=(1,), dtype=float32),
            'dummy-1': Tensor(shape=(1,), dtype=float32),
            'dummy-2': Tensor(shape=(1,), dtype=float32),
            'dummy-3': Tensor(shape=(1,), dtype=float32),
            'dummy-4': Tensor(shape=(1,), dtype=float32),
            'dummy-5': Tensor(shape=(1,), dtype=float32),
            'dummy-6': Tensor(shape=(1,), dtype=float32),
            'dummy-7': Tensor(shape=(1,), dtype=float32),
            'dummy-8': Tensor(shape=(1,), dtype=float32),
            'dummy-9': Tensor(shape=(1,), dtype=float32),
            'position': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(2,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
эпизод_возврат Тензор поплавок32
шаги Набор данных
шаги/действие Тензор (1,) поплавок32
шаги/скидка Тензор (1,) поплавок32
шаги / is_first Тензор логический
шаги/is_last Тензор логический
шаги/is_terminal Тензор логический
шаги/наблюдение ОсобенностиDict
шаги/наблюдение/манекен-0 Тензор (1,) поплавок32
шаги/наблюдение/манекен-1 Тензор (1,) поплавок32
шаги/наблюдение/манекен-2 Тензор (1,) поплавок32
шаги/наблюдение/манекен-3 Тензор (1,) поплавок32
шаги/наблюдение/манекен-4 Тензор (1,) поплавок32
шаги/наблюдение/манекен-5 Тензор (1,) поплавок32
шаги/наблюдение/манекен-6 Тензор (1,) поплавок32
шаги/наблюдение/манекен-7 Тензор (1,) поплавок32
шаги/наблюдение/манекен-8 Тензор (1,) поплавок32
шаги/наблюдение/манекен-9 Тензор (1,) поплавок32
шаги/наблюдение/позиция Тензор (3,) поплавок32
шаги/наблюдение/скорость Тензор (2,) поплавок32
шаги/награда Тензор (1,) поплавок32

rlu_rwrl/cartpole_swingup_combined_challenge_easy_100_percent

  • Размер набора данных : 36.12 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'train' 500
  • Структура функции :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(1,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'dummy-0': Tensor(shape=(1,), dtype=float32),
            'dummy-1': Tensor(shape=(1,), dtype=float32),
            'dummy-2': Tensor(shape=(1,), dtype=float32),
            'dummy-3': Tensor(shape=(1,), dtype=float32),
            'dummy-4': Tensor(shape=(1,), dtype=float32),
            'dummy-5': Tensor(shape=(1,), dtype=float32),
            'dummy-6': Tensor(shape=(1,), dtype=float32),
            'dummy-7': Tensor(shape=(1,), dtype=float32),
            'dummy-8': Tensor(shape=(1,), dtype=float32),
            'dummy-9': Tensor(shape=(1,), dtype=float32),
            'position': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(2,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
эпизод_возврат Тензор поплавок32
шаги Набор данных
шаги/действие Тензор (1,) поплавок32
шаги/скидка Тензор (1,) поплавок32
шаги / is_first Тензор логический
шаги/is_last Тензор логический
шаги/is_terminal Тензор логический
шаги/наблюдение ОсобенностиDict
шаги/наблюдение/манекен-0 Тензор (1,) поплавок32
шаги/наблюдение/манекен-1 Тензор (1,) поплавок32
шаги/наблюдение/манекен-2 Тензор (1,) поплавок32
шаги/наблюдение/манекен-3 Тензор (1,) поплавок32
шаги/наблюдение/манекен-4 Тензор (1,) поплавок32
шаги/наблюдение/манекен-5 Тензор (1,) поплавок32
шаги/наблюдение/манекен-6 Тензор (1,) поплавок32
шаги/наблюдение/манекен-7 Тензор (1,) поплавок32
шаги/наблюдение/манекен-8 Тензор (1,) поплавок32
шаги/наблюдение/манекен-9 Тензор (1,) поплавок32
шаги/наблюдение/позиция Тензор (3,) поплавок32
шаги/наблюдение/скорость Тензор (2,) поплавок32
шаги/награда Тензор (1,) поплавок32

rlu_rwrl/quadruped_walk_combined_challenge_easy_1_percent

  • Размер набора данных : 1.97 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'train' 5
  • Структура функции :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(12,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'dummy-0': Tensor(shape=(1,), dtype=float32),
            'dummy-1': Tensor(shape=(1,), dtype=float32),
            'dummy-2': Tensor(shape=(1,), dtype=float32),
            'dummy-3': Tensor(shape=(1,), dtype=float32),
            'dummy-4': Tensor(shape=(1,), dtype=float32),
            'dummy-5': Tensor(shape=(1,), dtype=float32),
            'dummy-6': Tensor(shape=(1,), dtype=float32),
            'dummy-7': Tensor(shape=(1,), dtype=float32),
            'dummy-8': Tensor(shape=(1,), dtype=float32),
            'dummy-9': Tensor(shape=(1,), dtype=float32),
            'egocentric_state': Tensor(shape=(44,), dtype=float32),
            'force_torque': Tensor(shape=(24,), dtype=float32),
            'imu': Tensor(shape=(6,), dtype=float32),
            'torso_upright': Tensor(shape=(1,), dtype=float32),
            'torso_velocity': Tensor(shape=(3,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
эпизод_возврат Тензор поплавок32
шаги Набор данных
шаги/действие Тензор (12,) поплавок32
шаги/скидка Тензор (1,) поплавок32
шаги / is_first Тензор логический
шаги/is_last Тензор логический
шаги/is_terminal Тензор логический
шаги/наблюдение ОсобенностиDict
шаги/наблюдение/манекен-0 Тензор (1,) поплавок32
шаги/наблюдение/манекен-1 Тензор (1,) поплавок32
шаги/наблюдение/манекен-2 Тензор (1,) поплавок32
шаги/наблюдение/манекен-3 Тензор (1,) поплавок32
шаги/наблюдение/манекен-4 Тензор (1,) поплавок32
шаги/наблюдение/манекен-5 Тензор (1,) поплавок32
шаги/наблюдение/манекен-6 Тензор (1,) поплавок32
шаги/наблюдение/манекен-7 Тензор (1,) поплавок32
шаги/наблюдение/манекен-8 Тензор (1,) поплавок32
шаги/наблюдение/манекен-9 Тензор (1,) поплавок32
шаги/наблюдение/эгоцентрическое_состояние Тензор (44,) поплавок32
шаги/наблюдение/force_torque Тензор (24,) поплавок32
шаги/наблюдение/иму Тензор (6,) поплавок32
шаги/наблюдение/torso_upright Тензор (1,) поплавок32
шаги/наблюдение/torso_velocity Тензор (3,) поплавок32
шаги/награда Тензор (1,) поплавок32

rlu_rwrl/quadruped_walk_combined_challenge_easy_5_percent

  • Размер набора данных : 9.83 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'train' 25
  • Структура функции :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(12,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'dummy-0': Tensor(shape=(1,), dtype=float32),
            'dummy-1': Tensor(shape=(1,), dtype=float32),
            'dummy-2': Tensor(shape=(1,), dtype=float32),
            'dummy-3': Tensor(shape=(1,), dtype=float32),
            'dummy-4': Tensor(shape=(1,), dtype=float32),
            'dummy-5': Tensor(shape=(1,), dtype=float32),
            'dummy-6': Tensor(shape=(1,), dtype=float32),
            'dummy-7': Tensor(shape=(1,), dtype=float32),
            'dummy-8': Tensor(shape=(1,), dtype=float32),
            'dummy-9': Tensor(shape=(1,), dtype=float32),
            'egocentric_state': Tensor(shape=(44,), dtype=float32),
            'force_torque': Tensor(shape=(24,), dtype=float32),
            'imu': Tensor(shape=(6,), dtype=float32),
            'torso_upright': Tensor(shape=(1,), dtype=float32),
            'torso_velocity': Tensor(shape=(3,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
эпизод_возврат Тензор поплавок32
шаги Набор данных
шаги/действие Тензор (12,) поплавок32
шаги/скидка Тензор (1,) поплавок32
шаги / is_first Тензор логический
шаги/is_last Тензор логический
шаги/is_terminal Тензор логический
шаги/наблюдение ОсобенностиDict
шаги/наблюдение/манекен-0 Тензор (1,) поплавок32
шаги/наблюдение/манекен-1 Тензор (1,) поплавок32
шаги/наблюдение/манекен-2 Тензор (1,) поплавок32
шаги/наблюдение/манекен-3 Тензор (1,) поплавок32
шаги/наблюдение/манекен-4 Тензор (1,) поплавок32
шаги/наблюдение/манекен-5 Тензор (1,) поплавок32
шаги/наблюдение/манекен-6 Тензор (1,) поплавок32
шаги/наблюдение/манекен-7 Тензор (1,) поплавок32
шаги/наблюдение/манекен-8 Тензор (1,) поплавок32
шаги/наблюдение/манекен-9 Тензор (1,) поплавок32
шаги/наблюдение/эгоцентрическое_состояние Тензор (44,) поплавок32
шаги/наблюдение/force_torque Тензор (24,) поплавок32
шаги/наблюдение/иму Тензор (6,) поплавок32
шаги/наблюдение/torso_upright Тензор (1,) поплавок32
шаги/наблюдение/torso_velocity Тензор (3,) поплавок32
шаги/награда Тензор (1,) поплавок32

rlu_rwrl/quadruped_walk_combined_challenge_easy_20_percent

  • Размер набора данных : 39.31 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'train' 100
  • Структура функции :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(12,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'dummy-0': Tensor(shape=(1,), dtype=float32),
            'dummy-1': Tensor(shape=(1,), dtype=float32),
            'dummy-2': Tensor(shape=(1,), dtype=float32),
            'dummy-3': Tensor(shape=(1,), dtype=float32),
            'dummy-4': Tensor(shape=(1,), dtype=float32),
            'dummy-5': Tensor(shape=(1,), dtype=float32),
            'dummy-6': Tensor(shape=(1,), dtype=float32),
            'dummy-7': Tensor(shape=(1,), dtype=float32),
            'dummy-8': Tensor(shape=(1,), dtype=float32),
            'dummy-9': Tensor(shape=(1,), dtype=float32),
            'egocentric_state': Tensor(shape=(44,), dtype=float32),
            'force_torque': Tensor(shape=(24,), dtype=float32),
            'imu': Tensor(shape=(6,), dtype=float32),
            'torso_upright': Tensor(shape=(1,), dtype=float32),
            'torso_velocity': Tensor(shape=(3,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
эпизод_возврат Тензор поплавок32
шаги Набор данных
шаги/действие Тензор (12,) поплавок32
шаги/скидка Тензор (1,) поплавок32
шаги / is_first Тензор логический
шаги/is_last Тензор логический
шаги/is_terminal Тензор логический
шаги/наблюдение ОсобенностиDict
шаги/наблюдение/манекен-0 Тензор (1,) поплавок32
шаги/наблюдение/манекен-1 Тензор (1,) поплавок32
шаги/наблюдение/манекен-2 Тензор (1,) поплавок32
шаги/наблюдение/манекен-3 Тензор (1,) поплавок32
шаги/наблюдение/манекен-4 Тензор (1,) поплавок32
шаги/наблюдение/манекен-5 Тензор (1,) поплавок32
шаги/наблюдение/манекен-6 Тензор (1,) поплавок32
шаги/наблюдение/манекен-7 Тензор (1,) поплавок32
шаги/наблюдение/манекен-8 Тензор (1,) поплавок32
шаги/наблюдение/манекен-9 Тензор (1,) поплавок32
шаги/наблюдение/эгоцентрическое_состояние Тензор (44,) поплавок32
шаги/наблюдение/force_torque Тензор (24,) поплавок32
шаги/наблюдение/иму Тензор (6,) поплавок32
шаги/наблюдение/torso_upright Тензор (1,) поплавок32
шаги/наблюдение/torso_velocity Тензор (3,) поплавок32
шаги/награда Тензор (1,) поплавок32

rlu_rwrl/quadruped_walk_combined_challenge_easy_40_percent

  • Размер набора данных : 78.63 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'train' 200
  • Структура функции :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(12,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'dummy-0': Tensor(shape=(1,), dtype=float32),
            'dummy-1': Tensor(shape=(1,), dtype=float32),
            'dummy-2': Tensor(shape=(1,), dtype=float32),
            'dummy-3': Tensor(shape=(1,), dtype=float32),
            'dummy-4': Tensor(shape=(1,), dtype=float32),
            'dummy-5': Tensor(shape=(1,), dtype=float32),
            'dummy-6': Tensor(shape=(1,), dtype=float32),
            'dummy-7': Tensor(shape=(1,), dtype=float32),
            'dummy-8': Tensor(shape=(1,), dtype=float32),
            'dummy-9': Tensor(shape=(1,), dtype=float32),
            'egocentric_state': Tensor(shape=(44,), dtype=float32),
            'force_torque': Tensor(shape=(24,), dtype=float32),
            'imu': Tensor(shape=(6,), dtype=float32),
            'torso_upright': Tensor(shape=(1,), dtype=float32),
            'torso_velocity': Tensor(shape=(3,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
эпизод_возврат Тензор поплавок32
шаги Набор данных
шаги/действие Тензор (12,) поплавок32
шаги/скидка Тензор (1,) поплавок32
шаги / is_first Тензор логический
шаги/is_last Тензор логический
шаги/is_terminal Тензор логический
шаги/наблюдение ОсобенностиDict
шаги/наблюдение/манекен-0 Тензор (1,) поплавок32
шаги/наблюдение/манекен-1 Тензор (1,) поплавок32
шаги/наблюдение/манекен-2 Тензор (1,) поплавок32
шаги/наблюдение/манекен-3 Тензор (1,) поплавок32
шаги/наблюдение/манекен-4 Тензор (1,) поплавок32
шаги/наблюдение/манекен-5 Тензор (1,) поплавок32
шаги/наблюдение/манекен-6 Тензор (1,) поплавок32
шаги/наблюдение/манекен-7 Тензор (1,) поплавок32
шаги/наблюдение/манекен-8 Тензор (1,) поплавок32
шаги/наблюдение/манекен-9 Тензор (1,) поплавок32
шаги/наблюдение/эгоцентрическое_состояние Тензор (44,) поплавок32
шаги/наблюдение/force_torque Тензор (24,) поплавок32
шаги/наблюдение/иму Тензор (6,) поплавок32
шаги/наблюдение/torso_upright Тензор (1,) поплавок32
шаги/наблюдение/torso_velocity Тензор (3,) поплавок32
шаги/награда Тензор (1,) поплавок32

rlu_rwrl/quadruped_walk_combined_challenge_easy_100_percent

  • Размер набора данных : 196.57 MiB .

  • Автокэширование ( документация ): только когда shuffle_files=False (поезд)

  • Сплиты :

Расколоть Примеры
'train' 500
  • Структура функции :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(12,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'dummy-0': Tensor(shape=(1,), dtype=float32),
            'dummy-1': Tensor(shape=(1,), dtype=float32),
            'dummy-2': Tensor(shape=(1,), dtype=float32),
            'dummy-3': Tensor(shape=(1,), dtype=float32),
            'dummy-4': Tensor(shape=(1,), dtype=float32),
            'dummy-5': Tensor(shape=(1,), dtype=float32),
            'dummy-6': Tensor(shape=(1,), dtype=float32),
            'dummy-7': Tensor(shape=(1,), dtype=float32),
            'dummy-8': Tensor(shape=(1,), dtype=float32),
            'dummy-9': Tensor(shape=(1,), dtype=float32),
            'egocentric_state': Tensor(shape=(44,), dtype=float32),
            'force_torque': Tensor(shape=(24,), dtype=float32),
            'imu': Tensor(shape=(6,), dtype=float32),
            'torso_upright': Tensor(shape=(1,), dtype=float32),
            'torso_velocity': Tensor(shape=(3,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
эпизод_возврат Тензор поплавок32
шаги Набор данных
шаги/действие Тензор (12,) поплавок32
шаги/скидка Тензор (1,) поплавок32
шаги / is_first Тензор логический
шаги/is_last Тензор логический
шаги/is_terminal Тензор логический
шаги/наблюдение ОсобенностиDict
шаги/наблюдение/манекен-0 Тензор (1,) поплавок32
шаги/наблюдение/манекен-1 Тензор (1,) поплавок32
шаги/наблюдение/манекен-2 Тензор (1,) поплавок32
шаги/наблюдение/манекен-3 Тензор (1,) поплавок32
шаги/наблюдение/манекен-4 Тензор (1,) поплавок32
шаги/наблюдение/манекен-5 Тензор (1,) поплавок32
шаги/наблюдение/манекен-6 Тензор (1,) поплавок32
шаги/наблюдение/манекен-7 Тензор (1,) поплавок32
шаги/наблюдение/манекен-8 Тензор (1,) поплавок32
шаги/наблюдение/манекен-9 Тензор (1,) поплавок32
шаги/наблюдение/эгоцентрическое_состояние Тензор (44,) поплавок32
шаги/наблюдение/force_torque Тензор (24,) поплавок32
шаги/наблюдение/иму Тензор (6,) поплавок32
шаги/наблюдение/torso_upright Тензор (1,) поплавок32
шаги/наблюдение/torso_velocity Тензор (3,) поплавок32
шаги/награда Тензор (1,) поплавок32

rlu_rwrl/walker_walk_combined_challenge_easy_1_percent

  • Размер набора данных : 8.20 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'train' 50
  • Структура функции :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'dummy-0': Tensor(shape=(1,), dtype=float32),
            'dummy-1': Tensor(shape=(1,), dtype=float32),
            'dummy-2': Tensor(shape=(1,), dtype=float32),
            'dummy-3': Tensor(shape=(1,), dtype=float32),
            'dummy-4': Tensor(shape=(1,), dtype=float32),
            'dummy-5': Tensor(shape=(1,), dtype=float32),
            'dummy-6': Tensor(shape=(1,), dtype=float32),
            'dummy-7': Tensor(shape=(1,), dtype=float32),
            'dummy-8': Tensor(shape=(1,), dtype=float32),
            'dummy-9': Tensor(shape=(1,), dtype=float32),
            'height': Tensor(shape=(1,), dtype=float32),
            'orientations': Tensor(shape=(14,), dtype=float32),
            'velocity': Tensor(shape=(9,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
эпизод_возврат Тензор поплавок32
шаги Набор данных
шаги/действие Тензор (6,) поплавок32
шаги/скидка Тензор (1,) поплавок32
шаги / is_first Тензор логический
шаги/is_last Тензор логический
шаги/is_terminal Тензор логический
шаги/наблюдение ОсобенностиDict
шаги/наблюдение/манекен-0 Тензор (1,) поплавок32
шаги/наблюдение/манекен-1 Тензор (1,) поплавок32
шаги/наблюдение/манекен-2 Тензор (1,) поплавок32
шаги/наблюдение/манекен-3 Тензор (1,) поплавок32
шаги/наблюдение/манекен-4 Тензор (1,) поплавок32
шаги/наблюдение/манекен-5 Тензор (1,) поплавок32
шаги/наблюдение/манекен-6 Тензор (1,) поплавок32
шаги/наблюдение/манекен-7 Тензор (1,) поплавок32
шаги/наблюдение/манекен-8 Тензор (1,) поплавок32
шаги/наблюдение/манекен-9 Тензор (1,) поплавок32
шаги/наблюдение/высота Тензор (1,) поплавок32
шаги/наблюдение/ориентация Тензор (14,) поплавок32
шаги/наблюдение/скорость Тензор (9,) поплавок32
шаги/награда Тензор (1,) поплавок32

rlu_rwrl/walker_walk_combined_challenge_easy_5_percent

  • Размер набора данных : 40.98 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'train' 250
  • Структура функции :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'dummy-0': Tensor(shape=(1,), dtype=float32),
            'dummy-1': Tensor(shape=(1,), dtype=float32),
            'dummy-2': Tensor(shape=(1,), dtype=float32),
            'dummy-3': Tensor(shape=(1,), dtype=float32),
            'dummy-4': Tensor(shape=(1,), dtype=float32),
            'dummy-5': Tensor(shape=(1,), dtype=float32),
            'dummy-6': Tensor(shape=(1,), dtype=float32),
            'dummy-7': Tensor(shape=(1,), dtype=float32),
            'dummy-8': Tensor(shape=(1,), dtype=float32),
            'dummy-9': Tensor(shape=(1,), dtype=float32),
            'height': Tensor(shape=(1,), dtype=float32),
            'orientations': Tensor(shape=(14,), dtype=float32),
            'velocity': Tensor(shape=(9,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
эпизод_возврат Тензор поплавок32
шаги Набор данных
шаги/действие Тензор (6,) поплавок32
шаги/скидка Тензор (1,) поплавок32
шаги / is_first Тензор логический
шаги/is_last Тензор логический
шаги/is_terminal Тензор логический
шаги/наблюдение ОсобенностиDict
шаги/наблюдение/манекен-0 Тензор (1,) поплавок32
шаги/наблюдение/манекен-1 Тензор (1,) поплавок32
шаги/наблюдение/манекен-2 Тензор (1,) поплавок32
шаги/наблюдение/манекен-3 Тензор (1,) поплавок32
шаги/наблюдение/манекен-4 Тензор (1,) поплавок32
шаги/наблюдение/манекен-5 Тензор (1,) поплавок32
шаги/наблюдение/манекен-6 Тензор (1,) поплавок32
шаги/наблюдение/манекен-7 Тензор (1,) поплавок32
шаги/наблюдение/манекен-8 Тензор (1,) поплавок32
шаги/наблюдение/манекен-9 Тензор (1,) поплавок32
шаги/наблюдение/высота Тензор (1,) поплавок32
шаги/наблюдение/ориентация Тензор (14,) поплавок32
шаги/наблюдение/скорость Тензор (9,) поплавок32
шаги/награда Тензор (1,) поплавок32

rlu_rwrl/walker_walk_combined_challenge_easy_20_percent

  • Размер набора данных : 163.93 MiB .

  • Автокэширование ( документация ): только когда shuffle_files=False (поезд)

  • Сплиты :

Расколоть Примеры
'train' 1000
  • Структура функции :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'dummy-0': Tensor(shape=(1,), dtype=float32),
            'dummy-1': Tensor(shape=(1,), dtype=float32),
            'dummy-2': Tensor(shape=(1,), dtype=float32),
            'dummy-3': Tensor(shape=(1,), dtype=float32),
            'dummy-4': Tensor(shape=(1,), dtype=float32),
            'dummy-5': Tensor(shape=(1,), dtype=float32),
            'dummy-6': Tensor(shape=(1,), dtype=float32),
            'dummy-7': Tensor(shape=(1,), dtype=float32),
            'dummy-8': Tensor(shape=(1,), dtype=float32),
            'dummy-9': Tensor(shape=(1,), dtype=float32),
            'height': Tensor(shape=(1,), dtype=float32),
            'orientations': Tensor(shape=(14,), dtype=float32),
            'velocity': Tensor(shape=(9,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
эпизод_возврат Тензор поплавок32
шаги Набор данных
шаги/действие Тензор (6,) поплавок32
шаги/скидка Тензор (1,) поплавок32
шаги / is_first Тензор логический
шаги/is_last Тензор логический
шаги/is_terminal Тензор логический
шаги/наблюдение ОсобенностиDict
шаги/наблюдение/манекен-0 Тензор (1,) поплавок32
шаги/наблюдение/манекен-1 Тензор (1,) поплавок32
шаги/наблюдение/манекен-2 Тензор (1,) поплавок32
шаги/наблюдение/манекен-3 Тензор (1,) поплавок32
шаги/наблюдение/манекен-4 Тензор (1,) поплавок32
шаги/наблюдение/манекен-5 Тензор (1,) поплавок32
шаги/наблюдение/манекен-6 Тензор (1,) поплавок32
шаги/наблюдение/манекен-7 Тензор (1,) поплавок32
шаги/наблюдение/манекен-8 Тензор (1,) поплавок32
шаги/наблюдение/манекен-9 Тензор (1,) поплавок32
шаги/наблюдение/высота Тензор (1,) поплавок32
шаги/наблюдение/ориентация Тензор (14,) поплавок32
шаги/наблюдение/скорость Тензор (9,) поплавок32
шаги/награда Тензор (1,) поплавок32

rlu_rwrl/walker_walk_combined_challenge_easy_40_percent

  • Размер набора данных : 327.86 MiB .

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'train' 2000
  • Структура функции :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'dummy-0': Tensor(shape=(1,), dtype=float32),
            'dummy-1': Tensor(shape=(1,), dtype=float32),
            'dummy-2': Tensor(shape=(1,), dtype=float32),
            'dummy-3': Tensor(shape=(1,), dtype=float32),
            'dummy-4': Tensor(shape=(1,), dtype=float32),
            'dummy-5': Tensor(shape=(1,), dtype=float32),
            'dummy-6': Tensor(shape=(1,), dtype=float32),
            'dummy-7': Tensor(shape=(1,), dtype=float32),
            'dummy-8': Tensor(shape=(1,), dtype=float32),
            'dummy-9': Tensor(shape=(1,), dtype=float32),
            'height': Tensor(shape=(1,), dtype=float32),
            'orientations': Tensor(shape=(14,), dtype=float32),
            'velocity': Tensor(shape=(9,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
эпизод_возврат Тензор поплавок32
шаги Набор данных
шаги/действие Тензор (6,) поплавок32
шаги/скидка Тензор (1,) поплавок32
шаги / is_first Тензор логический
шаги/is_last Тензор логический
шаги/is_terminal Тензор логический
шаги/наблюдение ОсобенностиDict
шаги/наблюдение/манекен-0 Тензор (1,) поплавок32
шаги/наблюдение/манекен-1 Тензор (1,) поплавок32
шаги/наблюдение/манекен-2 Тензор (1,) поплавок32
шаги/наблюдение/манекен-3 Тензор (1,) поплавок32
шаги/наблюдение/манекен-4 Тензор (1,) поплавок32
шаги/наблюдение/манекен-5 Тензор (1,) поплавок32
шаги/наблюдение/манекен-6 Тензор (1,) поплавок32
шаги/наблюдение/манекен-7 Тензор (1,) поплавок32
шаги/наблюдение/манекен-8 Тензор (1,) поплавок32
шаги/наблюдение/манекен-9 Тензор (1,) поплавок32
шаги/наблюдение/высота Тензор (1,) поплавок32
шаги/наблюдение/ориентация Тензор (14,) поплавок32
шаги/наблюдение/скорость Тензор (9,) поплавок32
шаги/награда Тензор (1,) поплавок32

rlu_rwrl/walker_walk_combined_challenge_easy_100_percent

  • Размер набора данных : 819.65 MiB .

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'train' 5000
  • Структура функции :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'dummy-0': Tensor(shape=(1,), dtype=float32),
            'dummy-1': Tensor(shape=(1,), dtype=float32),
            'dummy-2': Tensor(shape=(1,), dtype=float32),
            'dummy-3': Tensor(shape=(1,), dtype=float32),
            'dummy-4': Tensor(shape=(1,), dtype=float32),
            'dummy-5': Tensor(shape=(1,), dtype=float32),
            'dummy-6': Tensor(shape=(1,), dtype=float32),
            'dummy-7': Tensor(shape=(1,), dtype=float32),
            'dummy-8': Tensor(shape=(1,), dtype=float32),
            'dummy-9': Tensor(shape=(1,), dtype=float32),
            'height': Tensor(shape=(1,), dtype=float32),
            'orientations': Tensor(shape=(14,), dtype=float32),
            'velocity': Tensor(shape=(9,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
эпизод_возврат Тензор поплавок32
шаги Набор данных
шаги/действие Тензор (6,) поплавок32
шаги/скидка Тензор (1,) поплавок32
шаги / is_first Тензор логический
шаги/is_last Тензор логический
шаги/is_terminal Тензор логический
шаги/наблюдение ОсобенностиDict
шаги/наблюдение/манекен-0 Тензор (1,) поплавок32
шаги/наблюдение/манекен-1 Тензор (1,) поплавок32
шаги/наблюдение/манекен-2 Тензор (1,) поплавок32
шаги/наблюдение/манекен-3 Тензор (1,) поплавок32
шаги/наблюдение/манекен-4 Тензор (1,) поплавок32
шаги/наблюдение/манекен-5 Тензор (1,) поплавок32
шаги/наблюдение/манекен-6 Тензор (1,) поплавок32
шаги/наблюдение/манекен-7 Тензор (1,) поплавок32
шаги/наблюдение/манекен-8 Тензор (1,) поплавок32
шаги/наблюдение/манекен-9 Тензор (1,) поплавок32
шаги/наблюдение/высота Тензор (1,) поплавок32
шаги/наблюдение/ориентация Тензор (14,) поплавок32
шаги/наблюдение/скорость Тензор (9,) поплавок32
шаги/награда Тензор (1,) поплавок32

rlu_rwrl/humanoid_walk_combined_challenge_easy_1_percent

  • Размер набора данных : 77.11 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'train' 200
  • Структура функции :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(21,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'com_velocity': Tensor(shape=(3,), dtype=float32),
            'dummy-0': Tensor(shape=(1,), dtype=float32),
            'dummy-1': Tensor(shape=(1,), dtype=float32),
            'dummy-2': Tensor(shape=(1,), dtype=float32),
            'dummy-3': Tensor(shape=(1,), dtype=float32),
            'dummy-4': Tensor(shape=(1,), dtype=float32),
            'dummy-5': Tensor(shape=(1,), dtype=float32),
            'dummy-6': Tensor(shape=(1,), dtype=float32),
            'dummy-7': Tensor(shape=(1,), dtype=float32),
            'dummy-8': Tensor(shape=(1,), dtype=float32),
            'dummy-9': Tensor(shape=(1,), dtype=float32),
            'extremities': Tensor(shape=(12,), dtype=float32),
            'head_height': Tensor(shape=(1,), dtype=float32),
            'joint_angles': Tensor(shape=(21,), dtype=float32),
            'torso_vertical': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(27,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
эпизод_возврат Тензор поплавок32
шаги Набор данных
шаги/действие Тензор (21,) поплавок32
шаги/скидка Тензор (1,) поплавок32
шаги / is_first Тензор логический
шаги/is_last Тензор логический
шаги/is_terminal Тензор логический
шаги/наблюдение ОсобенностиDict
шаги/наблюдение/com_velocity Тензор (3,) поплавок32
шаги/наблюдение/манекен-0 Тензор (1,) поплавок32
шаги/наблюдение/манекен-1 Тензор (1,) поплавок32
шаги/наблюдение/манекен-2 Тензор (1,) поплавок32
шаги/наблюдение/манекен-3 Тензор (1,) поплавок32
шаги/наблюдение/манекен-4 Тензор (1,) поплавок32
шаги/наблюдение/манекен-5 Тензор (1,) поплавок32
шаги/наблюдение/манекен-6 Тензор (1,) поплавок32
шаги/наблюдение/манекен-7 Тензор (1,) поплавок32
шаги/наблюдение/манекен-8 Тензор (1,) поплавок32
шаги/наблюдение/манекен-9 Тензор (1,) поплавок32
шаги/наблюдение/конечности Тензор (12,) поплавок32
шаги/наблюдение/head_height Тензор (1,) поплавок32
шаги/наблюдение/joint_angles Тензор (21,) поплавок32
шаги/наблюдение/torso_vertical Тензор (3,) поплавок32
шаги/наблюдение/скорость Тензор (27,) поплавок32
шаги/награда Тензор (1,) поплавок32

rlu_rwrl/humanoid_walk_combined_challenge_easy_5_percent

  • Размер набора данных : 385.54 MiB .

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'train' 1000
  • Структура функции :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(21,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'com_velocity': Tensor(shape=(3,), dtype=float32),
            'dummy-0': Tensor(shape=(1,), dtype=float32),
            'dummy-1': Tensor(shape=(1,), dtype=float32),
            'dummy-2': Tensor(shape=(1,), dtype=float32),
            'dummy-3': Tensor(shape=(1,), dtype=float32),
            'dummy-4': Tensor(shape=(1,), dtype=float32),
            'dummy-5': Tensor(shape=(1,), dtype=float32),
            'dummy-6': Tensor(shape=(1,), dtype=float32),
            'dummy-7': Tensor(shape=(1,), dtype=float32),
            'dummy-8': Tensor(shape=(1,), dtype=float32),
            'dummy-9': Tensor(shape=(1,), dtype=float32),
            'extremities': Tensor(shape=(12,), dtype=float32),
            'head_height': Tensor(shape=(1,), dtype=float32),
            'joint_angles': Tensor(shape=(21,), dtype=float32),
            'torso_vertical': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(27,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
эпизод_возврат Тензор поплавок32
шаги Набор данных
шаги/действие Тензор (21,) поплавок32
шаги/скидка Тензор (1,) поплавок32
шаги / is_first Тензор логический
шаги/is_last Тензор логический
шаги/is_terminal Тензор логический
шаги/наблюдение ОсобенностиDict
шаги/наблюдение/com_velocity Тензор (3,) поплавок32
шаги/наблюдение/манекен-0 Тензор (1,) поплавок32
шаги/наблюдение/манекен-1 Тензор (1,) поплавок32
шаги/наблюдение/манекен-2 Тензор (1,) поплавок32
шаги/наблюдение/манекен-3 Тензор (1,) поплавок32
шаги/наблюдение/манекен-4 Тензор (1,) поплавок32
шаги/наблюдение/манекен-5 Тензор (1,) поплавок32
шаги/наблюдение/манекен-6 Тензор (1,) поплавок32
шаги/наблюдение/манекен-7 Тензор (1,) поплавок32
шаги/наблюдение/манекен-8 Тензор (1,) поплавок32
шаги/наблюдение/манекен-9 Тензор (1,) поплавок32
шаги/наблюдение/конечности Тензор (12,) поплавок32
шаги/наблюдение/head_height Тензор (1,) поплавок32
шаги/наблюдение/joint_angles Тензор (21,) поплавок32
шаги/наблюдение/torso_vertical Тензор (3,) поплавок32
шаги/наблюдение/скорость Тензор (27,) поплавок32
шаги/награда Тензор (1,) поплавок32

rlu_rwrl/humanoid_walk_combined_challenge_easy_20_percent

  • Размер набора данных : 1.51 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'train' 4000
  • Структура функции :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(21,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'com_velocity': Tensor(shape=(3,), dtype=float32),
            'dummy-0': Tensor(shape=(1,), dtype=float32),
            'dummy-1': Tensor(shape=(1,), dtype=float32),
            'dummy-2': Tensor(shape=(1,), dtype=float32),
            'dummy-3': Tensor(shape=(1,), dtype=float32),
            'dummy-4': Tensor(shape=(1,), dtype=float32),
            'dummy-5': Tensor(shape=(1,), dtype=float32),
            'dummy-6': Tensor(shape=(1,), dtype=float32),
            'dummy-7': Tensor(shape=(1,), dtype=float32),
            'dummy-8': Tensor(shape=(1,), dtype=float32),
            'dummy-9': Tensor(shape=(1,), dtype=float32),
            'extremities': Tensor(shape=(12,), dtype=float32),
            'head_height': Tensor(shape=(1,), dtype=float32),
            'joint_angles': Tensor(shape=(21,), dtype=float32),
            'torso_vertical': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(27,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
эпизод_возврат Тензор поплавок32
шаги Набор данных
шаги/действие Тензор (21,) поплавок32
шаги/скидка Тензор (1,) поплавок32
шаги / is_first Тензор логический
шаги/is_last Тензор логический
шаги/is_terminal Тензор логический
шаги/наблюдение ОсобенностиDict
шаги/наблюдение/com_velocity Тензор (3,) поплавок32
шаги/наблюдение/манекен-0 Тензор (1,) поплавок32
шаги/наблюдение/манекен-1 Тензор (1,) поплавок32
шаги/наблюдение/манекен-2 Тензор (1,) поплавок32
шаги/наблюдение/манекен-3 Тензор (1,) поплавок32
шаги/наблюдение/манекен-4 Тензор (1,) поплавок32
шаги/наблюдение/манекен-5 Тензор (1,) поплавок32
шаги/наблюдение/манекен-6 Тензор (1,) поплавок32
шаги/наблюдение/манекен-7 Тензор (1,) поплавок32
шаги/наблюдение/манекен-8 Тензор (1,) поплавок32
шаги/наблюдение/манекен-9 Тензор (1,) поплавок32
шаги/наблюдение/конечности Тензор (12,) поплавок32
шаги/наблюдение/head_height Тензор (1,) поплавок32
шаги/наблюдение/joint_angles Тензор (21,) поплавок32
шаги/наблюдение/torso_vertical Тензор (3,) поплавок32
шаги/наблюдение/скорость Тензор (27,) поплавок32
шаги/награда Тензор (1,) поплавок32

rlu_rwrl/humanoid_walk_combined_challenge_easy_40_percent

  • Размер набора данных : 3.01 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'train' 8000
  • Структура функции :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(21,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'com_velocity': Tensor(shape=(3,), dtype=float32),
            'dummy-0': Tensor(shape=(1,), dtype=float32),
            'dummy-1': Tensor(shape=(1,), dtype=float32),
            'dummy-2': Tensor(shape=(1,), dtype=float32),
            'dummy-3': Tensor(shape=(1,), dtype=float32),
            'dummy-4': Tensor(shape=(1,), dtype=float32),
            'dummy-5': Tensor(shape=(1,), dtype=float32),
            'dummy-6': Tensor(shape=(1,), dtype=float32),
            'dummy-7': Tensor(shape=(1,), dtype=float32),
            'dummy-8': Tensor(shape=(1,), dtype=float32),
            'dummy-9': Tensor(shape=(1,), dtype=float32),
            'extremities': Tensor(shape=(12,), dtype=float32),
            'head_height': Tensor(shape=(1,), dtype=float32),
            'joint_angles': Tensor(shape=(21,), dtype=float32),
            'torso_vertical': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(27,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
эпизод_возврат Тензор поплавок32
шаги Набор данных
шаги/действие Тензор (21,) поплавок32
шаги/скидка Тензор (1,) поплавок32
шаги / is_first Тензор логический
шаги/is_last Тензор логический
шаги/is_terminal Тензор логический
шаги/наблюдение ОсобенностиDict
шаги/наблюдение/com_velocity Тензор (3,) поплавок32
шаги/наблюдение/манекен-0 Тензор (1,) поплавок32
шаги/наблюдение/манекен-1 Тензор (1,) поплавок32
шаги/наблюдение/манекен-2 Тензор (1,) поплавок32
шаги/наблюдение/манекен-3 Тензор (1,) поплавок32
шаги/наблюдение/манекен-4 Тензор (1,) поплавок32
шаги/наблюдение/манекен-5 Тензор (1,) поплавок32
шаги/наблюдение/манекен-6 Тензор (1,) поплавок32
шаги/наблюдение/манекен-7 Тензор (1,) поплавок32
шаги/наблюдение/манекен-8 Тензор (1,) поплавок32
шаги/наблюдение/манекен-9 Тензор (1,) поплавок32
шаги/наблюдение/конечности Тензор (12,) поплавок32
шаги/наблюдение/head_height Тензор (1,) поплавок32
шаги/наблюдение/joint_angles Тензор (21,) поплавок32
шаги/наблюдение/torso_vertical Тензор (3,) поплавок32
шаги/наблюдение/скорость Тензор (27,) поплавок32
шаги/награда Тензор (1,) поплавок32

rlu_rwrl/humanoid_walk_combined_challenge_easy_100_percent

  • Размер набора данных : 7.53 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'train' 20 000
  • Структура функции :
FeaturesDict({
    'episode_return': float32,
    'steps': Dataset({
        'action': Tensor(shape=(21,), dtype=float32),
        'discount': Tensor(shape=(1,), dtype=float32),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'com_velocity': Tensor(shape=(3,), dtype=float32),
            'dummy-0': Tensor(shape=(1,), dtype=float32),
            'dummy-1': Tensor(shape=(1,), dtype=float32),
            'dummy-2': Tensor(shape=(1,), dtype=float32),
            'dummy-3': Tensor(shape=(1,), dtype=float32),
            'dummy-4': Tensor(shape=(1,), dtype=float32),
            'dummy-5': Tensor(shape=(1,), dtype=float32),
            'dummy-6': Tensor(shape=(1,), dtype=float32),
            'dummy-7': Tensor(shape=(1,), dtype=float32),
            'dummy-8': Tensor(shape=(1,), dtype=float32),
            'dummy-9': Tensor(shape=(1,), dtype=float32),
            'extremities': Tensor(shape=(12,), dtype=float32),
            'head_height': Tensor(shape=(1,), dtype=float32),
            'joint_angles': Tensor(shape=(21,), dtype=float32),
            'torso_vertical': Tensor(shape=(3,), dtype=float32),
            'velocity': Tensor(shape=(27,), dtype=float32),
        }),
        'reward': Tensor(shape=(1,), dtype=float32),
    }),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
эпизод_возврат Тензор поплавок32
шаги Набор данных
шаги/действие Тензор (21,) поплавок32
шаги/скидка Тензор (1,) поплавок32
шаги / is_first Тензор логический
шаги/is_last Тензор логический
шаги/is_terminal Тензор логический
шаги/наблюдение ОсобенностиDict
шаги/наблюдение/com_velocity Тензор (3,) поплавок32
шаги/наблюдение/манекен-0 Тензор (1,) поплавок32
шаги/наблюдение/манекен-1 Тензор (1,) поплавок32
шаги/наблюдение/манекен-2 Тензор (1,) поплавок32
шаги/наблюдение/манекен-3 Тензор (1,) поплавок32
шаги/наблюдение/манекен-4 Тензор (1,) поплавок32
шаги/наблюдение/манекен-5 Тензор (1,) поплавок32
шаги/наблюдение/манекен-6 Тензор (1,) поплавок32
шаги/наблюдение/манекен-7 Тензор (1,) поплавок32
шаги/наблюдение/манекен-8 Тензор (1,) поплавок32
шаги/наблюдение/манекен-9 Тензор (1,) поплавок32
шаги/наблюдение/конечности Тензор (12,) поплавок32
шаги/наблюдение/head_height Тензор (1,) поплавок32
шаги/наблюдение/joint_angles Тензор (21,) поплавок32
шаги/наблюдение/torso_vertical Тензор (3,) поплавок32
шаги/наблюдение/скорость Тензор (27,) поплавок32
шаги/награда Тензор (1,) поплавок32