- الوصف :
RL Unplugged عبارة عن مجموعة من المعايير للتعلم المعزز في وضع عدم الاتصال. تم تصميم RL Unplugged حول الاعتبارات التالية: لتسهيل الاستخدام ، نوفر مجموعات البيانات بواجهة برمجة تطبيقات موحدة تسهل على الممارس العمل مع جميع البيانات الموجودة في المجموعة بمجرد إنشاء خط أنابيب عام.
تتبع مجموعات البيانات تنسيق RLDS لتمثيل الخطوات والحلقات.
تحتوي مجموعة بيانات DeepMind Lab على عدة مستويات من مجموعة Deepmind Lab الصعبة والتي يمكن ملاحظتها جزئيًا. يتم جمع مجموعة بيانات DeepMind Lab عن طريق التدريب الموزع على R2D2 بواسطة Kapturowski et al. ، 2018 وكلاء من الصفر في المهام الفردية. لقد سجلنا التجربة عبر جميع الممثلين أثناء تشغيل التدريب بالكامل عدة مرات لكل مهمة. تم وصف تفاصيل عملية إنشاء مجموعة البيانات في Gulcehre et al. ، 2021 .
قمنا بإصدار مجموعات بيانات لخمسة مستويات مختلفة من مختبر DeepMind: seekavoid_arena_01
، explore_rewards_few
، explore_rewards_many
، rooms_watermaze
، rooms_select_nonmatching_object
. قمنا أيضًا بإصدار مجموعات بيانات اللقطة لمستوى seekavoid_arena_01
الذي أنشأنا مجموعات البيانات من لقطة R2D2 مدربة بمستويات مختلفة من إبسيلون لخوارزمية إبسيلون-الجشع عند تقييم العامل في البيئة.
مجموعة بيانات DeepMind Lab واسعة النطاق إلى حد ما. نوصيك بتجربتها إذا كنت مهتمًا بنماذج RL غير المتصلة بالإنترنت ذات الذاكرة.
الصفحة الرئيسية : https://github.com/deepmind/deepmind-research/tree/master/rl_unplugged
كود المصدر :
tfds.rl_unplugged.rlu_dmlab_explore_object_rewards_few.RluDmlabExploreObjectRewardsFew
إصدارات :
-
1.0.0
: الإصدار الأولي. -
1.1.0
: تمت الإضافة is_last. -
1.2.0
(افتراضي): BGR -> إصلاح RGB لملاحظات البكسل.
-
حجم التنزيل :
Unknown size
التخزين المؤقت التلقائي ( التوثيق ): لا
الانقسامات :
انشق، مزق | أمثلة |
---|---|
'train' | 89144 |
- هيكل الميزة :
FeaturesDict({
'episode_id': int64,
'episode_return': float32,
'steps': Dataset({
'action': int64,
'discount': float32,
'is_first': bool,
'is_last': bool,
'is_terminal': bool,
'observation': FeaturesDict({
'last_action': int64,
'last_reward': float32,
'pixels': Image(shape=(72, 96, 3), dtype=uint8),
}),
'reward': float32,
}),
})
- وثائق الميزة :
ميزة | فصل | شكل | نوع | وصف |
---|---|---|---|---|
الميزات | ||||
معرّف_حلقة | موتر | int64 | ||
الحلقة_العودة | موتر | تعويم 32 | ||
خطوات | مجموعة البيانات | |||
خطوات / عمل | موتر | int64 | ||
خطوات / خصم | موتر | تعويم 32 | ||
الخطوات / is_first | موتر | منطقي | ||
الخطوات / is_last | موتر | منطقي | ||
الخطوات / is_terminal | موتر | منطقي | ||
خطوات / ملاحظة | الميزات | |||
الخطوات / الملاحظة / الإجراء الأخير | موتر | int64 | ||
الخطوات / الملاحظة / المكافأة الأخيرة | موتر | تعويم 32 | ||
خطوات / ملاحظة / بكسل | صورة | (72 ، 96 ، 3) | uint8 | |
خطوات / مكافأة | موتر | تعويم 32 |
المفاتيح الخاضعة للإشراف (انظر المستند
as_supervised
):None
الشكل ( tfds.show_examples ): غير مدعوم.
الاقتباس :
@article{gulcehre2021rbve,
title={Regularized Behavior Value Estimation},
author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
Sergio G{\'{o} }mez Colmenarejo and
Ziyu Wang and
Jakub Sygnowski and
Thomas Paine and
Konrad Zolna and
Yutian Chen and
Matthew W. Hoffman and
Razvan Pascanu and
Nando de Freitas},
year={2021},
journal = {CoRR},
url = {https://arxiv.org/abs/2103.09575},
eprint={2103.09575},
archivePrefix={arXiv},
}
rlu_dmlab_explore_object_rewards_few / training_0 (التكوين الافتراضي)
حجم مجموعة البيانات :
847.00 GiB
أمثلة ( tfds.as_dataframe ):
rlu_dmlab_explore_object_rewards_few / training_1
حجم مجموعة البيانات :
877.76 GiB
أمثلة ( tfds.as_dataframe ):
rlu_dmlab_explore_object_rewards_few / training_2
حجم مجموعة البيانات :
836.43 GiB
أمثلة ( tfds.as_dataframe ):