bot_adversarial_dialogue

  • Описание :

Набор данных состязательного диалога ботов.

Наборы данных диалогов, помеченные как оскорбительные, из задачи «Состязательный диалог ботов». Диалоги были собраны путем предложения людям враждебно разговаривать с ботами.

Подробности в статье .

@misc{xu2021recipes,
      title={Recipes for Safety in Open-domain Chatbots},
      author={Jing Xu and Da Ju and Margaret Li and Y-Lan Boureau and Jason Weston and Emily Dinan},
      year={2021},
      eprint={2010.07079},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

bot_adversarial_dialogue/dialogue_datasets (конфигурация по умолчанию)

  • Описание конфигурации : наборы данных диалога, разделенные на поезда, проверки и тесты.

  • Размер загрузки : 3.06 MiB

  • Размер набора данных : 23.38 MiB

  • Расколы :

Расколоть Примеры
'test' 2598
'train' 69 274
'valid' 7002
  • Структура функции :
FeaturesDict({
    'bot_persona': Sequence(Text(shape=(), dtype=string)),
    'dialogue_id': float32,
    'episode_done': bool,
    'id': Text(shape=(), dtype=string),
    'labels': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'round_id': float32,
    'speaker_to_eval': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
})
  • Функциональная документация :
Особенность Сорт Форма Дтип Описание
ВозможностиDict
bot_persona Последовательность (Текст) (Никто,) нить Персона, олицетворяемая ботом.
id_диалога Тензор поплавок32
эпизод_done Тензор логическое значение
идентификатор Текст нить Идентификатор образца.
этикетки Класслейбл int64
round_id Тензор поплавок32
динамик_to_eval Текст нить Диктор высказываний помечен.
текст Текст нить Высказывание, подлежащее классификации.

bot_adversarial_dialogue/human_nonadv_safety_eval

  • Описание конфигурации : набор для оценки безопасности человека, который оценивается краудсорсинговыми работниками на предмет оскорбительного характера.

  • Размер загрузки : 10.57 KiB

  • Размер набора данных : 34.55 KiB

  • Расколы :

Расколоть Примеры
'test' 180
  • Структура функции :
FeaturesDict({
    'episode_done': bool,
    'id': Text(shape=(), dtype=string),
    'labels': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(), dtype=string),
})
  • Функциональная документация :
Особенность Сорт Форма Дтип Описание
ВозможностиDict
эпизод_done Тензор логическое значение
идентификатор Текст нить Идентификатор образца.
этикетки Класслейбл int64
текст Текст нить Высказывание, подлежащее классификации.