- Описание :
WikiDialog — это большой набор данных искусственно сгенерированных диалогов с целью поиска информации. Каждый разговор в наборе данных содержит двух говорящих, основанных на отрывке из английской Википедии: высказывания одного говорящего состоят из точных предложений из отрывка; другой говорящий генерируется большой языковой моделью.
Описание конфига: WikiDialog сгенерирован из диалога inpainter, тонко настроенного на OR-QuAC и QReCC.
OQ
означает OR-QuAC и QReCC.Домашняя страница : https://github.com/google-research/dialog-inpainting#wikidialog-oq
Исходный код :
tfds.text.wiki_dialog.WikiDialog
Версии :
-
1.0.0
(по умолчанию): Первоначальный выпуск.
-
Размер загрузки :
7.04 GiB
Размер набора данных :
36.58 GiB
Автоматическое кэширование ( документация ): Нет
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 11 264 129 |
'validation' | 113 822 |
- Структура функции :
FeaturesDict({
'author_num': Sequence(int32),
'passage': Text(shape=(), dtype=string),
'pid': Text(shape=(), dtype=string),
'sentences': Sequence(Text(shape=(), dtype=string)),
'title': Text(shape=(), dtype=string),
'utterances': Sequence(Text(shape=(), dtype=string)),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
автор_номер | Последовательность (тензор) | (Никто,) | int32 | |
проход | Текст | нить | ||
pid | Текст | нить | ||
фразы | Последовательность (текст) | (Никто,) | нить | |
заглавие | Текст | нить | ||
высказывания | Последовательность (текст) | (Никто,) | нить |
Ключи под наблюдением (см . документ
as_supervised
):None
Рисунок ( tfds.show_examples ): не поддерживается.
Примеры ( tfds.as_dataframe ):
- Цитата :
@inproceedings{dai2022dialoginpainting,
title={Dialog Inpainting: Turning Documents to Dialogs},
author={Dai, Zhuyun and Chaganty, Arun Tejasvi and Zhao, Vincent and Amini, Aida and Green, Mike and Rashid, Qazi and Guu, Kelvin},
booktitle={International Conference on Machine Learning (ICML)},
year={2022},
organization={PMLR}
}