- Описание :
WikiBio построен на основе страниц биографии Википедии, содержит первый абзац и токенизированное информационное поле. Набор данных соответствует стандартному формату таблицы.
Дополнительная документация : изучить документы с кодом
Домашняя страница : https://github.com/DavidGrangier/wikipedia-biography-dataset
Исходный код :
tfds.structured.WikiBio
Версии :
-
0.1.0
(по умолчанию): нет примечаний к выпуску.
-
Размер загрузки :
318.53 MiB
Размер набора данных :
795.98 MiB
.Автоматическое кэширование ( документация ): Нет
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 72 831 |
'train' | 582 659 |
'validation' | 72 831 |
- Структура функции :
FeaturesDict({
'input_text': FeaturesDict({
'context': string,
'table': Sequence({
'column_header': string,
'content': string,
'row_number': int16,
}),
}),
'target_text': string,
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
input_text | ОсобенностиDict | |||
input_text/контекст | Тензор | нить | ||
input_text/таблица | Последовательность | |||
input_text/таблица/column_header | Тензор | нить | ||
input_text/таблица/содержание | Тензор | нить | ||
input_text/таблица/номер_строки | Тензор | int16 | ||
целевой_текст | Тензор | нить |
Контролируемые ключи (см . документ
as_supervised
):('input_text', 'target_text')
Рисунок ( tfds.show_examples ): не поддерживается.
Примеры ( tfds.as_dataframe ):
- Цитата :
@inproceedings{lebret-etal-2016-neural,
title = "Neural Text Generation from Structured Data with Application to the Biography Domain",
author = "Lebret, R{'e}mi and
Grangier, David and
Auli, Michael",
booktitle = "Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing",
month = nov,
year = "2016",
address = "Austin, Texas",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/D16-1128",
doi = "10.18653/v1/D16-1128",
pages = "1203--1213",
}