- Описание :
Корпус NQ содержит вопросы от реальных пользователей, и он требует, чтобы системы контроля качества прочитали и поняли всю статью в Википедии, которая может содержать или не содержать ответ на вопрос. Включение реальных вопросов пользователей и требование о том, что решения должны читать всю страницу, чтобы найти ответ, делают NQ более реалистичной и сложной задачей, чем предыдущие наборы данных QA.
Дополнительная документация : изучить документы с кодом
Домашняя страница : https://ai.google.com/research/NaturalQuestions/dataset
Исходный код :
tfds.datasets.natural_questions.Builder
Версии :
-
0.0.2
: Нет примечаний к выпуску. -
0.1.0
(по умолчанию): нет примечаний к выпуску.
-
Размер загрузки :
41.97 GiB
Автоматическое кэширование ( документация ): Нет
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 307 373 |
'validation' | 7830 |
Ключи под наблюдением (см . документ
as_supervised
):None
Рисунок ( tfds.show_examples ): не поддерживается.
Цитата :
@article{47761,
title = {Natural Questions: a Benchmark for Question Answering Research},
author = {Tom Kwiatkowski and Jennimaria Palomaki and Olivia Redfield and Michael Collins and Ankur Parikh and Chris Alberti and Danielle Epstein and Illia Polosukhin and Matthew Kelcey and Jacob Devlin and Kenton Lee and Kristina N. Toutanova and Llion Jones and Ming-Wei Chang and Andrew Dai and Jakob Uszkoreit and Quoc Le and Slav Petrov},
year = {2019},
journal = {Transactions of the Association of Computational Linguistics}
}
natural_questions/default (конфигурация по умолчанию)
Описание конфигурации : Конфигурация natural_questions по умолчанию
Размер набора данных :
90.26 GiB
Структура функции :
FeaturesDict({
'annotations': Sequence({
'id': string,
'long_answer': FeaturesDict({
'end_byte': int64,
'end_token': int64,
'start_byte': int64,
'start_token': int64,
}),
'short_answers': Sequence({
'end_byte': int64,
'end_token': int64,
'start_byte': int64,
'start_token': int64,
'text': Text(shape=(), dtype=string),
}),
'yes_no_answer': ClassLabel(shape=(), dtype=int64, num_classes=2),
}),
'document': FeaturesDict({
'html': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'tokens': Sequence({
'is_html': bool,
'token': Text(shape=(), dtype=string),
}),
'url': Text(shape=(), dtype=string),
}),
'id': string,
'question': FeaturesDict({
'text': Text(shape=(), dtype=string),
'tokens': Sequence(string),
}),
})
- Документация по функциям :
Особенность | Сорт | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
аннотации | Последовательность | |||
аннотации/идентификатор | Тензор | нить | ||
аннотации/long_answer | ОсобенностиDict | |||
аннотации/long_answer/end_byte | Тензор | int64 | ||
аннотации/long_answer/end_token | Тензор | int64 | ||
аннотации/long_answer/start_byte | Тензор | int64 | ||
аннотации/long_answer/start_token | Тензор | int64 | ||
аннотации/short_answers | Последовательность | |||
аннотации/short_answers/end_byte | Тензор | int64 | ||
аннотации/short_answers/end_token | Тензор | int64 | ||
аннотации/short_answers/start_byte | Тензор | int64 | ||
аннотации/short_answers/start_token | Тензор | int64 | ||
аннотации/короткие_ответы/текст | Текст | нить | ||
аннотации/yes_no_answer | Метка класса | int64 | ||
документ | ОсобенностиDict | |||
документ/html | Текст | нить | ||
Заголовок документа | Текст | нить | ||
документ/токены | Последовательность | |||
документ/токены/is_html | Тензор | логический | ||
документ/токены/токен | Текст | нить | ||
документ/ссылка | Текст | нить | ||
идентификатор | Тензор | нить | ||
вопрос | ОсобенностиDict | |||
вопрос/текст | Текст | нить | ||
вопрос/жетоны | Последовательность (тензор) | (Никто,) | нить |
- Примеры ( tfds.as_dataframe ):
natural_questions/longt5
Описание конфига: natural_questions предварительно обработаны как в бенчмарке longT5
Размер набора данных :
8.91 GiB
Структура функции :
FeaturesDict({
'all_answers': Sequence(Text(shape=(), dtype=string)),
'answer': Text(shape=(), dtype=string),
'context': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Сорт | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
all_answers | Последовательность (текст) | (Никто,) | нить | |
отвечать | Текст | нить | ||
контекст | Текст | нить | ||
идентификатор | Текст | нить | ||
вопрос | Текст | нить | ||
заголовок | Текст | нить |
- Примеры ( tfds.as_dataframe ):