- Описание :
Стэнфордский набор данных для ответов на вопросы (SQuAD) — это набор данных для понимания прочитанного, состоящий из вопросов, заданных краудворкерами в наборе статей Википедии, где ответом на каждый вопрос является сегмент текста или промежуток из соответствующего отрывка для чтения или вопроса. может остаться без ответа.
Дополнительная документация : изучить документы с кодом
Домашняя страница : https://rajpurkar.github.io/SQuAD-explorer/
Исходный код :
tfds.datasets.squad.Builder
Версии :
-
3.0.0
(по умолчанию): исправлена проблема с небольшим количеством примеров (19), где диапазоны ответов смещены из-за удаления контекстного пробела.
-
Ключи под наблюдением (см . документ
as_supervised
):None
Рисунок ( tfds.show_examples ): не поддерживается.
Цитата :
@article{2016arXiv160605250R,
author = { {Rajpurkar}, Pranav and {Zhang}, Jian and {Lopyrev},
Konstantin and {Liang}, Percy},
title = "{SQuAD: 100,000+ Questions for Machine Comprehension of Text}",
journal = {arXiv e-prints},
year = 2016,
eid = {arXiv:1606.05250},
pages = {arXiv:1606.05250},
archivePrefix = {arXiv},
eprint = {1606.05250},
}
отряд/v1.1 (конфигурация по умолчанию)
Описание конфигурации : Версия 1.1.0 SQUAD
Размер загрузки :
33.51 MiB
Размер набора данных :
94.06 MiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 87 599 |
'validation' | 10 570 |
- Структура функции :
FeaturesDict({
'answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'context': Text(shape=(), dtype=string),
'id': string,
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Документация по функциям :
Характерная черта | Класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
ответы | Последовательность | |||
ответы/answer_start | Тензор | int32 | ||
ответы/текст | Текст | нить | ||
контекст | Текст | нить | ||
я бы | Тензор | нить | ||
вопрос | Текст | нить | ||
заглавие | Текст | нить |
- Примеры ( tfds.as_dataframe ):
отряд/v2.0
Описание конфигурации : Версия 2.0.0 SQUAD
Размер загрузки :
44.34 MiB
.Размер набора данных :
148.54 MiB
.Автоматическое кэширование ( документация ): Да (проверка), только когда
shuffle_files=False
(поезд)Сплиты :
Расколоть | Примеры |
---|---|
'train' | 130 319 |
'validation' | 11 873 |
- Структура функции :
FeaturesDict({
'answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'context': Text(shape=(), dtype=string),
'id': string,
'is_impossible': bool,
'plausible_answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Документация по функциям :
Характерная черта | Класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
ответы | Последовательность | |||
ответы/answer_start | Тензор | int32 | ||
ответы/текст | Текст | нить | ||
контекст | Текст | нить | ||
я бы | Тензор | нить | ||
невозможно | Тензор | логический | ||
правдоподобные_ответы | Последовательность | |||
правдоподобные_ответы/answer_start | Тензор | int32 | ||
правдоподобные_ответы/текст | Текст | нить | ||
вопрос | Текст | нить | ||
заглавие | Текст | нить |
- Примеры ( tfds.as_dataframe ):