- Описание :
Новый набор данных из 7787 подлинных научных вопросов с несколькими вариантами ответов уровня начальной школы, собранный для поощрения исследований в области сложных ответов на вопросы. Набор данных разделен на набор задач и простой набор, где первый содержит только вопросы, на которые неправильно ответил алгоритм, основанный на поиске, и алгоритм совпадения слов. Мы также включаем корпус из более чем 14 миллионов научных предложений, имеющих отношение к задаче, и реализацию трех нейронных базовых моделей для этого набора данных. Мы ставим ARC как вызов сообществу.
По сравнению с исходным набором данных он добавляет контекстные предложения, полученные в результате информационного поиска так же, как UnifiedQA (см.: https://arxiv.org/abs/2005.00700 ).
Дополнительная документация : изучить документы с кодом
Домашняя страница : https://allenai.org/data/arc
Исходный код :
tfds.datasets.ai2_arc_with_ir.Builder
Версии :
-
1.0.0
(по умолчанию): нет примечаний к выпуску.
-
Размер загрузки :
3.68 MiB
Автоматическое кэширование ( документация ): Да
Структура функции :
FeaturesDict({
'answerKey': ClassLabel(shape=(), dtype=int64, num_classes=5),
'choices': Sequence({
'label': ClassLabel(shape=(), dtype=int64, num_classes=5),
'text': Text(shape=(), dtype=string),
}),
'id': Text(shape=(), dtype=string),
'paragraph': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
ключ ответа | Метка класса | int64 | ||
выбор | Последовательность | |||
выбор/метка | Метка класса | int64 | ||
выбор/текст | Текст | нить | ||
я бы | Текст | нить | ||
параграф | Текст | нить | ||
вопрос | Текст | нить |
Ключи под наблюдением (см . документ
as_supervised
):None
Рисунок ( tfds.show_examples ): не поддерживается.
Цитата :
@article{allenai:arc,
author = {Peter Clark and Isaac Cowhey and Oren Etzioni and Tushar Khot and
Ashish Sabharwal and Carissa Schoenick and Oyvind Tafjord},
title = {Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge},
journal = {arXiv:1803.05457v1},
year = {2018},
}
@article{2020unifiedqa,
title={UnifiedQA: Crossing Format Boundaries With a Single QA System},
author={D. Khashabi and S. Min and T. Khot and A. Sabhwaral and O. Tafjord and P. Clark and H. Hajishirzi},
journal={arXiv preprint},
year={2020}
}
ai2_arc_with_ir/ARC-Challenge-IR (конфигурация по умолчанию)
Описание конфигурации : набор задач из 2590 «трудных» вопросов (тех, на которые не удается правильно ответить как методом поиска, так и методом одновременности)
Размер набора данных :
3.76 MiB
.Сплиты :
Расколоть | Примеры |
---|---|
'test' | 1172 |
'train' | 1119 |
'validation' | 299 |
- Примеры ( tfds.as_dataframe ):
ai2_arc_with_ir/ARC-Easy-IR
Описание конфигурации : простой набор из 5197 вопросов для ARC Challenge.
Размер набора данных :
7.49 MiB
.Сплиты :
Расколоть | Примеры |
---|---|
'test' | 2376 |
'train' | 2251 |
'validation' | 570 |
- Примеры ( tfds.as_dataframe ):