- Описание :
XQuAD (набор данных для ответов на вопросы на разных языках) — это эталонный набор данных для оценки эффективности ответов на вопросы на разных языках. Набор данных состоит из подмножества из 240 абзацев и 1190 пар вопросов-ответов из набора для разработки SQuAD v1.1 (Rajpurkar et al., 2016) вместе с их профессиональными переводами на десять языков: испанский, немецкий, греческий, русский, турецкий. , арабский, вьетнамский, тайский, китайский и хинди. Следовательно, набор данных полностью параллелен для 11 языков. Чтобы запустить XQuAD с настройками нулевого выстрела по умолчанию, используйте данные обучения и проверки SQuAD v1.1 здесь: https://www.tensorflow.org/datasets/catalog/squad .
Мы также включили разделы «перевод-обучение», «перевод-разработка» и «перевод-тест» для каждого языка, отличного от английского, из XTREME (Hu et al., 2020). Их можно использовать для запуска XQuAD в настройках «translate-train» или «translate-test».
Дополнительная документация : изучить документы с кодом
Домашняя страница : https://github.com/deepmind/xquad
Исходный код :
tfds.question_answering.Xquad
Версии :
-
3.0.0
(по умолчанию): исправлена проблема с рядом примеров, когда интервалы ответов смещены из-за удаления контекстного пробела. Это изменение затрагивает примерно 14% тестовых примеров.
-
Структура функции :
FeaturesDict({
'answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'context': Text(shape=(), dtype=string),
'id': string,
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
ответы | Последовательность | |||
ответы/answer_start | Тензор | int32 | ||
ответы/текст | Текст | нить | ||
контекст | Текст | нить | ||
я бы | Тензор | нить | ||
вопрос | Текст | нить | ||
заглавие | Текст | нить |
Ключи под наблюдением (см . документ
as_supervised
):None
Рисунок ( tfds.show_examples ): не поддерживается.
Цитата :
@article{Artetxe:etal:2019,
author = {Mikel Artetxe and Sebastian Ruder and Dani Yogatama},
title = {On the cross-lingual transferability of monolingual representations},
journal = {CoRR},
volume = {abs/1910.11856},
year = {2019},
archivePrefix = {arXiv},
eprint = {1910.11856}
}
xquad/ar (конфигурация по умолчанию)
Описание конфигурации : XQuAD 'ar' тестовое разделение с машинно-переведенными разделами translate-train/translate-dev/translate-test из XTREME (Hu et al., 2020).
Размер загрузки :
420.97 MiB
Размер набора данных :
134.83 MiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 1190 |
'translate-dev' | 10 541 |
'translate-test' | 1151 |
'translate-train' | 86 787 |
- Примеры ( tfds.as_dataframe ):
xquad/de
Описание конфигурации : тестовое разделение XQuAD 'de' с машинно-переведенными разделениями translate-train/translate-dev/translate-test из XTREME (Hu et al., 2020).
Размер загрузки :
127.04 MiB
Размер набора данных :
98.80 MiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 1190 |
'translate-dev' | 10 371 |
'translate-test' | 1168 |
'translate-train' | 82 603 |
- Примеры ( tfds.as_dataframe ):
xquad/эл
Описание конфигурации : тестовый раздел XQuAD 'el' с машинным переводом разделов translate-train/translate-dev/translate-test из XTREME (Hu et al., 2020).
Размер загрузки :
499.40 MiB
Размер набора данных :
157.90 MiB
.Автоматическое кэширование ( документация ): да (тест, перевод-разработчик, перевод-тест), только если
shuffle_files=False
(перевод-поезд)Сплиты :
Расколоть | Примеры |
---|---|
'test' | 1190 |
'translate-dev' | 10 100 |
'translate-test' | 1182 |
'translate-train' | 79 946 |
- Примеры ( tfds.as_dataframe ):
xquad/es
Описание конфигурации : тестовый раздел XQuAD 'es' с машинным переводом разделов translate-train/translate-dev/translate-test из XTREME (Hu et al., 2020).
Размер загрузки :
138.41 MiB
Размер набора данных :
104.96 MiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 1190 |
'translate-dev' | 10 566 |
'translate-test' | 1188 |
'translate-train' | 87 488 |
- Примеры ( tfds.as_dataframe ):
xquad/привет
Описание конфигурации : тест XQuAD «привет» с разделами «перевод-поезд»/перевод-разработчик/перевод-тест из XTREME (Hu et al., 2020).
Размер загрузки :
472.23 MiB
Размер набора данных :
207.85 MiB
.Автоматическое кэширование ( документация ): да (тест, перевод-разработчик, перевод-тест), только если
shuffle_files=False
(перевод-поезд)Сплиты :
Расколоть | Примеры |
---|---|
'test' | 1190 |
'translate-dev' | 10 536 |
'translate-test' | 1184 |
'translate-train' | 85 804 |
- Примеры ( tfds.as_dataframe ):
xquad/ru
Описание конфигурации : XQuAD 'ru' тестовое разделение с машинным переводом translate-train/translate-dev/translate-test из XTREME (Hu et al., 2020).
Размер загрузки :
513.80 MiB
Размер набора данных :
159.38 MiB
.Автоматическое кэширование ( документация ): да (тест, перевод-разработчик, перевод-тест), только если
shuffle_files=False
(перевод-поезд)Сплиты :
Расколоть | Примеры |
---|---|
'test' | 1190 |
'translate-dev' | 10 469 |
'translate-test' | 1190 |
'translate-train' | 84 869 |
- Примеры ( tfds.as_dataframe ):
xquad/th
Описание конфигурации : XQuAD 'th' тестовое разделение с машинно-переведенными разделами translate-train/translate-dev/translate-test из XTREME (Hu et al., 2020).
Размер загрузки :
461.54 MiB
Размер набора данных :
199.57 MiB
.Автоматическое кэширование ( документация ): да (тест, перевод-разработчик, перевод-тест), только если
shuffle_files=False
(перевод-поезд)Сплиты :
Расколоть | Примеры |
---|---|
'test' | 1190 |
'translate-dev' | 10 516 |
'translate-test' | 1157 |
'translate-train' | 85 846 |
- Примеры ( tfds.as_dataframe ):
xquad/tr
Описание конфигурации : XQuAD 'tr' test split, с машинно-переведенными разделами translate-train/translate-dev/translate-test из XTREME (Hu et al., 2020).
Размер загрузки :
151.08 MiB
Размер набора данных :
97.56 MiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 1190 |
'translate-dev' | 10 535 |
'translate-test' | 1112 |
'translate-train' | 86 511 |
- Примеры ( tfds.as_dataframe ):
xquad/ви
Описание конфигурации : XQuAD 'vi' test split, с машинно-переведенными разделами translate-train/translate-dev/translate-test из XTREME (Hu et al., 2020).
Размер загрузки :
218.09 MiB
Размер набора данных :
120.03 MiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 1190 |
'translate-dev' | 10 555 |
'translate-test' | 1178 |
'translate-train' | 87 187 |
- Примеры ( tfds.as_dataframe ):
xquad/ж
Описание конфигурации : XQuAD 'zh' тестовое разделение с машинно-переведенными разделами translate-train/translate-dev/translate-test из XTREME (Hu et al., 2020).
Размер загрузки :
174.57 MiB
Размер набора данных :
80.79 MiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 1190 |
'translate-dev' | 10 475 |
'translate-test' | 1186 |
'translate-train' | 85 700 |
- Примеры ( tfds.as_dataframe ):
xquad/en
Описание конфигурации : тестовый сплит XQuAD 'en'.
Размер загрузки :
595.10 KiB
Размер набора данных :
1.19 MiB
Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 1190 |
- Примеры ( tfds.as_dataframe ):