- opis :
XQuAD (Cross-lingual Question Answering Dataset) to zestaw danych porównawczych do oceny wydajności odpowiedzi na pytania w różnych językach. Zbiór danych składa się z podzbioru 240 akapitów i 1190 par pytanie-odpowiedź z zestawu rozwojowego SQuAD v1.1 (Rajpurkar et al., 2016) wraz z ich profesjonalnymi tłumaczeniami na dziesięć języków: hiszpański, niemiecki, grecki, rosyjski, turecki , arabski, wietnamski, tajski, chiński i hindi. W rezultacie zestaw danych jest całkowicie równoległy w 11 językach. Aby uruchomić XQuAD w domyślnym ustawieniu zero-shot, użyj danych treningowych i walidacyjnych SQuAD v1.1 tutaj: https://www.tensorflow.org/datasets/catalog/squad
Uwzględniamy również podziały „translate-train”, „translate-dev” i „translate-test” dla każdego języka innego niż angielski z XTREME (Hu i in., 2020). Można ich użyć do uruchomienia XQuAD w ustawieniach „translate-train” lub „translate-test”.
Dodatkowa dokumentacja : Przeglądaj dokumenty z kodem na
Strona główna : https://github.com/deepmind/xquad
Kod źródłowy :
tfds.question_answering.Xquad
Wersje :
-
3.0.0
(domyślnie): Rozwiązuje problem z wieloma przykładami, w których zakresy odpowiedzi są źle wyrównane z powodu usunięcia białych znaków kontekstu. Ta zmiana dotyczy około 14% przykładów testowych.
-
Struktura funkcji :
FeaturesDict({
'answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'context': Text(shape=(), dtype=string),
'id': string,
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
odpowiedzi | Sekwencja | |||
odpowiedzi/odpowiedź_start | Napinacz | int32 | ||
odpowiedzi/tekst | Tekst | strunowy | ||
kontekst | Tekst | strunowy | ||
ID | Napinacz | strunowy | ||
pytanie | Tekst | strunowy | ||
tytuł | Tekst | strunowy |
Klucze nadzorowane (Zobacz dokument
as_supervised
):None
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Cytat :
@article{Artetxe:etal:2019,
author = {Mikel Artetxe and Sebastian Ruder and Dani Yogatama},
title = {On the cross-lingual transferability of monolingual representations},
journal = {CoRR},
volume = {abs/1910.11856},
year = {2019},
archivePrefix = {arXiv},
eprint = {1910.11856}
}
xquad/ar (domyślna konfiguracja)
Opis konfiguracji: Podział testu XQuAD „ar”, z przetłumaczonymi maszynowo podziałami translacji pociągu/tłumaczenia-dev/tłumaczenia-testu z XTREME (Hu i in., 2020).
Rozmiar pliku do pobrania :
420.97 MiB
Rozmiar zestawu danych :
134.83 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 1190 |
'translate-dev' | 10541 |
'translate-test' | 1151 |
'translate-train' | 86787 |
- Przykłady ( tfds.as_dataframe ):
xquad/de
Opis konfiguracji: Podział testu XQuAD „de”, z przetłumaczonymi maszynowo podziałami translacji pociągu/tłumaczenia-dev/tłumaczenia-testu z XTREME (Hu i in., 2020).
Rozmiar pliku do pobrania :
127.04 MiB
Rozmiar zestawu danych :
98.80 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 1190 |
'translate-dev' | 10371 |
'translate-test' | 1168 |
'translate-train' | 82603 |
- Przykłady ( tfds.as_dataframe ):
xquad/el
Opis konfiguracji: Podział testu XQuAD „el”, z przetłumaczonymi maszynowo podziałami translacji pociągu/tłumaczenia-dev/tłumaczenia-testu z XTREME (Hu i in., 2020).
Rozmiar pliku do pobrania :
499.40 MiB
Rozmiar zestawu danych :
157.90 MiB
Automatyczne buforowanie ( dokumentacja ): Tak (test, translate-dev, translate-test), Tylko wtedy, gdy
shuffle_files=False
(translate-train)Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 1190 |
'translate-dev' | 10100 |
'translate-test' | 1182 |
'translate-train' | 79946 |
- Przykłady ( tfds.as_dataframe ):
xquad/es
Opis konfiguracji: Podział testu XQuAD „es”, z przetłumaczonymi maszynowo podziałami translacji pociągu/tłumaczenia-dev/tłumaczenia-testu z XTREME (Hu i in., 2020).
Rozmiar pliku do pobrania :
138.41 MiB
Rozmiar zestawu danych :
104.96 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 1190 |
'translate-dev' | 10566 |
'translate-test' | 1188 |
'translate-train' | 87 488 |
- Przykłady ( tfds.as_dataframe ):
xquad/cześć
Opis konfiguracji: Podział testu „hi” XQuAD, z przetłumaczonymi maszynowo podziałami translacji pociągu/tłumaczenia-dev/tłumaczenia-testu z XTREME (Hu i in., 2020).
Rozmiar pliku do pobrania :
472.23 MiB
Rozmiar zestawu danych :
207.85 MiB
Automatyczne buforowanie ( dokumentacja ): Tak (test, translate-dev, translate-test), Tylko wtedy, gdy
shuffle_files=False
(translate-train)Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 1190 |
'translate-dev' | 10536 |
'translate-test' | 1184 |
'translate-train' | 85804 |
- Przykłady ( tfds.as_dataframe ):
xquad/ru
Opis konfiguracji: Podział testu XQuAD „ru”, z przetłumaczonymi maszynowo podziałami translacji pociągu/tłumaczenia-dev/tłumaczenia-testu z XTREME (Hu i in., 2020).
Rozmiar pliku do pobrania :
513.80 MiB
Rozmiar zestawu danych :
159.38 MiB
Automatyczne buforowanie ( dokumentacja ): Tak (test, translate-dev, translate-test), Tylko wtedy, gdy
shuffle_files=False
(translate-train)Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 1190 |
'translate-dev' | 10469 |
'translate-test' | 1190 |
'translate-train' | 84 869 |
- Przykłady ( tfds.as_dataframe ):
xquad/th
Opis konfiguracji: XQuAD „th” test split, z przetłumaczonymi maszynowo podziałami translacji pociągu/translate-dev/translate-test z XTREME (Hu i in., 2020).
Rozmiar pliku do pobrania :
461.54 MiB
Rozmiar zbioru danych :
199.57 MiB
Automatyczne buforowanie ( dokumentacja ): Tak (test, translate-dev, translate-test), Tylko wtedy, gdy
shuffle_files=False
(translate-train)Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 1190 |
'translate-dev' | 10516 |
'translate-test' | 1157 |
'translate-train' | 85846 |
- Przykłady ( tfds.as_dataframe ):
xquad/tr
Opis konfiguracji: Podział testu XQuAD „tr”, z przetłumaczonymi maszynowo podziałami translacji pociągu/tłumaczenia-dev/tłumaczenia-testu z XTREME (Hu i in., 2020).
Rozmiar pliku do pobrania :
151.08 MiB
Rozmiar zestawu danych :
97.56 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 1190 |
'translate-dev' | 10535 |
'translate-test' | 1112 |
'translate-train' | 86511 |
- Przykłady ( tfds.as_dataframe ):
xquad/vi
Opis konfiguracji: Podział testu XQuAD „vi”, z przetłumaczonymi maszynowo podziałami translacji pociągu/tłumaczenia-dev/tłumaczenia-testu z XTREME (Hu i in., 2020).
Rozmiar pliku do pobrania :
218.09 MiB
Rozmiar zestawu danych :
120.03 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 1190 |
'translate-dev' | 10555 |
'translate-test' | 1178 |
'translate-train' | 87187 |
- Przykłady ( tfds.as_dataframe ):
xquad/zh
Opis konfiguracji: Podział testu XQuAD „zh”, z przetłumaczonymi maszynowo podziałami translacji pociągu/tłumaczenia-dev/tłumaczenia-testu z XTREME (Hu i in., 2020).
Rozmiar pliku do pobrania :
174.57 MiB
Rozmiar zestawu danych :
80.79 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 1190 |
'translate-dev' | 10475 |
'translate-test' | 1186 |
'translate-train' | 85700 |
- Przykłady ( tfds.as_dataframe ):
xquad/en
Opis konfiguracji: Podział testu XQuAD „en”.
Rozmiar pliku do pobrania :
595.10 KiB
Rozmiar zestawu danych :
1.19 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 1190 |
- Przykłady ( tfds.as_dataframe ):