- opis :
TriviaqQA to zbiór danych dotyczących czytania ze zrozumieniem, zawierający ponad 650 000 potrójnych pytań-odpowiedzi-dowodów. TriviaqQA obejmuje 95 000 par pytanie-odpowiedź autorstwa entuzjastów ciekawostek i niezależnie zebranych dokumentów dowodowych, średnio sześć na pytanie, które zapewniają wysokiej jakości zdalny nadzór nad odpowiadaniem na pytania.
Dodatkowa dokumentacja : Przeglądaj dokumenty z kodem na
Strona główna : http://nlp.cs.washington.edu/triviaqa/
Kod źródłowy :
tfds.datasets.trivia_qa.Builder
Wersje :
-
1.1.0
(domyślnie): Brak informacji o wersji.
-
Struktura funkcji :
FeaturesDict({
'answer': FeaturesDict({
'aliases': Sequence(Text(shape=(), dtype=string)),
'matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_value': Text(shape=(), dtype=string),
'type': Text(shape=(), dtype=string),
'value': Text(shape=(), dtype=string),
}),
'entity_pages': Sequence({
'doc_source': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'wiki_context': Text(shape=(), dtype=string),
}),
'question': Text(shape=(), dtype=string),
'question_id': Text(shape=(), dtype=string),
'question_source': Text(shape=(), dtype=string),
'search_results': Sequence({
'description': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'rank': int32,
'search_context': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
}),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
odpowiedź | FunkcjeDict | |||
odpowiedź/aliasy | Sekwencja (tekst) | (Nic,) | strunowy | |
answer/dopasowana_nazwa_obiektu_wiki | Tekst | strunowy | ||
odpowiedź/znormalizowane_aliasy | Sekwencja (tekst) | (Nic,) | strunowy | |
answer/normalized_matched_wiki_entity_name | Tekst | strunowy | ||
odpowiedź/wartość_znormalizowana | Tekst | strunowy | ||
odpowiedź/typ | Tekst | strunowy | ||
odpowiedź/wartość | Tekst | strunowy | ||
strony_obiektów | Sekwencja | |||
strony_jednostki/źródło_dokumentu | Tekst | strunowy | ||
strony_jednostki/nazwa_pliku | Tekst | strunowy | ||
strony_jednostki/tytuł | Tekst | strunowy | ||
strony_jednostki/kontekst_wiki | Tekst | strunowy | ||
pytanie | Tekst | strunowy | ||
identyfikator_pytania | Tekst | strunowy | ||
źródło_pytań | Tekst | strunowy | ||
wyniki_wyszukiwania | Sekwencja | |||
wyniki_wyszukiwania/opis | Tekst | strunowy | ||
wyniki_wyszukiwania/nazwa_pliku | Tekst | strunowy | ||
wyniki_wyszukiwania/ranking | Napinacz | int32 | ||
wyniki_wyszukiwania/kontekst_wyszukiwania | Tekst | strunowy | ||
wyniki_wyszukiwania/tytuł | Tekst | strunowy | ||
wyniki_wyszukiwania/url | Tekst | strunowy |
Klucze nadzorowane (Zobacz dokument
as_supervised
):None
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Cytat :
@article{2017arXivtriviaqa,
author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
Daniel and {Zettlemoyer}, Luke},
title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
journal = {arXiv e-prints},
year = 2017,
eid = {arXiv:1705.03551},
pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
eprint = {1705.03551},
}
trivia_qa/rc (domyślna konfiguracja)
Opis konfiguracji : pary pytanie-odpowiedź, w których wszystkie dokumenty dla danego pytania zawierają ciągi odpowiedzi. Zawiera kontekst z Wikipedii i wyniki wyszukiwania.
Rozmiar pliku do pobrania :
2.48 GiB
Rozmiar zestawu danych :
14.99 GiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Podział | Przykłady |
---|---|
'test' | 17210 |
'train' | 138384 |
'validation' | 18669 |
- Przykłady ( tfds.as_dataframe ):
trivia_qa/rc.nocontext
Opis konfiguracji : pary pytanie-odpowiedź, w których wszystkie dokumenty dla danego pytania zawierają ciągi odpowiedzi.
Rozmiar pliku do pobrania :
2.48 GiB
Rozmiar zestawu danych :
196.84 MiB
Automatyczne buforowanie ( dokumentacja ): Tak (test, walidacja), Tylko wtedy, gdy
shuffle_files=False
(pociąg)Podziały :
Podział | Przykłady |
---|---|
'test' | 17210 |
'train' | 138384 |
'validation' | 18669 |
- Przykłady ( tfds.as_dataframe ):
trivia_qa/niefiltrowane
Opis konfiguracji: 110 000 par pytanie-odpowiedź do kontroli jakości w domenie otwartej, w której nie wszystkie dokumenty dla danego pytania zawierają ciągi odpowiedzi. To sprawia, że niefiltrowany zestaw danych jest bardziej odpowiedni dla QA w stylu IR. Zawiera kontekst z Wikipedii i wyniki wyszukiwania.
Rozmiar pliku do pobrania :
3.07 GiB
Rozmiar zestawu danych :
27.27 GiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Podział | Przykłady |
---|---|
'test' | 10832 |
'train' | 87622 |
'validation' | 11313 |
- Przykłady ( tfds.as_dataframe ):
trivia_qa/unfiltered.nocontext
Opis konfiguracji: 110 000 par pytanie-odpowiedź do kontroli jakości w domenie otwartej, w której nie wszystkie dokumenty dla danego pytania zawierają ciągi odpowiedzi. To sprawia, że niefiltrowany zestaw danych jest bardziej odpowiedni dla QA w stylu IR.
Rozmiar pliku do pobrania :
603.25 MiB
Rozmiar zestawu danych :
119.78 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :
Podział | Przykłady |
---|---|
'test' | 10832 |
'train' | 87622 |
'validation' | 11313 |
- Przykłady ( tfds.as_dataframe ):
- opis :
TriviaqQA to zbiór danych dotyczących czytania ze zrozumieniem, zawierający ponad 650 000 potrójnych pytań-odpowiedzi-dowodów. TriviaqQA obejmuje 95 000 par pytanie-odpowiedź autorstwa entuzjastów ciekawostek i niezależnie zebranych dokumentów dowodowych, średnio sześć na pytanie, które zapewniają wysokiej jakości zdalny nadzór nad odpowiadaniem na pytania.
Dodatkowa dokumentacja : Przeglądaj dokumenty z kodem na
Strona główna : http://nlp.cs.washington.edu/triviaqa/
Kod źródłowy :
tfds.datasets.trivia_qa.Builder
Wersje :
-
1.1.0
(domyślnie): Brak informacji o wersji.
-
Struktura funkcji :
FeaturesDict({
'answer': FeaturesDict({
'aliases': Sequence(Text(shape=(), dtype=string)),
'matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_value': Text(shape=(), dtype=string),
'type': Text(shape=(), dtype=string),
'value': Text(shape=(), dtype=string),
}),
'entity_pages': Sequence({
'doc_source': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'wiki_context': Text(shape=(), dtype=string),
}),
'question': Text(shape=(), dtype=string),
'question_id': Text(shape=(), dtype=string),
'question_source': Text(shape=(), dtype=string),
'search_results': Sequence({
'description': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'rank': int32,
'search_context': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
}),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
odpowiedź | FunkcjeDict | |||
odpowiedź/aliasy | Sekwencja (tekst) | (Nic,) | strunowy | |
answer/dopasowana_nazwa_obiektu_wiki | Tekst | strunowy | ||
odpowiedź/znormalizowane_aliasy | Sekwencja (tekst) | (Nic,) | strunowy | |
answer/normalized_matched_wiki_entity_name | Tekst | strunowy | ||
odpowiedź/wartość_znormalizowana | Tekst | strunowy | ||
odpowiedź/typ | Tekst | strunowy | ||
odpowiedź/wartość | Tekst | strunowy | ||
strony_obiektów | Sekwencja | |||
strony_jednostki/źródło_dokumentu | Tekst | strunowy | ||
strony_jednostki/nazwa_pliku | Tekst | strunowy | ||
strony_jednostki/tytuł | Tekst | strunowy | ||
strony_jednostki/kontekst_wiki | Tekst | strunowy | ||
pytanie | Tekst | strunowy | ||
identyfikator_pytania | Tekst | strunowy | ||
źródło_pytań | Tekst | strunowy | ||
wyniki_wyszukiwania | Sekwencja | |||
wyniki_wyszukiwania/opis | Tekst | strunowy | ||
wyniki_wyszukiwania/nazwa_pliku | Tekst | strunowy | ||
wyniki_wyszukiwania/ranking | Napinacz | int32 | ||
wyniki_wyszukiwania/kontekst_wyszukiwania | Tekst | strunowy | ||
wyniki_wyszukiwania/tytuł | Tekst | strunowy | ||
wyniki_wyszukiwania/url | Tekst | strunowy |
Klucze nadzorowane (Zobacz dokument
as_supervised
):None
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Cytat :
@article{2017arXivtriviaqa,
author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
Daniel and {Zettlemoyer}, Luke},
title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
journal = {arXiv e-prints},
year = 2017,
eid = {arXiv:1705.03551},
pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
eprint = {1705.03551},
}
trivia_qa/rc (domyślna konfiguracja)
Opis konfiguracji : pary pytanie-odpowiedź, w których wszystkie dokumenty dla danego pytania zawierają ciągi odpowiedzi. Zawiera kontekst z Wikipedii i wyniki wyszukiwania.
Rozmiar pliku do pobrania :
2.48 GiB
Rozmiar zestawu danych :
14.99 GiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Podział | Przykłady |
---|---|
'test' | 17210 |
'train' | 138384 |
'validation' | 18669 |
- Przykłady ( tfds.as_dataframe ):
trivia_qa/rc.nocontext
Opis konfiguracji : pary pytanie-odpowiedź, w których wszystkie dokumenty dla danego pytania zawierają ciągi odpowiedzi.
Rozmiar pliku do pobrania :
2.48 GiB
Rozmiar zestawu danych :
196.84 MiB
Automatyczne buforowanie ( dokumentacja ): Tak (test, walidacja), Tylko wtedy, gdy
shuffle_files=False
(pociąg)Podziały :
Podział | Przykłady |
---|---|
'test' | 17210 |
'train' | 138384 |
'validation' | 18669 |
- Przykłady ( tfds.as_dataframe ):
trivia_qa/niefiltrowane
Opis konfiguracji: 110 000 par pytanie-odpowiedź do kontroli jakości w domenie otwartej, w której nie wszystkie dokumenty dla danego pytania zawierają ciągi odpowiedzi. To sprawia, że niefiltrowany zestaw danych jest bardziej odpowiedni dla QA w stylu IR. Zawiera kontekst z Wikipedii i wyniki wyszukiwania.
Rozmiar pliku do pobrania :
3.07 GiB
Rozmiar zestawu danych :
27.27 GiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Podział | Przykłady |
---|---|
'test' | 10832 |
'train' | 87622 |
'validation' | 11313 |
- Przykłady ( tfds.as_dataframe ):
trivia_qa/unfiltered.nocontext
Opis konfiguracji: 110 000 par pytanie-odpowiedź do kontroli jakości w domenie otwartej, w której nie wszystkie dokumenty dla danego pytania zawierają ciągi odpowiedzi. To sprawia, że niefiltrowany zestaw danych jest bardziej odpowiedni dla QA w stylu IR.
Rozmiar pliku do pobrania :
603.25 MiB
Rozmiar zestawu danych :
119.78 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :
Podział | Przykłady |
---|---|
'test' | 10832 |
'train' | 87622 |
'validation' | 11313 |
- Przykłady ( tfds.as_dataframe ):