- opis :
Korpus NQ zawiera pytania od prawdziwych użytkowników i wymaga, aby systemy kontroli jakości przeczytały i zrozumiały cały artykuł w Wikipedii, który może zawierać odpowiedź na pytanie lub nie. Uwzględnienie prawdziwych pytań użytkowników i wymóg, aby rozwiązania czytały całą stronę w celu znalezienia odpowiedzi, sprawiają, że NQ jest bardziej realistycznym i wymagającym zadaniem niż wcześniejsze zestawy danych QA.
Dodatkowa dokumentacja : Przeglądaj dokumenty z kodem na
Strona główna : https://ai.google.com/research/NaturalQuestions/dataset
Kod źródłowy :
tfds.datasets.natural_questions.Builder
Wersje :
-
0.0.2
: Brak informacji o wydaniu. -
0.1.0
(domyślnie): Brak informacji o wersji.
-
Rozmiar pliku do pobrania :
41.97 GiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Podział | Przykłady |
---|---|
'train' | 307373 |
'validation' | 7830 |
Klucze nadzorowane (Zobacz dokument
as_supervised
):None
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Cytat :
@article{47761,
title = {Natural Questions: a Benchmark for Question Answering Research},
author = {Tom Kwiatkowski and Jennimaria Palomaki and Olivia Redfield and Michael Collins and Ankur Parikh and Chris Alberti and Danielle Epstein and Illia Polosukhin and Matthew Kelcey and Jacob Devlin and Kenton Lee and Kristina N. Toutanova and Llion Jones and Ming-Wei Chang and Andrew Dai and Jakob Uszkoreit and Quoc Le and Slav Petrov},
year = {2019},
journal = {Transactions of the Association of Computational Linguistics}
}
natural_questions/default (domyślna konfiguracja)
Opis konfiguracji: Domyślna konfiguracja natural_questions
Rozmiar zestawu danych :
90.26 GiB
Struktura funkcji :
FeaturesDict({
'annotations': Sequence({
'id': string,
'long_answer': FeaturesDict({
'end_byte': int64,
'end_token': int64,
'start_byte': int64,
'start_token': int64,
}),
'short_answers': Sequence({
'end_byte': int64,
'end_token': int64,
'start_byte': int64,
'start_token': int64,
'text': Text(shape=(), dtype=string),
}),
'yes_no_answer': ClassLabel(shape=(), dtype=int64, num_classes=2),
}),
'document': FeaturesDict({
'html': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'tokens': Sequence({
'is_html': bool,
'token': Text(shape=(), dtype=string),
}),
'url': Text(shape=(), dtype=string),
}),
'id': string,
'question': FeaturesDict({
'text': Text(shape=(), dtype=string),
'tokens': Sequence(string),
}),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
adnotacje | Sekwencja | |||
adnotacje/identyfikator | Napinacz | strunowy | ||
adnotacje/długa_odpowiedź | FunkcjeDict | |||
adnotacje/długa_odpowiedź/końcowy bajt | Napinacz | int64 | ||
adnotacje/długa_odpowiedź/end_token | Napinacz | int64 | ||
adnotacje/długa_odpowiedź/start_byte | Napinacz | int64 | ||
adnotacje/długa_odpowiedź/start_token | Napinacz | int64 | ||
adnotacje/krótkie_odpowiedzi | Sekwencja | |||
adnotacje/krótkie_odpowiedzi/bajt_końcowy | Napinacz | int64 | ||
adnotacje/krótkie_odpowiedzi/end_token | Napinacz | int64 | ||
adnotacje/krótkie_odpowiedzi/start_byte | Napinacz | int64 | ||
adnotacje/krótkie_odpowiedzi/start_token | Napinacz | int64 | ||
adnotacje/krótkie_odpowiedzi/tekst | Tekst | strunowy | ||
adnotacje/tak_nie_odpowiedź | Etykieta klasy | int64 | ||
dokument | FunkcjeDict | |||
dokument/html | Tekst | strunowy | ||
tytuł dokumentu | Tekst | strunowy | ||
dokument/tokeny | Sekwencja | |||
dokument/tokeny/is_html | Napinacz | bool | ||
dokument/tokeny/token | Tekst | strunowy | ||
dokument/url | Tekst | strunowy | ||
ID | Napinacz | strunowy | ||
pytanie | FunkcjeDict | |||
pytanie/tekst | Tekst | strunowy | ||
pytanie/tokeny | Sekwencja (Tensor) | (Nic,) | strunowy |
- Przykłady ( tfds.as_dataframe ):
naturalne_pytania/longt5
Opis konfiguracji: wstępnie przetworzone pytania naturalne jak w teście porównawczym longT5
Rozmiar zestawu danych :
8.91 GiB
Struktura funkcji :
FeaturesDict({
'all_answers': Sequence(Text(shape=(), dtype=string)),
'answer': Text(shape=(), dtype=string),
'context': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
wszystkie_odpowiedzi | Sekwencja (tekst) | (Nic,) | strunowy | |
odpowiedź | Tekst | strunowy | ||
kontekst | Tekst | strunowy | ||
ID | Tekst | strunowy | ||
pytanie | Tekst | strunowy | ||
tytuł | Tekst | strunowy |
- Przykłady ( tfds.as_dataframe ):