ujednolicone_qa

  • opis :

Benchmark UnifiedQA składa się z 20 głównych zestawów danych z odpowiedziami na pytania (QA) (każdy może mieć wiele wersji), które dotyczą różnych formatów, a także różnych złożonych zjawisk językowych. Te zestawy danych są pogrupowane w kilka formatów/kategorii, w tym: ekstrakcyjna kontrola jakości, abstrakcyjna kontrola jakości, kontrola jakości wielokrotnego wyboru i kontrola jakości tak/nie. Ponadto zestawy kontrastów są używane dla kilku zestawów danych (oznaczonych jako „ zestawy kontrastów”). Te zestawy oceny to zakłócenia generowane przez ekspertów, które odbiegają od wzorców typowych w oryginalnym zbiorze danych. W przypadku kilku zestawów danych, które nie są dostarczane z akapitami dowodowymi, uwzględniono dwa warianty: jeden, w którym zestawy danych są używane w stanie, w jakim się znajdują, oraz drugi, który wykorzystuje akapity pobrane za pośrednictwem systemu wyszukiwania informacji jako dodatkowy dowód, oznaczony znacznikami „_ir”.

Więcej informacji można znaleźć na stronie: https://github.com/allenai/unifiedqa

FeaturesDict({
    'input': string,
    'output': string,
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
Wejście Napinacz strunowy
wyjście Napinacz strunowy

unified_qa/ai2_science_elementary (domyślna konfiguracja)

  • Opis konfiguracji : zestaw danych AI2 Science Questions składa się z pytań używanych w ocenie uczniów w Stanach Zjednoczonych na poziomie szkoły podstawowej i gimnazjum. Każde pytanie jest formatem wielokrotnego wyboru z 4 opcji i może zawierać element diagramu lub nie. Ten zestaw składa się z pytań używanych na poziomie szkoły podstawowej.

  • Rozmiar pliku do pobrania : 345.59 KiB

  • Rozmiar zbioru danych : 390.02 KiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'test' 542
'train' 623
'validation' 123
  • Cytat :
http://data.allenai.org/ai2-science-questions

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/ai2_science_middle

  • Opis konfiguracji : zestaw danych AI2 Science Questions składa się z pytań używanych w ocenie uczniów w Stanach Zjednoczonych na poziomie szkoły podstawowej i gimnazjum. Każde pytanie jest formatem wielokrotnego wyboru z 4 opcji i może zawierać element diagramu lub nie. Ten zestaw składa się z pytań używanych na poziomach gimnazjalnych.

  • Rozmiar pliku do pobrania : 428.41 KiB

  • Rozmiar zbioru danych : 477.40 KiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'test' 679
'train' 605
'validation' 125
  • Cytat :
http://data.allenai.org/ai2-science-questions

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/ambigqa

  • Opis konfiguracji : AmbigQA to zadanie polegające na odpowiadaniu na pytania w domenie otwartej, które obejmuje znalezienie każdej wiarygodnej odpowiedzi, a następnie przepisanie pytania dla każdego z nich w celu rozwiązania niejednoznaczności.

  • Rozmiar pliku do pobrania : 2.27 MiB

  • Rozmiar zestawu danych : 3.04 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'train' 19806
'validation' 5674
  • Cytat :
@inproceedings{min-etal-2020-ambigqa,
    title = "{A}mbig{QA}: Answering Ambiguous Open-domain Questions",
    author = "Min, Sewon  and
      Michael, Julian  and
      Hajishirzi, Hannaneh  and
      Zettlemoyer, Luke",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.emnlp-main.466",
    doi = "10.18653/v1/2020.emnlp-main.466",
    pages = "5783--5797",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/arc_easy

  • Opis konfiguracji : ten zestaw danych składa się z prawdziwych pytań naukowych wielokrotnego wyboru na poziomie szkoły podstawowej, zebranych w celu zachęcenia do badań nad zaawansowanymi odpowiedziami na pytania. Zbiór danych jest podzielony na zestaw wyzwań i zestaw łatwy, przy czym ten pierwszy zawiera tylko pytania, na które nieprawidłowo odpowiedział zarówno algorytm oparty na wyszukiwaniu, jak i algorytm współwystępowania słów. Ten zestaw składa się z „łatwych” pytań.

  • Rozmiar pliku do pobrania : 1.24 MiB

  • Rozmiar zestawu danych : 1.42 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'test' 2376
'train' 2251
'validation' 570
  • Cytat :
@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/arc_easy_dev

  • Opis konfiguracji : ten zestaw danych składa się z prawdziwych pytań naukowych wielokrotnego wyboru na poziomie szkoły podstawowej, zebranych w celu zachęcenia do badań nad zaawansowanymi odpowiedziami na pytania. Zbiór danych jest podzielony na zestaw wyzwań i zestaw łatwy, przy czym ten pierwszy zawiera tylko pytania, na które nieprawidłowo odpowiedział zarówno algorytm oparty na wyszukiwaniu, jak i algorytm współwystępowania słów. Ten zestaw składa się z „łatwych” pytań.

  • Rozmiar pliku do pobrania : 1.24 MiB

  • Rozmiar zestawu danych : 1.42 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'test' 2376
'train' 2251
'validation' 570
  • Cytat :
@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/arc_easy_with_ir

  • Opis konfiguracji : ten zestaw danych składa się z prawdziwych pytań naukowych wielokrotnego wyboru na poziomie szkoły podstawowej, zebranych w celu zachęcenia do badań nad zaawansowanymi odpowiedziami na pytania. Zbiór danych jest podzielony na zestaw wyzwań i zestaw łatwy, przy czym ten pierwszy zawiera tylko pytania, na które nieprawidłowo odpowiedział zarówno algorytm oparty na wyszukiwaniu, jak i algorytm współwystępowania słów. Ten zestaw składa się z „łatwych” pytań. Ta wersja zawiera akapity pobrane za pomocą systemu wyszukiwania informacji jako dodatkowe dowody.

  • Rozmiar pliku do pobrania : 7.00 MiB

  • Rozmiar zestawu danych : 7.17 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'test' 2376
'train' 2251
'validation' 570
  • Cytat :
@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/arc_easy_with_ir_dev

  • Opis konfiguracji : ten zestaw danych składa się z prawdziwych pytań naukowych wielokrotnego wyboru na poziomie szkoły podstawowej, zebranych w celu zachęcenia do badań nad zaawansowanymi odpowiedziami na pytania. Zbiór danych jest podzielony na zestaw wyzwań i zestaw łatwy, przy czym ten pierwszy zawiera tylko pytania, na które nieprawidłowo odpowiedział zarówno algorytm oparty na wyszukiwaniu, jak i algorytm współwystępowania słów. Ten zestaw składa się z „łatwych” pytań. Ta wersja zawiera akapity pobrane za pomocą systemu wyszukiwania informacji jako dodatkowe dowody.

  • Rozmiar pliku do pobrania : 7.00 MiB

  • Rozmiar zestawu danych : 7.17 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'test' 2376
'train' 2251
'validation' 570
  • Cytat :
@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/arc_hard

  • Opis konfiguracji : ten zestaw danych składa się z prawdziwych pytań naukowych wielokrotnego wyboru na poziomie szkoły podstawowej, zebranych w celu zachęcenia do badań nad zaawansowanymi odpowiedziami na pytania. Zbiór danych jest podzielony na zestaw wyzwań i zestaw łatwy, przy czym ten pierwszy zawiera tylko pytania, na które nieprawidłowo odpowiedział zarówno algorytm oparty na wyszukiwaniu, jak i algorytm współwystępowania słów. Ten zestaw składa się z „trudnych” pytań.

  • Rozmiar pliku do pobrania : 758.03 KiB

  • Rozmiar zbioru danych : 848.28 KiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'test' 1172
'train' 1119
'validation' 299
  • Cytat :
@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/arc_hard_dev

  • Opis konfiguracji : ten zestaw danych składa się z prawdziwych pytań naukowych wielokrotnego wyboru na poziomie szkoły podstawowej, zebranych w celu zachęcenia do badań nad zaawansowanymi odpowiedziami na pytania. Zbiór danych jest podzielony na zestaw wyzwań i zestaw łatwy, przy czym ten pierwszy zawiera tylko pytania, na które nieprawidłowo odpowiedział zarówno algorytm oparty na wyszukiwaniu, jak i algorytm współwystępowania słów. Ten zestaw składa się z „trudnych” pytań.

  • Rozmiar pliku do pobrania : 758.03 KiB

  • Rozmiar zbioru danych : 848.28 KiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'test' 1172
'train' 1119
'validation' 299
  • Cytat :
@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/arc_hard_with_ir

  • Opis konfiguracji : ten zestaw danych składa się z prawdziwych pytań naukowych wielokrotnego wyboru na poziomie szkoły podstawowej, zebranych w celu zachęcenia do badań nad zaawansowanymi odpowiedziami na pytania. Zbiór danych jest podzielony na zestaw wyzwań i zestaw łatwy, przy czym ten pierwszy zawiera tylko pytania, na które nieprawidłowo odpowiedział zarówno algorytm oparty na wyszukiwaniu, jak i algorytm współwystępowania słów. Ten zestaw składa się z „trudnych” pytań. Ta wersja zawiera akapity pobrane za pomocą systemu wyszukiwania informacji jako dodatkowe dowody.

  • Rozmiar pliku do pobrania : 3.53 MiB

  • Rozmiar zestawu danych : 3.62 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'test' 1172
'train' 1119
'validation' 299
  • Cytat :
@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/arc_hard_with_ir_dev

  • Opis konfiguracji : ten zestaw danych składa się z prawdziwych pytań naukowych wielokrotnego wyboru na poziomie szkoły podstawowej, zebranych w celu zachęcenia do badań nad zaawansowanymi odpowiedziami na pytania. Zbiór danych jest podzielony na zestaw wyzwań i zestaw łatwy, przy czym ten pierwszy zawiera tylko pytania, na które nieprawidłowo odpowiedział zarówno algorytm oparty na wyszukiwaniu, jak i algorytm współwystępowania słów. Ten zestaw składa się z „trudnych” pytań. Ta wersja zawiera akapity pobrane za pomocą systemu wyszukiwania informacji jako dodatkowe dowody.

  • Rozmiar pliku do pobrania : 3.53 MiB

  • Rozmiar zestawu danych : 3.62 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'test' 1172
'train' 1119
'validation' 299
  • Cytat :
@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/boolq

  • Opis konfiguracji : BoolQ to zestaw danych odpowiadający na pytania typu tak/nie. Te pytania pojawiają się naturalnie --- są generowane w nieskomplikowanych i nieskrępowanych sytuacjach. Każdy przykład to trójka (pytanie, fragment, odpowiedź), z tytułem strony jako opcjonalnym dodatkowym kontekstem. Konfiguracja klasyfikacji par tekstów jest podobna do istniejących zadań wnioskowania w języku naturalnym.

  • Rozmiar pliku do pobrania : 7.77 MiB

  • Rozmiar zestawu danych : 8.20 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'train' 9427
'validation' 3270
  • Cytat :
@inproceedings{clark-etal-2019-boolq,
    title = "{B}ool{Q}: Exploring the Surprising Difficulty of Natural Yes/No Questions",
    author = "Clark, Christopher  and
      Lee, Kenton  and
      Chang, Ming-Wei  and
      Kwiatkowski, Tom  and
      Collins, Michael  and
      Toutanova, Kristina",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1300",
    doi = "10.18653/v1/N19-1300",
    pages = "2924--2936",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/boolq_np

  • Opis konfiguracji : BoolQ to zestaw danych odpowiadający na pytania typu tak/nie. Te pytania pojawiają się naturalnie --- są generowane w nieskomplikowanych i nieskrępowanych sytuacjach. Każdy przykład to trójka (pytanie, fragment, odpowiedź), z tytułem strony jako opcjonalnym dodatkowym kontekstem. Konfiguracja klasyfikacji par tekstów jest podobna do istniejących zadań wnioskowania w języku naturalnym. Ta wersja dodaje naturalne perturbacje do wersji oryginalnej.

  • Rozmiar pliku do pobrania : 10.80 MiB

  • Rozmiar zestawu danych : 11.40 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'train' 9727
'validation' 7596
  • Cytat :
@inproceedings{khashabi-etal-2020-bang,
    title = "More Bang for Your Buck: Natural Perturbation for Robust Question Answering",
    author = "Khashabi, Daniel  and
      Khot, Tushar  and
      Sabharwal, Ashish",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.emnlp-main.12",
    doi = "10.18653/v1/2020.emnlp-main.12",
    pages = "163--170",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/commonsenseqa

  • Opis konfiguracji : CommonsenseQA to nowy zestaw danych z odpowiedziami na pytania wielokrotnego wyboru, który wymaga różnych typów zdroworozsądkowej wiedzy, aby przewidzieć prawidłowe odpowiedzi. Zawiera pytania z jedną prawidłową odpowiedzią i czterema odpowiedziami dystraktorowymi.

  • Rozmiar pliku do pobrania : 1.79 MiB

  • Rozmiar zestawu danych : 2.19 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'test' 1140
'train' 9741
'validation' 1221
  • Cytat :
@inproceedings{talmor-etal-2019-commonsenseqa,
    title = "{C}ommonsense{QA}: A Question Answering Challenge Targeting Commonsense Knowledge",
    author = "Talmor, Alon  and
      Herzig, Jonathan  and
      Lourie, Nicholas  and
      Berant, Jonathan",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1421",
    doi = "10.18653/v1/N19-1421",
    pages = "4149--4158",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/commonsenseqa_test

  • Opis konfiguracji : CommonsenseQA to nowy zestaw danych z odpowiedziami na pytania wielokrotnego wyboru, który wymaga różnych typów zdroworozsądkowej wiedzy, aby przewidzieć prawidłowe odpowiedzi. Zawiera pytania z jedną prawidłową odpowiedzią i czterema odpowiedziami dystraktorowymi.

  • Rozmiar pliku do pobrania : 1.79 MiB

  • Rozmiar zestawu danych : 2.19 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'test' 1140
'train' 9741
'validation' 1221
  • Cytat :
@inproceedings{talmor-etal-2019-commonsenseqa,
    title = "{C}ommonsense{QA}: A Question Answering Challenge Targeting Commonsense Knowledge",
    author = "Talmor, Alon  and
      Herzig, Jonathan  and
      Lourie, Nicholas  and
      Berant, Jonathan",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1421",
    doi = "10.18653/v1/N19-1421",
    pages = "4149--4158",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/contrast_sets_boolq

  • Opis konfiguracji : BoolQ to zestaw danych odpowiadający na pytania typu tak/nie. Te pytania pojawiają się naturalnie --- są generowane w nieskomplikowanych i nieskrępowanych sytuacjach. Każdy przykład to trójka (pytanie, fragment, odpowiedź), z tytułem strony jako opcjonalnym dodatkowym kontekstem. Konfiguracja klasyfikacji par tekstów jest podobna do istniejących zadań wnioskowania w języku naturalnym. Ta wersja używa zestawów kontrastowych. Te zestawy oceny to zakłócenia generowane przez ekspertów, które odbiegają od wzorców typowych w oryginalnym zbiorze danych.

  • Rozmiar pliku do pobrania : 438.51 KiB

  • Rozmiar zbioru danych : 462.35 KiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'train' 340
'validation' 340
  • Cytat :
@inproceedings{clark-etal-2019-boolq,
    title = "{B}ool{Q}: Exploring the Surprising Difficulty of Natural Yes/No Questions",
    author = "Clark, Christopher  and
      Lee, Kenton  and
      Chang, Ming-Wei  and
      Kwiatkowski, Tom  and
      Collins, Michael  and
      Toutanova, Kristina",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1300",
    doi = "10.18653/v1/N19-1300",
    pages = "2924--2936",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/contrast_sets_drop

  • Opis konfiguracji : DROP to crowdsourcingowy, tworzony przez przeciwników test porównawczy kontroli jakości, w którym system musi rozwiązywać odniesienia w pytaniu, być może do wielu pozycji wejściowych, i wykonywać na nich dyskretne operacje (takie jak dodawanie, liczenie lub sortowanie). Operacje te wymagają znacznie bardziej wszechstronnego zrozumienia treści akapitów niż było to konieczne w przypadku poprzednich zestawów danych. Ta wersja używa zestawów kontrastowych. Te zestawy oceny to zakłócenia generowane przez ekspertów, które odbiegają od wzorców typowych w oryginalnym zbiorze danych.

  • Rozmiar pliku do pobrania : 2.20 MiB

  • Rozmiar zestawu danych : 2.26 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'train' 947
'validation' 947
  • Cytat :
@inproceedings{dua-etal-2019-drop,
    title = "{DROP}: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs",
    author = "Dua, Dheeru  and
      Wang, Yizhong  and
      Dasigi, Pradeep  and
      Stanovsky, Gabriel  and
      Singh, Sameer  and
      Gardner, Matt",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1246",
    doi = "10.18653/v1/N19-1246",
    pages = "2368--2378",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/contrast_sets_quoref

  • Opis konfiguracji : ten zestaw danych testuje zdolność rozumowania referencyjnego systemów czytania ze zrozumieniem. W tym teście porównawczym wyboru rozpiętości, zawierającym pytania dotyczące akapitów z Wikipedii, system musi rozwiązać twarde odniesienia przed wybraniem odpowiednich rozpiętości w akapitach w celu udzielenia odpowiedzi na pytania. Ta wersja używa zestawów kontrastowych. Te zestawy oceny to zakłócenia generowane przez ekspertów, które odbiegają od wzorców typowych w oryginalnym zbiorze danych.

  • Rozmiar pliku do pobrania : 2.60 MiB

  • Rozmiar zestawu danych : 2.65 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'train' 700
'validation' 700
  • Cytat :
@inproceedings{dasigi-etal-2019-quoref,
    title = "{Q}uoref: A Reading Comprehension Dataset with Questions Requiring Coreferential Reasoning",
    author = "Dasigi, Pradeep  and
      Liu, Nelson F.  and
      Marasovi{'c}, Ana  and
      Smith, Noah A.  and
      Gardner, Matt",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-1606",
    doi = "10.18653/v1/D19-1606",
    pages = "5925--5932",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/contrast_sets_ropes

  • Opis konfiguracji : ten zestaw danych testuje zdolność systemu do zastosowania wiedzy z fragmentu tekstu w nowej sytuacji. Przedstawiono systemowi fragment tła zawierający związek przyczynowy lub jakościowy (np. „zapylacze zwierząt zwiększają efektywność zapłodnienia kwiatów”), nową sytuację wykorzystującą to tło oraz pytania, które wymagają uzasadnienia skutków związków w fragment tła w kontekście sytuacji. Ta wersja używa zestawów kontrastowych. Te zestawy oceny to zakłócenia generowane przez ekspertów, które odbiegają od wzorców typowych w oryginalnym zbiorze danych.

  • Rozmiar pliku do pobrania : 1.97 MiB

  • Rozmiar zestawu danych : 2.04 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'train' 974
'validation' 974
  • Cytat :
@inproceedings{lin-etal-2019-reasoning,
    title = "Reasoning Over Paragraph Effects in Situations",
    author = "Lin, Kevin  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Gardner, Matt",
    booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-5808",
    doi = "10.18653/v1/D19-5808",
    pages = "58--62",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/drop

  • Opis konfiguracji : DROP to crowdsourcingowy, tworzony przez przeciwników test porównawczy kontroli jakości, w którym system musi rozwiązywać odniesienia w pytaniu, być może do wielu pozycji wejściowych, i wykonywać na nich dyskretne operacje (takie jak dodawanie, liczenie lub sortowanie). Operacje te wymagają znacznie bardziej wszechstronnego zrozumienia treści akapitów niż było to konieczne w przypadku poprzednich zestawów danych.

  • Rozmiar pliku do pobrania : 105.18 MiB

  • Rozmiar zestawu danych : 108.16 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'train' 77 399
'validation' 9536
  • Cytat :
@inproceedings{dua-etal-2019-drop,
    title = "{DROP}: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs",
    author = "Dua, Dheeru  and
      Wang, Yizhong  and
      Dasigi, Pradeep  and
      Stanovsky, Gabriel  and
      Singh, Sameer  and
      Gardner, Matt",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1246",
    doi = "10.18653/v1/N19-1246",
    pages = "2368--2378",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/mctest

  • Opis konfiguracji : MCTest wymaga, aby maszyny odpowiadały na pytania wielokrotnego wyboru dotyczące czytania ze zrozumieniem dotyczące fikcyjnych historii, bezpośrednio realizując główny cel, jakim jest rozumienie maszynowe w domenie otwartej. Czytanie ze zrozumieniem może sprawdzać zaawansowane umiejętności, takie jak rozumowanie przyczynowe i rozumienie świata, ale dzięki możliwości wielokrotnego wyboru nadal zapewnia jasne wskaźniki. Ponieważ jest fikcyjna, odpowiedź zazwyczaj można znaleźć tylko w samej historii. Historie i pytania są również starannie ograniczone do tych, które zrozumie małe dziecko, zmniejszając wiedzę o świecie wymaganą do wykonania zadania.

  • Rozmiar pliku do pobrania : 2.14 MiB

  • Rozmiar zestawu danych : 2.20 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'train' 1480
'validation' 320
  • Cytat :
@inproceedings{richardson-etal-2013-mctest,
    title = "{MCT}est: A Challenge Dataset for the Open-Domain Machine Comprehension of Text",
    author = "Richardson, Matthew  and
      Burges, Christopher J.C.  and
      Renshaw, Erin",
    booktitle = "Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing",
    month = oct,
    year = "2013",
    address = "Seattle, Washington, USA",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D13-1020",
    pages = "193--203",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/mctest_corrected_the_separator

  • Opis konfiguracji : MCTest wymaga, aby maszyny odpowiadały na pytania wielokrotnego wyboru dotyczące czytania ze zrozumieniem dotyczące fikcyjnych historii, bezpośrednio realizując główny cel, jakim jest rozumienie maszynowe w domenie otwartej. Czytanie ze zrozumieniem może sprawdzać zaawansowane umiejętności, takie jak rozumowanie przyczynowe i rozumienie świata, ale dzięki możliwości wielokrotnego wyboru nadal zapewnia jasne wskaźniki. Ponieważ jest fikcyjna, odpowiedź zazwyczaj można znaleźć tylko w samej historii. Historie i pytania są również starannie ograniczone do tych, które zrozumie małe dziecko, zmniejszając wiedzę o świecie wymaganą do wykonania zadania.

  • Rozmiar pliku do pobrania : 2.15 MiB

  • Rozmiar zestawu danych : 2.21 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'train' 1480
'validation' 320
  • Cytat :
@inproceedings{richardson-etal-2013-mctest,
    title = "{MCT}est: A Challenge Dataset for the Open-Domain Machine Comprehension of Text",
    author = "Richardson, Matthew  and
      Burges, Christopher J.C.  and
      Renshaw, Erin",
    booktitle = "Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing",
    month = oct,
    year = "2013",
    address = "Seattle, Washington, USA",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D13-1020",
    pages = "193--203",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/multirc

  • Opis konfiguracji : MultiRC to wyzwanie czytania ze zrozumieniem, w którym na pytania można odpowiedzieć tylko biorąc pod uwagę informacje z wielu zdań. Pytania i odpowiedzi do tego wyzwania zostały zebrane i zweryfikowane w 4-etapowym eksperymencie crowdsourcingowym. Zbiór danych zawiera pytania do akapitów z 7 różnych dziedzin (nauka w szkole podstawowej, wiadomości, przewodniki turystyczne, opowiadania beletrystyczne itp.), wprowadzając różnorodność językową do tekstów i sformułowań pytań.

  • Rozmiar pliku do pobrania : 897.09 KiB

  • Rozmiar zbioru danych : 918.42 KiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'train' 312
'validation' 312
  • Cytat :
@inproceedings{khashabi-etal-2018-looking,
    title = "Looking Beyond the Surface: A Challenge Set for Reading Comprehension over Multiple Sentences",
    author = "Khashabi, Daniel  and
      Chaturvedi, Snigdha  and
      Roth, Michael  and
      Upadhyay, Shyam  and
      Roth, Dan",
    booktitle = "Proceedings of the 2018 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers)",
    month = jun,
    year = "2018",
    address = "New Orleans, Louisiana",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N18-1023",
    doi = "10.18653/v1/N18-1023",
    pages = "252--262",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/narrativeqa

  • Opis konfiguracji : NarrativeQA to anglojęzyczny zbiór historii i odpowiadających im pytań zaprojektowanych do testowania czytania ze zrozumieniem, zwłaszcza w przypadku długich dokumentów.

  • Rozmiar pliku do pobrania : 308.28 MiB

  • Rozmiar zestawu danych : 311.22 MiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Rozdzielać Przykłady
'test' 21114
'train' 65494
'validation' 6922
  • Cytat :
@article{kocisky-etal-2018-narrativeqa,
    title = "The {N}arrative{QA} Reading Comprehension Challenge",
    author = "Ko{
{c} }isk{'y}, Tom{'a}{
{s} }  and
      Schwarz, Jonathan  and
      Blunsom, Phil  and
      Dyer, Chris  and
      Hermann, Karl Moritz  and
      Melis, G{'a}bor  and
      Grefenstette, Edward",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "6",
    year = "2018",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q18-1023",
    doi = "10.1162/tacl_a_00023",
    pages = "317--328",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/narrativeqa_dev

  • Opis konfiguracji : NarrativeQA to anglojęzyczny zbiór historii i odpowiadających im pytań zaprojektowanych do testowania czytania ze zrozumieniem, zwłaszcza w przypadku długich dokumentów.

  • Rozmiar pliku do pobrania : 308.28 MiB

  • Rozmiar zestawu danych : 311.22 MiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Rozdzielać Przykłady
'test' 21114
'train' 65494
'validation' 6922
  • Cytat :
@article{kocisky-etal-2018-narrativeqa,
    title = "The {N}arrative{QA} Reading Comprehension Challenge",
    author = "Ko{
{c} }isk{'y}, Tom{'a}{
{s} }  and
      Schwarz, Jonathan  and
      Blunsom, Phil  and
      Dyer, Chris  and
      Hermann, Karl Moritz  and
      Melis, G{'a}bor  and
      Grefenstette, Edward",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "6",
    year = "2018",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q18-1023",
    doi = "10.1162/tacl_a_00023",
    pages = "317--328",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/natural_questions

  • Opis konfiguracji : Korpus NQ zawiera pytania prawdziwych użytkowników i wymaga, aby systemy kontroli jakości przeczytały i zrozumiały cały artykuł w Wikipedii, który może zawierać odpowiedź na pytanie lub nie. Uwzględnienie prawdziwych pytań użytkowników i wymóg, aby rozwiązania czytały całą stronę w celu znalezienia odpowiedzi, sprawiają, że NQ jest bardziej realistycznym i wymagającym zadaniem niż wcześniejsze zestawy danych QA.

  • Rozmiar pliku do pobrania : 6.95 MiB

  • Rozmiar zestawu danych : 9.88 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'train' 96 075
'validation' 2295
  • Cytat :
@article{kwiatkowski-etal-2019-natural,
    title = "Natural Questions: A Benchmark for Question Answering Research",
    author = "Kwiatkowski, Tom  and
      Palomaki, Jennimaria  and
      Redfield, Olivia  and
      Collins, Michael  and
      Parikh, Ankur  and
      Alberti, Chris  and
      Epstein, Danielle  and
      Polosukhin, Illia  and
      Devlin, Jacob  and
      Lee, Kenton  and
      Toutanova, Kristina  and
      Jones, Llion  and
      Kelcey, Matthew  and
      Chang, Ming-Wei  and
      Dai, Andrew M.  and
      Uszkoreit, Jakob  and
      Le, Quoc  and
      Petrov, Slav",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "7",
    year = "2019",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q19-1026",
    doi = "10.1162/tacl_a_00276",
    pages = "452--466",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/natural_questions_direct_ans

  • Opis konfiguracji : Korpus NQ zawiera pytania prawdziwych użytkowników i wymaga, aby systemy kontroli jakości przeczytały i zrozumiały cały artykuł w Wikipedii, który może zawierać odpowiedź na pytanie lub nie. Uwzględnienie prawdziwych pytań użytkowników i wymóg, aby rozwiązania czytały całą stronę w celu znalezienia odpowiedzi, sprawiają, że NQ jest bardziej realistycznym i wymagającym zadaniem niż wcześniejsze zestawy danych QA. Ta wersja składa się z pytań z bezpośrednią odpowiedzią.

  • Rozmiar pliku do pobrania : 6.82 MiB

  • Rozmiar zestawu danych : 10.19 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'test' 6468
'train' 96676
'validation' 10693
  • Cytat :
@article{kwiatkowski-etal-2019-natural,
    title = "Natural Questions: A Benchmark for Question Answering Research",
    author = "Kwiatkowski, Tom  and
      Palomaki, Jennimaria  and
      Redfield, Olivia  and
      Collins, Michael  and
      Parikh, Ankur  and
      Alberti, Chris  and
      Epstein, Danielle  and
      Polosukhin, Illia  and
      Devlin, Jacob  and
      Lee, Kenton  and
      Toutanova, Kristina  and
      Jones, Llion  and
      Kelcey, Matthew  and
      Chang, Ming-Wei  and
      Dai, Andrew M.  and
      Uszkoreit, Jakob  and
      Le, Quoc  and
      Petrov, Slav",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "7",
    year = "2019",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q19-1026",
    doi = "10.1162/tacl_a_00276",
    pages = "452--466",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/natural_questions_direct_ans_test

  • Opis konfiguracji : Korpus NQ zawiera pytania prawdziwych użytkowników i wymaga, aby systemy kontroli jakości przeczytały i zrozumiały cały artykuł w Wikipedii, który może zawierać odpowiedź na pytanie lub nie. Uwzględnienie prawdziwych pytań użytkowników i wymóg, aby rozwiązania czytały całą stronę w celu znalezienia odpowiedzi, sprawiają, że NQ jest bardziej realistycznym i wymagającym zadaniem niż wcześniejsze zestawy danych QA. Ta wersja składa się z pytań z bezpośrednią odpowiedzią.

  • Rozmiar pliku do pobrania : 6.82 MiB

  • Rozmiar zestawu danych : 10.19 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'test' 6468
'train' 96676
'validation' 10693
  • Cytat :
@article{kwiatkowski-etal-2019-natural,
    title = "Natural Questions: A Benchmark for Question Answering Research",
    author = "Kwiatkowski, Tom  and
      Palomaki, Jennimaria  and
      Redfield, Olivia  and
      Collins, Michael  and
      Parikh, Ankur  and
      Alberti, Chris  and
      Epstein, Danielle  and
      Polosukhin, Illia  and
      Devlin, Jacob  and
      Lee, Kenton  and
      Toutanova, Kristina  and
      Jones, Llion  and
      Kelcey, Matthew  and
      Chang, Ming-Wei  and
      Dai, Andrew M.  and
      Uszkoreit, Jakob  and
      Le, Quoc  and
      Petrov, Slav",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "7",
    year = "2019",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q19-1026",
    doi = "10.1162/tacl_a_00276",
    pages = "452--466",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/natural_questions_with_dpr_para

  • Opis konfiguracji : Korpus NQ zawiera pytania prawdziwych użytkowników i wymaga, aby systemy kontroli jakości przeczytały i zrozumiały cały artykuł w Wikipedii, który może zawierać odpowiedź na pytanie lub nie. Uwzględnienie prawdziwych pytań użytkowników i wymóg, aby rozwiązania czytały całą stronę w celu znalezienia odpowiedzi, sprawiają, że NQ jest bardziej realistycznym i wymagającym zadaniem niż wcześniejsze zestawy danych QA. Ta wersja zawiera dodatkowe akapity (uzyskane przy użyciu silnika wyszukiwania DPR), aby rozszerzyć każde pytanie.

  • Rozmiar pliku do pobrania : 319.22 MiB

  • Rozmiar zbioru danych : 322.91 MiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Rozdzielać Przykłady
'train' 96676
'validation' 10693
  • Cytat :
@article{kwiatkowski-etal-2019-natural,
    title = "Natural Questions: A Benchmark for Question Answering Research",
    author = "Kwiatkowski, Tom  and
      Palomaki, Jennimaria  and
      Redfield, Olivia  and
      Collins, Michael  and
      Parikh, Ankur  and
      Alberti, Chris  and
      Epstein, Danielle  and
      Polosukhin, Illia  and
      Devlin, Jacob  and
      Lee, Kenton  and
      Toutanova, Kristina  and
      Jones, Llion  and
      Kelcey, Matthew  and
      Chang, Ming-Wei  and
      Dai, Andrew M.  and
      Uszkoreit, Jakob  and
      Le, Quoc  and
      Petrov, Slav",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "7",
    year = "2019",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q19-1026",
    doi = "10.1162/tacl_a_00276",
    pages = "452--466",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/natural_questions_with_dpr_para_test

  • Opis konfiguracji : Korpus NQ zawiera pytania prawdziwych użytkowników i wymaga, aby systemy kontroli jakości przeczytały i zrozumiały cały artykuł w Wikipedii, który może zawierać odpowiedź na pytanie lub nie. Uwzględnienie prawdziwych pytań użytkowników i wymóg, aby rozwiązania czytały całą stronę w celu znalezienia odpowiedzi, sprawiają, że NQ jest bardziej realistycznym i wymagającym zadaniem niż wcześniejsze zestawy danych QA. Ta wersja zawiera dodatkowe akapity (uzyskane przy użyciu silnika wyszukiwania DPR), aby rozszerzyć każde pytanie.

  • Rozmiar pliku do pobrania : 306.94 MiB

  • Rozmiar zestawu danych : 310.48 MiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Rozdzielać Przykłady
'test' 6468
'train' 96676
  • Cytat :
@article{kwiatkowski-etal-2019-natural,
    title = "Natural Questions: A Benchmark for Question Answering Research",
    author = "Kwiatkowski, Tom  and
      Palomaki, Jennimaria  and
      Redfield, Olivia  and
      Collins, Michael  and
      Parikh, Ankur  and
      Alberti, Chris  and
      Epstein, Danielle  and
      Polosukhin, Illia  and
      Devlin, Jacob  and
      Lee, Kenton  and
      Toutanova, Kristina  and
      Jones, Llion  and
      Kelcey, Matthew  and
      Chang, Ming-Wei  and
      Dai, Andrew M.  and
      Uszkoreit, Jakob  and
      Le, Quoc  and
      Petrov, Slav",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "7",
    year = "2019",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q19-1026",
    doi = "10.1162/tacl_a_00276",
    pages = "452--466",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/newsqa

  • Opis konfiguracji : NewsQA to zestaw danych do rozumienia maszynowego, składający się z generowanych przez człowieka par pytanie-odpowiedź. Crowdworkers dostarczają pytań i odpowiedzi na podstawie zestawu artykułów z CNN, z odpowiedziami składającymi się z fragmentów tekstu z odpowiednich artykułów.

  • Rozmiar pliku do pobrania : 283.33 MiB

  • Rozmiar zestawu danych : 285.94 MiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Rozdzielać Przykłady
'train' 75882
'validation' 4309
  • Cytat :
@inproceedings{trischler-etal-2017-newsqa,
    title = "{N}ews{QA}: A Machine Comprehension Dataset",
    author = "Trischler, Adam  and
      Wang, Tong  and
      Yuan, Xingdi  and
      Harris, Justin  and
      Sordoni, Alessandro  and
      Bachman, Philip  and
      Suleman, Kaheer",
    booktitle = "Proceedings of the 2nd Workshop on Representation Learning for {NLP}",
    month = aug,
    year = "2017",
    address = "Vancouver, Canada",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/W17-2623",
    doi = "10.18653/v1/W17-2623",
    pages = "191--200",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/openbookqa

  • Opis konfiguracji : OpenBookQA ma na celu promowanie badań nad zaawansowanymi odpowiedziami na pytania, badaniem głębszego zrozumienia zarówno tematu (z podsumowaniem najistotniejszych faktów w formie otwartej księgi, również dostarczanej z zestawem danych), jak i języka, w którym są wyrażone. zawiera pytania, które wymagają wieloetapowego rozumowania, wykorzystania dodatkowej wiedzy zdroworozsądkowej i zdroworozsądkowej oraz bogatego zrozumienia tekstu. OpenBookQA to nowy rodzaj zestawu danych z odpowiedziami na pytania, wzorowany na egzaminach z otwartej książki, służący do oceny zrozumienia tematu przez człowieka.

  • Rozmiar pliku do pobrania : 942.34 KiB

  • Rozmiar zestawu danych : 1.11 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'test' 500
'train' 4957
'validation' 500
  • Cytat :
@inproceedings{mihaylov-etal-2018-suit,
    title = "Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering",
    author = "Mihaylov, Todor  and
      Clark, Peter  and
      Khot, Tushar  and
      Sabharwal, Ashish",
    booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing",
    month = oct # "-" # nov,
    year = "2018",
    address = "Brussels, Belgium",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D18-1260",
    doi = "10.18653/v1/D18-1260",
    pages = "2381--2391",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/openbookqa_dev

  • Opis konfiguracji : OpenBookQA ma na celu promowanie badań nad zaawansowanymi odpowiedziami na pytania, badaniem głębszego zrozumienia zarówno tematu (z podsumowaniem najistotniejszych faktów w formie otwartej księgi, również dostarczanej z zestawem danych), jak i języka, w którym są wyrażone. zawiera pytania, które wymagają wieloetapowego rozumowania, wykorzystania dodatkowej wiedzy zdroworozsądkowej i zdroworozsądkowej oraz bogatego zrozumienia tekstu. OpenBookQA to nowy rodzaj zestawu danych z odpowiedziami na pytania, wzorowany na egzaminach z otwartej książki, służący do oceny zrozumienia tematu przez człowieka.

  • Rozmiar pliku do pobrania : 942.34 KiB

  • Rozmiar zestawu danych : 1.11 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'test' 500
'train' 4957
'validation' 500
  • Cytat :
@inproceedings{mihaylov-etal-2018-suit,
    title = "Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering",
    author = "Mihaylov, Todor  and
      Clark, Peter  and
      Khot, Tushar  and
      Sabharwal, Ashish",
    booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing",
    month = oct # "-" # nov,
    year = "2018",
    address = "Brussels, Belgium",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D18-1260",
    doi = "10.18653/v1/D18-1260",
    pages = "2381--2391",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/openbookqa_with_ir

  • Opis konfiguracji : OpenBookQA ma na celu promowanie badań nad zaawansowanymi odpowiedziami na pytania, badaniem głębszego zrozumienia zarówno tematu (z podsumowaniem najistotniejszych faktów w formie otwartej księgi, również dostarczanej z zestawem danych), jak i języka, w którym są wyrażone. zawiera pytania, które wymagają wieloetapowego rozumowania, wykorzystania dodatkowej wiedzy zdroworozsądkowej i zdroworozsądkowej oraz bogatego zrozumienia tekstu. OpenBookQA to nowy rodzaj zestawu danych z odpowiedziami na pytania, wzorowany na egzaminach z otwartej książki, służący do oceny zrozumienia tematu przez człowieka. Ta wersja zawiera akapity pobrane za pomocą systemu wyszukiwania informacji jako dodatkowe dowody.

  • Rozmiar pliku do pobrania : 6.08 MiB

  • Rozmiar zestawu danych : 6.28 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'test' 500
'train' 4957
'validation' 500
  • Cytat :
@inproceedings{mihaylov-etal-2018-suit,
    title = "Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering",
    author = "Mihaylov, Todor  and
      Clark, Peter  and
      Khot, Tushar  and
      Sabharwal, Ashish",
    booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing",
    month = oct # "-" # nov,
    year = "2018",
    address = "Brussels, Belgium",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D18-1260",
    doi = "10.18653/v1/D18-1260",
    pages = "2381--2391",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/openbookqa_with_ir_dev

  • Opis konfiguracji : OpenBookQA ma na celu promowanie badań nad zaawansowanymi odpowiedziami na pytania, badaniem głębszego zrozumienia zarówno tematu (z podsumowaniem najistotniejszych faktów w formie otwartej księgi, również dostarczanej z zestawem danych), jak i języka, w którym są wyrażone. zawiera pytania, które wymagają wieloetapowego rozumowania, wykorzystania dodatkowej wiedzy zdroworozsądkowej i zdroworozsądkowej oraz bogatego zrozumienia tekstu. OpenBookQA to nowy rodzaj zestawu danych z odpowiedziami na pytania, wzorowany na egzaminach z otwartej książki, służący do oceny zrozumienia tematu przez człowieka. Ta wersja zawiera akapity pobrane za pomocą systemu wyszukiwania informacji jako dodatkowe dowody.

  • Rozmiar pliku do pobrania : 6.08 MiB

  • Rozmiar zestawu danych : 6.28 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'test' 500
'train' 4957
'validation' 500
  • Cytat :
@inproceedings{mihaylov-etal-2018-suit,
    title = "Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering",
    author = "Mihaylov, Todor  and
      Clark, Peter  and
      Khot, Tushar  and
      Sabharwal, Ashish",
    booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing",
    month = oct # "-" # nov,
    year = "2018",
    address = "Brussels, Belgium",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D18-1260",
    doi = "10.18653/v1/D18-1260",
    pages = "2381--2391",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/fizyczne_iqa

  • Opis konfiguracji : jest to zestaw danych do testów porównawczych postępów w fizycznym, zdrowym rozsądku. Podstawowym zadaniem jest udzielenie odpowiedzi na pytanie wielokrotnego wyboru: biorąc pod uwagę pytanie q i dwa możliwe rozwiązania s1, s2, model lub człowiek musi wybrać najbardziej odpowiednie rozwiązanie, z którego dokładnie jedno jest poprawne. Zbiór danych koncentruje się na codziennych sytuacjach z preferencją dla nietypowych rozwiązań. Zbiór danych jest inspirowany witryną instructables.com, która zapewnia użytkownikom instrukcje dotyczące budowania, wytwarzania, pieczenia lub manipulowania przedmiotami przy użyciu materiałów codziennego użytku. Adnotatorzy proszeni są o przedstawienie perturbacji semantycznych lub alternatywnych podejść, które poza tym są podobne składniowo i tematycznie, aby zapewnić ukierunkowanie wiedzy fizycznej. Zbiór danych jest dalej czyszczony z podstawowych artefaktów przy użyciu algorytmu AFLite.

  • Rozmiar pliku do pobrania : 6.01 MiB

  • Rozmiar zestawu danych : 6.59 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'train' 16113
'validation' 1838
  • Cytat :
@inproceedings{bisk2020piqa,
    title={Piqa: Reasoning about physical commonsense in natural language},
    author={Bisk, Yonatan and Zellers, Rowan and Gao, Jianfeng and Choi, Yejin and others},
    booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
    volume={34},
    number={05},
    pages={7432--7439},
    year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/qasc

  • Opis konfiguracji : QASC to zestaw danych odpowiadający na pytania, skupiający się na kompozycji zdania. Składa się z 8 pytań wielokrotnego wyboru dotyczących przedmiotów ścisłych w szkole podstawowej i zawiera korpus 17 milionów zdań.

  • Rozmiar pliku do pobrania : 1.75 MiB

  • Rozmiar zestawu danych : 2.09 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'test' 920
'train' 8134
'validation' 926
  • Cytat :
@inproceedings{khot2020qasc,
    title={Qasc: A dataset for question answering via sentence composition},
    author={Khot, Tushar and Clark, Peter and Guerquin, Michal and Jansen, Peter and Sabharwal, Ashish},
    booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
    volume={34},
    number={05},
    pages={8082--8090},
    year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/qasc_test

  • Opis konfiguracji : QASC to zestaw danych odpowiadający na pytania, skupiający się na kompozycji zdania. Składa się z 8 pytań wielokrotnego wyboru dotyczących przedmiotów ścisłych w szkole podstawowej i zawiera korpus 17 milionów zdań.

  • Rozmiar pliku do pobrania : 1.75 MiB

  • Rozmiar zestawu danych : 2.09 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'test' 920
'train' 8134
'validation' 926
  • Cytat :
@inproceedings{khot2020qasc,
    title={Qasc: A dataset for question answering via sentence composition},
    author={Khot, Tushar and Clark, Peter and Guerquin, Michal and Jansen, Peter and Sabharwal, Ashish},
    booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
    volume={34},
    number={05},
    pages={8082--8090},
    year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/qasc_with_ir

  • Opis konfiguracji : QASC to zestaw danych odpowiadający na pytania, skupiający się na kompozycji zdania. Składa się z 8 pytań wielokrotnego wyboru dotyczących przedmiotów ścisłych w szkole podstawowej i zawiera korpus 17 milionów zdań. Ta wersja zawiera akapity pobrane za pomocą systemu wyszukiwania informacji jako dodatkowe dowody.

  • Rozmiar pliku do pobrania : 16.95 MiB

  • Rozmiar zestawu danych : 17.30 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'test' 920
'train' 8134
'validation' 926
  • Cytat :
@inproceedings{khot2020qasc,
    title={Qasc: A dataset for question answering via sentence composition},
    author={Khot, Tushar and Clark, Peter and Guerquin, Michal and Jansen, Peter and Sabharwal, Ashish},
    booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
    volume={34},
    number={05},
    pages={8082--8090},
    year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/qasc_with_ir_test

  • Opis konfiguracji : QASC to zestaw danych odpowiadający na pytania, skupiający się na kompozycji zdania. Składa się z 8 pytań wielokrotnego wyboru dotyczących przedmiotów ścisłych w szkole podstawowej i zawiera korpus 17 milionów zdań. Ta wersja zawiera akapity pobrane za pomocą systemu wyszukiwania informacji jako dodatkowe dowody.

  • Rozmiar pliku do pobrania : 16.95 MiB

  • Rozmiar zestawu danych : 17.30 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'test' 920
'train' 8134
'validation' 926
  • Cytat :
@inproceedings{khot2020qasc,
    title={Qasc: A dataset for question answering via sentence composition},
    author={Khot, Tushar and Clark, Peter and Guerquin, Michal and Jansen, Peter and Sabharwal, Ashish},
    booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
    volume={34},
    number={05},
    pages={8082--8090},
    year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/quoref

  • Opis konfiguracji : ten zestaw danych testuje zdolność rozumowania referencyjnego systemów czytania ze zrozumieniem. W tym teście porównawczym wyboru rozpiętości, zawierającym pytania dotyczące akapitów z Wikipedii, system musi rozwiązać twarde odniesienia przed wybraniem odpowiednich rozpiętości w akapitach w celu udzielenia odpowiedzi na pytania.

  • Rozmiar pliku do pobrania : 51.43 MiB

  • Rozmiar zestawu danych : 52.29 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'train' 22265
'validation' 2768
  • Cytat :
@inproceedings{dasigi-etal-2019-quoref,
    title = "{Q}uoref: A Reading Comprehension Dataset with Questions Requiring Coreferential Reasoning",
    author = "Dasigi, Pradeep  and
      Liu, Nelson F.  and
      Marasovi{'c}, Ana  and
      Smith, Noah A.  and
      Gardner, Matt",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-1606",
    doi = "10.18653/v1/D19-1606",
    pages = "5925--5932",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/race_string

  • Opis konfiguracji : Race to duży zbiór danych dotyczących czytania ze zrozumieniem. Zbiór danych jest zbierany z egzaminów z języka angielskiego w Chinach, które są przeznaczone dla uczniów gimnazjów i szkół średnich. Zbiór danych może służyć jako zestaw szkoleniowy i testowy do rozumienia maszynowego.

  • Rozmiar pliku do pobrania : 167.97 MiB

  • Rozmiar zestawu danych : 171.23 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak (test, walidacja), Tylko wtedy, gdy shuffle_files=False (pociąg)

  • Podziały :

Rozdzielać Przykłady
'test' 4934
'train' 87 863
'validation' 4887
  • Cytat :
@inproceedings{lai-etal-2017-race,
    title = "{RACE}: Large-scale {R}e{A}ding Comprehension Dataset From Examinations",
    author = "Lai, Guokun  and
      Xie, Qizhe  and
      Liu, Hanxiao  and
      Yang, Yiming  and
      Hovy, Eduard",
    booktitle = "Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing",
    month = sep,
    year = "2017",
    address = "Copenhagen, Denmark",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D17-1082",
    doi = "10.18653/v1/D17-1082",
    pages = "785--794",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/race_string_dev

  • Opis konfiguracji : Race to duży zbiór danych dotyczących czytania ze zrozumieniem. Zbiór danych jest zbierany z egzaminów z języka angielskiego w Chinach, które są przeznaczone dla uczniów gimnazjów i szkół średnich. Zbiór danych może służyć jako zestaw szkoleniowy i testowy do rozumienia maszynowego.

  • Rozmiar pliku do pobrania : 167.97 MiB

  • Rozmiar zestawu danych : 171.23 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak (test, walidacja), Tylko wtedy, gdy shuffle_files=False (pociąg)

  • Podziały :

Rozdzielać Przykłady
'test' 4934
'train' 87 863
'validation' 4887
  • Cytat :
@inproceedings{lai-etal-2017-race,
    title = "{RACE}: Large-scale {R}e{A}ding Comprehension Dataset From Examinations",
    author = "Lai, Guokun  and
      Xie, Qizhe  and
      Liu, Hanxiao  and
      Yang, Yiming  and
      Hovy, Eduard",
    booktitle = "Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing",
    month = sep,
    year = "2017",
    address = "Copenhagen, Denmark",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D17-1082",
    doi = "10.18653/v1/D17-1082",
    pages = "785--794",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/ropes

  • Opis konfiguracji : ten zestaw danych testuje zdolność systemu do zastosowania wiedzy z fragmentu tekstu w nowej sytuacji. Przedstawiono systemowi fragment tła zawierający związek przyczynowy lub jakościowy (np. „zapylacze zwierząt zwiększają efektywność zapłodnienia kwiatów”), nową sytuację wykorzystującą to tło oraz pytania, które wymagają uzasadnienia skutków związków w fragment tła w kontekście sytuacji.

  • Rozmiar pliku do pobrania : 12.91 MiB

  • Rozmiar zestawu danych : 13.35 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'train' 10 924
'validation' 1688
  • Cytat :
@inproceedings{lin-etal-2019-reasoning,
    title = "Reasoning Over Paragraph Effects in Situations",
    author = "Lin, Kevin  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Gardner, Matt",
    booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-5808",
    doi = "10.18653/v1/D19-5808",
    pages = "58--62",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/social_iqa

  • Opis konfiguracji : jest to zakrojony na szeroką skalę test porównawczy zdrowego rozsądku dotyczący sytuacji społecznych. Social IQa zawiera pytania wielokrotnego wyboru do badania inteligencji emocjonalnej i społecznej w różnych codziennych sytuacjach. Dzięki crowdsourcingowi zbierane są zdroworozsądkowe pytania wraz z poprawnymi i niepoprawnymi odpowiedziami na temat interakcji społecznych, przy użyciu nowej struktury, która łagodzi stylistyczne artefakty w nieprawidłowych odpowiedziach, prosząc pracowników o udzielenie właściwej odpowiedzi na inne, ale powiązane pytanie.

  • Rozmiar pliku do pobrania : 7.08 MiB

  • Rozmiar zestawu danych : 8.22 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'train' 33410
'validation' 1954
  • Cytat :
@inproceedings{sap-etal-2019-social,
    title = "Social {IQ}a: Commonsense Reasoning about Social Interactions",
    author = "Sap, Maarten  and
      Rashkin, Hannah  and
      Chen, Derek  and
      Le Bras, Ronan  and
      Choi, Yejin",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-1454",
    doi = "10.18653/v1/D19-1454",
    pages = "4463--4473",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/squad1_1

  • Opis konfiguracji : Jest to zestaw danych dotyczących czytania ze zrozumieniem składający się z pytań zadawanych przez pracowników społecznościowych w zbiorze artykułów Wikipedii, gdzie odpowiedzią na każde pytanie jest fragment tekstu z odpowiedniego fragmentu tekstu.

  • Rozmiar pliku do pobrania : 80.62 MiB

  • Rozmiar zestawu danych : 83.99 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'train' 87514
'validation' 10570
  • Cytat :
@inproceedings{rajpurkar-etal-2016-squad,
    title = "{SQ}u{AD}: 100,000+ Questions for Machine Comprehension of Text",
    author = "Rajpurkar, Pranav  and
      Zhang, Jian  and
      Lopyrev, Konstantin  and
      Liang, Percy",
    booktitle = "Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing",
    month = nov,
    year = "2016",
    address = "Austin, Texas",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D16-1264",
    doi = "10.18653/v1/D16-1264",
    pages = "2383--2392",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/squad2

  • Opis konfiguracji : Ten zestaw danych łączy oryginalny zestaw danych Stanford Question Answering Dataset (SQuAD) z pytaniami, na które nie można odpowiedzieć, pisanymi przez pracowników społecznościowych, aby wyglądały podobnie do tych, na które można odpowiedzieć.

  • Rozmiar pliku do pobrania : 116.56 MiB

  • Rozmiar zestawu danych : 121.43 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'train' 130149
'validation' 11873
  • Cytat :
@inproceedings{rajpurkar-etal-2018-know,
    title = "Know What You Don{'}t Know: Unanswerable Questions for {SQ}u{AD}",
    author = "Rajpurkar, Pranav  and
      Jia, Robin  and
      Liang, Percy",
    booktitle = "Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers)",
    month = jul,
    year = "2018",
    address = "Melbourne, Australia",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/P18-2124",
    doi = "10.18653/v1/P18-2124",
    pages = "784--789",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/winogrande_l

  • Opis konfiguracji : Ten zestaw danych jest inspirowany oryginalnym projektem Winograd Schema Challenge, ale został dostosowany w celu poprawy zarówno skali, jak i twardości zestawu danych. Kluczowe etapy konstrukcji zestawu danych obejmują (1) starannie zaprojektowaną procedurę crowdsourcingu, po której następuje (2) systematyczna redukcja błędów przy użyciu nowatorskiego algorytmu AfLite, który uogólnia skojarzenia słów wykrywane przez człowieka na skojarzenia osadzania wykrywane przez maszynę. Dostarczane są zestawy treningowe o różnych rozmiarach. Ten zestaw odpowiada rozmiarowi l .

  • Rozmiar pliku do pobrania : 1.49 MiB

  • Rozmiar zestawu danych : 1.83 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'train' 10234
'validation' 1267
  • Cytat :
@inproceedings{sakaguchi2020winogrande,
  title={Winogrande: An adversarial winograd schema challenge at scale},
  author={Sakaguchi, Keisuke and Le Bras, Ronan and Bhagavatula, Chandra and Choi, Yejin},
  booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
  volume={34},
  number={05},
  pages={8732--8740},
  year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/winogrande_m

  • Opis konfiguracji : Ten zestaw danych jest inspirowany oryginalnym projektem Winograd Schema Challenge, ale został dostosowany w celu poprawy zarówno skali, jak i twardości zestawu danych. Kluczowe etapy konstrukcji zestawu danych obejmują (1) starannie zaprojektowaną procedurę crowdsourcingu, po której następuje (2) systematyczna redukcja błędów przy użyciu nowatorskiego algorytmu AfLite, który uogólnia skojarzenia słów wykrywane przez człowieka na skojarzenia osadzania wykrywane przez maszynę. Dostarczane są zestawy treningowe o różnych rozmiarach. Ten zestaw odpowiada rozmiarowi m .

  • Rozmiar pliku do pobrania : 507.46 KiB

  • Rozmiar zbioru danych : 623.15 KiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'train' 2558
'validation' 1267
  • Cytat :
@inproceedings{sakaguchi2020winogrande,
  title={Winogrande: An adversarial winograd schema challenge at scale},
  author={Sakaguchi, Keisuke and Le Bras, Ronan and Bhagavatula, Chandra and Choi, Yejin},
  booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
  volume={34},
  number={05},
  pages={8732--8740},
  year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/winogrande_s

  • Opis konfiguracji : Ten zestaw danych jest inspirowany oryginalnym projektem Winograd Schema Challenge, ale został dostosowany w celu poprawy zarówno skali, jak i twardości zestawu danych. Kluczowe etapy konstrukcji zestawu danych obejmują (1) starannie zaprojektowaną procedurę crowdsourcingu, po której następuje (2) systematyczna redukcja błędów przy użyciu nowatorskiego algorytmu AfLite, który uogólnia skojarzenia słów wykrywane przez człowieka na skojarzenia osadzania wykrywane przez maszynę. Dostarczane są zestawy treningowe o różnych rozmiarach. Ten zestaw odpowiada rozmiarowi s .

  • Rozmiar pliku do pobrania : 479.24 KiB

  • Rozmiar zbioru danych : 590.47 KiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'test' 1767
'train' 640
'validation' 1267
  • Cytat :
@inproceedings{sakaguchi2020winogrande,
  title={Winogrande: An adversarial winograd schema challenge at scale},
  author={Sakaguchi, Keisuke and Le Bras, Ronan and Bhagavatula, Chandra and Choi, Yejin},
  booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
  volume={34},
  number={05},
  pages={8732--8740},
  year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."