mrqa

  • opis :

Wspólne zadanie MRQA 2019 koncentruje się na uogólnianiu odpowiedzi na pytania. Skuteczny system odpowiadania na pytania powinien robić coś więcej niż tylko interpolować z zestawu uczącego, aby odpowiedzieć na przykłady testowe zaczerpnięte z tej samej dystrybucji: powinien również umożliwiać ekstrapolację na przykłady spoza dystrybucji — znacznie trudniejsze wyzwanie.

MRQA dostosowuje i ujednolica wiele odrębnych zestawów danych z odpowiedziami na pytania (starannie wybrane podzbiory istniejących zestawów danych) w ten sam format (format SQuAD). Wśród nich sześć zestawów danych udostępniono do szkolenia, a sześć zestawów danych udostępniono do testowania. Niewielkie części zestawów danych szkoleniowych były przechowywane jako dane w domenie, które można wykorzystać do programowania. Testowe zestawy danych zawierają tylko dane spoza domeny. Ten test porównawczy jest udostępniany w ramach wspólnego zadania MRQA 2019.

Więcej informacji można znaleźć pod adresem: <a href="https://mrqa.github.io/2019/shared.html">https://mrqa.github.io/2019/shared.html</a> .

FeaturesDict({
    'answers': Sequence(string),
    'context': string,
    'context_tokens': Sequence({
        'offsets': int32,
        'tokens': string,
    }),
    'detected_answers': Sequence({
        'char_spans': Sequence({
            'end': int32,
            'start': int32,
        }),
        'text': string,
        'token_spans': Sequence({
            'end': int32,
            'start': int32,
        }),
    }),
    'qid': string,
    'question': string,
    'question_tokens': Sequence({
        'offsets': int32,
        'tokens': string,
    }),
    'subset': string,
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
odpowiedzi Sekwencja (Tensor) (Nic,) strunowy
kontekst Napinacz strunowy
tokeny_kontekstu Sekwencja
tokeny_kontekstu/przesunięcia Napinacz int32
tokeny_kontekstu/tokeny Napinacz strunowy
wykryte_odpowiedzi Sekwencja
wykryte_odpowiedzi/char_spans Sekwencja
wykryte_odpowiedzi/char_spans/end Napinacz int32
wykryte_answers/char_spans/start Napinacz int32
wykryte_odpowiedzi/tekst Napinacz strunowy
wykryte_odpowiedzi/token_spans Sekwencja
wykryte_answers/token_spans/end Napinacz int32
wykryte_answers/token_spans/start Napinacz int32
qid Napinacz strunowy
pytanie Napinacz strunowy
znak_pytania Sekwencja
znaczniki_pytań/przesunięcia Napinacz int32
pytanie_tokeny/tokeny Napinacz strunowy
podzbiór Napinacz strunowy

mrqa/squad (domyślna konfiguracja)

  • Opis konfiguracji: zestaw danych SQuAD (Zestaw danych odpowiadania na pytania Stanforda) jest używany jako podstawa formatu zadania współdzielonego. Crowdworkerom pokazywane są akapity z Wikipedii i proszone o napisanie pytań z wydobywczymi odpowiedziami.

  • Rozmiar pliku do pobrania : 29.66 MiB

  • Rozmiar zbioru danych : 271.43 MiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Rozdzielać Przykłady
'train' 86588
'validation' 10507
  • Cytat :
@inproceedings{rajpurkar-etal-2016-squad,
    title = "{SQ}u{AD}: 100,000+ Questions for Machine Comprehension of Text",
    author = "Rajpurkar, Pranav  and
      Zhang, Jian  and
      Lopyrev, Konstantin  and
      Liang, Percy",
    booktitle = "Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing",
    month = nov,
    year = "2016",
    address = "Austin, Texas",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D16-1264",
    doi = "10.18653/v1/D16-1264",
    pages = "2383--2392",
}

@inproceedings{fisch-etal-2019-mrqa,
    title = "{MRQA} 2019 Shared Task: Evaluating Generalization in Reading Comprehension",
    author = "Fisch, Adam  and
      Talmor, Alon  and
      Jia, Robin  and
      Seo, Minjoon  and
      Choi, Eunsol  and
      Chen, Danqi",
    booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-5801",
    doi = "10.18653/v1/D19-5801",
    pages = "1--13",
}

Note that each MRQA dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."

mrqa/news_qa

  • Opis konfiguracji: dwie grupy pracowników społecznościowych zadają pytania i odpowiadają na nie na podstawie artykułów z wiadomości CNN. „Kwestionariusze” widzą tylko nagłówek i podsumowanie artykułu, podczas gdy „odpowiadający” widzą cały artykuł. Pytania, na które nie ma odpowiedzi lub które są oznaczone w zbiorze danych jako bez zgody adnotatora, są odrzucane.

  • Rozmiar pliku do pobrania : 56.83 MiB

  • Rozmiar zestawu danych : 654.25 MiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Rozdzielać Przykłady
'train' 74160
'validation' 4212
  • Cytat :
@inproceedings{trischler-etal-2017-newsqa,
        title = "{N}ews{QA}: A Machine Comprehension Dataset",
        author = "Trischler, Adam  and
          Wang, Tong  and
          Yuan, Xingdi  and
          Harris, Justin  and
          Sordoni, Alessandro  and
          Bachman, Philip  and
          Suleman, Kaheer",
        booktitle = "Proceedings of the 2nd Workshop on Representation Learning for {NLP}",
        month = aug,
        year = "2017",
        address = "Vancouver, Canada",
        publisher = "Association for Computational Linguistics",
        url = "https://aclanthology.org/W17-2623",
        doi = "10.18653/v1/W17-2623",
        pages = "191--200",
    }
#
@inproceedings{fisch-etal-2019-mrqa,
    title = "{MRQA} 2019 Shared Task: Evaluating Generalization in Reading Comprehension",
    author = "Fisch, Adam  and
      Talmor, Alon  and
      Jia, Robin  and
      Seo, Minjoon  and
      Choi, Eunsol  and
      Chen, Danqi",
    booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-5801",
    doi = "10.18653/v1/D19-5801",
    pages = "1--13",
}

Note that each MRQA dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."

mrqa/ciekawostki_qa

  • Opis konfiguracji : Pary pytań i odpowiedzi pochodzą z ciekawostek i stron z quizami. Używana jest internetowa wersja TriviaQA, w której konteksty są pobierane z wyników zapytania wyszukiwania Bing.

  • Rozmiar pliku do pobrania : 383.14 MiB

  • Rozmiar zbioru danych : 772.75 MiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Rozdzielać Przykłady
'train' 61688
'validation' 7785
  • Cytat :
@inproceedings{joshi-etal-2017-triviaqa,
    title = "{T}rivia{QA}: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension",
    author = "Joshi, Mandar  and
      Choi, Eunsol  and
      Weld, Daniel  and
      Zettlemoyer, Luke",
    booktitle = "Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)",
    month = jul,
    year = "2017",
    address = "Vancouver, Canada",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/P17-1147",
    doi = "10.18653/v1/P17-1147",
    pages = "1601--1611",
}

@inproceedings{fisch-etal-2019-mrqa,
    title = "{MRQA} 2019 Shared Task: Evaluating Generalization in Reading Comprehension",
    author = "Fisch, Adam  and
      Talmor, Alon  and
      Jia, Robin  and
      Seo, Minjoon  and
      Choi, Eunsol  and
      Chen, Danqi",
    booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-5801",
    doi = "10.18653/v1/D19-5801",
    pages = "1--13",
}

Note that each MRQA dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."

mrqa/search_qa

  • Opis konfiguracji : Pary pytań i odpowiedzi pochodzą z Jeopardy! Widowisko telewizyjne. Konteksty składają się z fragmentów pobranych z zapytania wyszukiwarki Google.

  • Rozmiar pliku do pobrania : 699.86 MiB

  • Rozmiar zestawu danych : 1.38 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Rozdzielać Przykłady
'train' 117384
'validation' 16 980
  • Cytat :
@article{dunn2017searchqa,
    title={Searchqa: A new q\&a dataset augmented with context from a search engine},
    author={Dunn, Matthew and Sagun, Levent and Higgins, Mike and Guney, V Ugur and Cirik, Volkan and Cho, Kyunghyun},
    journal={arXiv preprint arXiv:1704.05179},
    year={2017}
}

@inproceedings{fisch-etal-2019-mrqa,
    title = "{MRQA} 2019 Shared Task: Evaluating Generalization in Reading Comprehension",
    author = "Fisch, Adam  and
      Talmor, Alon  and
      Jia, Robin  and
      Seo, Minjoon  and
      Choi, Eunsol  and
      Chen, Danqi",
    booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-5801",
    doi = "10.18653/v1/D19-5801",
    pages = "1--13",
}

Note that each MRQA dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."

mrqa/hotpot_qa

  • Opis konfiguracji: Crowdworkerzy otrzymują dwa powiązane z encjami akapity z Wikipedii i są proszeni o napisanie i udzielenie odpowiedzi na pytania, których rozwiązanie wymaga rozumowania wieloprzeskokowego. W pierwotnym ustawieniu akapity te są mieszane z dodatkowymi akapitami rozpraszającymi uwagę, aby utrudnić wnioskowanie. Tutaj akapity dystraktora nie są uwzględnione.

  • Rozmiar pliku do pobrania : 111.98 MiB

  • Rozmiar zestawu danych : 272.87 MiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Rozdzielać Przykłady
'train' 72 928
'validation' 5901
  • Cytat :
@inproceedings{yang-etal-2018-hotpotqa,
    title = "{H}otpot{QA}: A Dataset for Diverse, Explainable Multi-hop Question Answering",
    author = "Yang, Zhilin  and
      Qi, Peng  and
      Zhang, Saizheng  and
      Bengio, Yoshua  and
      Cohen, William  and
      Salakhutdinov, Ruslan  and
      Manning, Christopher D.",
    booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing",
    month = oct # "-" # nov,
    year = "2018",
    address = "Brussels, Belgium",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D18-1259",
    doi = "10.18653/v1/D18-1259",
    pages = "2369--2380",
}

@inproceedings{fisch-etal-2019-mrqa,
    title = "{MRQA} 2019 Shared Task: Evaluating Generalization in Reading Comprehension",
    author = "Fisch, Adam  and
      Talmor, Alon  and
      Jia, Robin  and
      Seo, Minjoon  and
      Choi, Eunsol  and
      Chen, Danqi",
    booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-5801",
    doi = "10.18653/v1/D19-5801",
    pages = "1--13",
}

Note that each MRQA dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."

mrqa/natural_questions

  • Opis konfiguracji : Pytania są zbierane z wyszukiwań informacji w wyszukiwarce Google przez prawdziwych użytkowników w naturalnych warunkach. Odpowiedzi na pytania są opatrzone adnotacjami na pobranej stronie Wikipedii przez pracowników społecznościowych. Gromadzone są dwa rodzaje adnotacji: 1) ramka HTML zawierająca wystarczającą ilość informacji, aby całkowicie wywnioskować odpowiedź na pytanie (długa odpowiedź) oraz 2) podzakres lub podzakresy w ramce ograniczającej, które składają się na rzeczywistą odpowiedź (krótka odpowiedź) ). Używane są tylko przykłady, które mają krótkie odpowiedzi, a długa odpowiedź jest używana jako kontekst.

  • Rozmiar pliku do pobrania : 121.15 MiB

  • Rozmiar zbioru danych : 339.03 MiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Rozdzielać Przykłady
'train' 104 071
'validation' 12836
  • Cytat :
@article{kwiatkowski-etal-2019-natural,
    title = "Natural Questions: A Benchmark for Question Answering Research",
    author = "Kwiatkowski, Tom  and
      Palomaki, Jennimaria  and
      Redfield, Olivia  and
      Collins, Michael  and
      Parikh, Ankur  and
      Alberti, Chris  and
      Epstein, Danielle  and
      Polosukhin, Illia  and
      Devlin, Jacob  and
      Lee, Kenton  and
      Toutanova, Kristina  and
      Jones, Llion  and
      Kelcey, Matthew  and
      Chang, Ming-Wei  and
      Dai, Andrew M.  and
      Uszkoreit, Jakob  and
      Le, Quoc  and
      Petrov, Slav",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "7",
    year = "2019",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q19-1026",
    doi = "10.1162/tacl_a_00276",
    pages = "452--466",
}

@inproceedings{fisch-etal-2019-mrqa,
    title = "{MRQA} 2019 Shared Task: Evaluating Generalization in Reading Comprehension",
    author = "Fisch, Adam  and
      Talmor, Alon  and
      Jia, Robin  and
      Seo, Minjoon  and
      Choi, Eunsol  and
      Chen, Danqi",
    booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-5801",
    doi = "10.18653/v1/D19-5801",
    pages = "1--13",
}

Note that each MRQA dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."

mrqa/bio_asq

  • Opis konfiguracji: BioASQ, wyzwanie dotyczące biomedycznego indeksowania semantycznego na dużą skalę i odpowiadania na pytania, zawiera pary pytań i odpowiedzi, które są tworzone przez ekspertów dziedzinowych. Następnie są one ręcznie łączone z wieloma powiązanymi artykułami naukowymi (PubMed). Pełne streszczenie każdego z połączonych artykułów jest pobierane i używane jako indywidualny kontekst (np. pojedyncze pytanie może być połączone z wieloma niezależnymi artykułami w celu utworzenia wielu par QA-kontekst). Abstrakty, które nie zawierają dokładnej odpowiedzi, są odrzucane.

  • Rozmiar pliku do pobrania : 2.54 MiB

  • Rozmiar zestawu danych : 6.70 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'test' 1504
  • Cytat :
@article{tsatsaronis2015overview,
    title={An overview of the BIOASQ large-scale biomedical semantic indexing and question answering competition},
    author={Tsatsaronis, George and Balikas, Georgios and Malakasiotis, Prodromos and Partalas, Ioannis and Zschunke, Matthias and Alvers, Michael R and Weissenborn, Dirk and Krithara, Anastasia and Petridis, Sergios and Polychronopoulos, Dimitris and others},
    journal={BMC bioinformatics},
    volume={16},
    number={1},
    pages={1--28},
    year={2015},
    publisher={Springer}
}

@inproceedings{fisch-etal-2019-mrqa,
    title = "{MRQA} 2019 Shared Task: Evaluating Generalization in Reading Comprehension",
    author = "Fisch, Adam  and
      Talmor, Alon  and
      Jia, Robin  and
      Seo, Minjoon  and
      Choi, Eunsol  and
      Chen, Danqi",
    booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-5801",
    doi = "10.18653/v1/D19-5801",
    pages = "1--13",
}

Note that each MRQA dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."

mrqa/kropla

  • Opis konfiguracji: Przykłady DROP (Discrete Reasoning Over the content of Paragraphs) zostały zebrane podobnie jak w przypadku SQuAD, gdzie pracownicy społecznościowi proszeni są o utworzenie par pytanie-odpowiedź z akapitów Wikipedii. Pytania koncentrują się na rozumowaniu ilościowym, a oryginalny zbiór danych zawiera nieekstrakcyjne odpowiedzi numeryczne, jak również ekstrakcyjne odpowiedzi tekstowe. Stosowany jest zestaw pytań, które są ekstrakcyjne.

  • Rozmiar pliku do pobrania : 578.25 KiB

  • Rozmiar zestawu danych : 5.41 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'test' 1503
  • Cytat :
@inproceedings{dua-etal-2019-drop,
    title = "{DROP}: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs",
    author = "Dua, Dheeru  and
      Wang, Yizhong  and
      Dasigi, Pradeep  and
      Stanovsky, Gabriel  and
      Singh, Sameer  and
      Gardner, Matt",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1246",
    doi = "10.18653/v1/N19-1246",
    pages = "2368--2378",
}

@inproceedings{fisch-etal-2019-mrqa,
    title = "{MRQA} 2019 Shared Task: Evaluating Generalization in Reading Comprehension",
    author = "Fisch, Adam  and
      Talmor, Alon  and
      Jia, Robin  and
      Seo, Minjoon  and
      Choi, Eunsol  and
      Chen, Danqi",
    booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-5801",
    doi = "10.18653/v1/D19-5801",
    pages = "1--13",
}

Note that each MRQA dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."

mrqa/duo_rc

  • Opis konfiguracji: używany jest podział ParaphraseRC zestawu danych DuoRC. W tym ustawieniu zbierane są dwa różne streszczenia fabuły tego samego filmu — jedno z Wikipedii, a drugie z IMDb. Dwa różne zestawy pracowników społecznościowych zadają pytania dotyczące fabuły filmu i odpowiadają na nie, gdzie „pytającym” wyświetlana jest tylko strona Wikipedii, a „odpowiadającym” tylko strona IMDb. Pytania oznaczone jako bez odpowiedzi są odrzucane.

  • Rozmiar pliku do pobrania : 1.14 MiB

  • Rozmiar zestawu danych : 15.04 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'test' 1501
  • Cytat :
@inproceedings{saha-etal-2018-duorc,
    title = "{D}uo{RC}: Towards Complex Language Understanding with Paraphrased Reading Comprehension",
    author = "Saha, Amrita  and
      Aralikatte, Rahul  and
      Khapra, Mitesh M.  and
      Sankaranarayanan, Karthik",
    booktitle = "Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)",
    month = jul,
    year = "2018",
    address = "Melbourne, Australia",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/P18-1156",
    doi = "10.18653/v1/P18-1156",
    pages = "1683--1693",
}

@inproceedings{fisch-etal-2019-mrqa,
    title = "{MRQA} 2019 Shared Task: Evaluating Generalization in Reading Comprehension",
    author = "Fisch, Adam  and
      Talmor, Alon  and
      Jia, Robin  and
      Seo, Minjoon  and
      Choi, Eunsol  and
      Chen, Danqi",
    booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-5801",
    doi = "10.18653/v1/D19-5801",
    pages = "1--13",
}

Note that each MRQA dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."

mrqa/rasa

  • Opis konfiguracji: Zbiór danych dotyczących czytania ze zrozumieniem z egzaminów (RACE) jest zbierany z egzaminów z czytania ze zrozumieniem w języku angielskim dla chińskich uczniów gimnazjów i szkół średnich. Stosowany jest podział szkół średnich (który jest trudniejszy), a także odfiltrowuje się niejawne pytania w stylu „wypełnij puste” (które są nienaturalne dla tego zadania).

  • Rozmiar pliku do pobrania : 1.49 MiB

  • Rozmiar zestawu danych : 3.53 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'test' 674
  • Cytat :
@inproceedings{lai-etal-2017-race,
    title = "{RACE}: Large-scale {R}e{A}ding Comprehension Dataset From Examinations",
    author = "Lai, Guokun  and
      Xie, Qizhe  and
      Liu, Hanxiao  and
      Yang, Yiming  and
      Hovy, Eduard",
    booktitle = "Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing",
    month = sep,
    year = "2017",
    address = "Copenhagen, Denmark",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D17-1082",
    doi = "10.18653/v1/D17-1082",
    pages = "785--794",
}

@inproceedings{fisch-etal-2019-mrqa,
    title = "{MRQA} 2019 Shared Task: Evaluating Generalization in Reading Comprehension",
    author = "Fisch, Adam  and
      Talmor, Alon  and
      Jia, Robin  and
      Seo, Minjoon  and
      Choi, Eunsol  and
      Chen, Danqi",
    booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-5801",
    doi = "10.18653/v1/D19-5801",
    pages = "1--13",
}

Note that each MRQA dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."

mrqa/wyodrębnianie_relacji

  • Opis konfiguracji : biorąc pod uwagę zestaw danych wypełniających gniazda, relacje między jednostkami są systematycznie przekształcane w pary pytań i odpowiedzi przy użyciu szablonów. Na przykład związek wykształcony_at(x, y) między dwoma bytami x i y występującymi w zdaniu można wyrazić jako „Gdzie był x wykształcony?” z odpowiedzią y. Gromadzonych jest wiele szablonów dla każdego typu relacji. Stosowany jest podział testu porównawczego zerowego zestawu danych (uogólnienie do niewidocznych relacji) i zachowywane są tylko pozytywne przykłady.

  • Rozmiar pliku do pobrania : 830.88 KiB

  • Rozmiar zestawu danych : 3.71 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'test' 2948
  • Cytat :
@inproceedings{levy-etal-2017-zero,
    title = "Zero-Shot Relation Extraction via Reading Comprehension",
    author = "Levy, Omer  and
      Seo, Minjoon  and
      Choi, Eunsol  and
      Zettlemoyer, Luke",
    booktitle = "Proceedings of the 21st Conference on Computational Natural Language Learning ({C}o{NLL} 2017)",
    month = aug,
    year = "2017",
    address = "Vancouver, Canada",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/K17-1034",
    doi = "10.18653/v1/K17-1034",
    pages = "333--342",
}

@inproceedings{fisch-etal-2019-mrqa,
    title = "{MRQA} 2019 Shared Task: Evaluating Generalization in Reading Comprehension",
    author = "Fisch, Adam  and
      Talmor, Alon  and
      Jia, Robin  and
      Seo, Minjoon  and
      Choi, Eunsol  and
      Chen, Danqi",
    booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-5801",
    doi = "10.18653/v1/D19-5801",
    pages = "1--13",
}

Note that each MRQA dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."

mrqa/podręcznik_qa

  • Opis konfiguracji: TextbookQA jest zbierany z lekcji z podręczników do nauki o życiu, nauk o ziemi i nauk fizycznych do gimnazjum. Pytania, którym towarzyszy diagram lub pytania typu „Prawda czy fałsz” nie są uwzględniane.

  • Rozmiar pliku do pobrania : 1.79 MiB

  • Rozmiar zestawu danych : 14.04 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'test' 1503
  • Cytat :
@inproceedings{kembhavi2017you,
    title={Are you smarter than a sixth grader? textbook question answering for multimodal machine comprehension},
    author={Kembhavi, Aniruddha and Seo, Minjoon and Schwenk, Dustin and Choi, Jonghyun and Farhadi, Ali and Hajishirzi, Hannaneh},
    booktitle={Proceedings of the IEEE Conference on Computer Vision and Pattern recognition},
    pages={4999--5007},
    year={2017}
}

@inproceedings{fisch-etal-2019-mrqa,
    title = "{MRQA} 2019 Shared Task: Evaluating Generalization in Reading Comprehension",
    author = "Fisch, Adam  and
      Talmor, Alon  and
      Jia, Robin  and
      Seo, Minjoon  and
      Choi, Eunsol  and
      Chen, Danqi",
    booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-5801",
    doi = "10.18653/v1/D19-5801",
    pages = "1--13",
}

Note that each MRQA dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."