paws_x_wiki

  • opis :

Ten zestaw danych zawiera 23 659 par ewaluacyjnych PAWS przetłumaczonych przez człowieka i 296 406 par szkoleniowych przetłumaczonych maszynowo w sześciu typologicznie różnych językach:

  • Francuski
  • hiszpański
  • Niemiecki
  • chiński
  • język japoński
  • koreański

Więcej informacji można znaleźć w towarzyszącym dokumencie: PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification na stronie https://arxiv.org/abs/1908.11828

Podobnie jak PAWS Dataset, przykłady są podzielone na sekcje Train/Dev/Test. Wszystkie pliki są w formacie tsv z czterema kolumnami:

  1. id : unikalny identyfikator dla każdej pary.
  2. sentence1 : Pierwsze zdanie.
  3. sentence2 2 : Drugie zdanie.
  4. (noisy_)label : (Noisy) etykieta dla każdej pary.

Każda etykieta ma dwie możliwe wartości: 0 wskazuje, że para ma inne znaczenie, a 1 oznacza, że ​​para jest parafrazą.

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształtować się Typ D Opis
FunkcjeDict
etykieta Etykieta klasy int64
zdanie 1 Tekst strunowy
zdanie2 Tekst strunowy
@InProceedings{pawsx2019emnlp,
  title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
  author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
  booktitle = {Proc. of EMNLP},
  year = {2019}
}

paws_x_wiki/de (domyślna konfiguracja)

  • Opis konfiguracji : Przetłumaczono na de

  • Rozmiar zestawu danych : 15.27 MiB

  • Podziały :

Podział Przykłady
'test' 2000
'train' 49380
'validation' 2000

paws_x_wiki/pl

  • Opis konfiguracji : Przetłumaczono na en

  • Rozmiar zestawu danych : 14.59 MiB

  • Podziały :

Podział Przykłady
'test' 2000
'train' 49175
'validation' 2000

paws_x_wiki/es

  • Opis konfiguracji : Przetłumaczono na es

  • Rozmiar zestawu danych : 15.27 MiB

  • Podziały :

Podział Przykłady
'test' 2000
'train' 49401
'validation' 1961

paws_x_wiki/fr

  • Opis konfiguracji : Przetłumaczono na fr

  • Rozmiar zestawu danych : 15.79 MiB

  • Podziały :

Podział Przykłady
'test' 2000
'train' 49399
'validation' 1988

paws_x_wiki/ja

  • Opis konfiguracji : Przetłumaczono na ja

  • Rozmiar zestawu danych : 17.77 MiB

  • Podziały :

Podział Przykłady
'test' 2000
'train' 49401
'validation' 2000

paws_x_wiki/ko

  • Opis konfiguracji : Przetłumaczone na ko

  • Rozmiar zestawu danych : 16.42 MiB

  • Podziały :

Podział Przykłady
'test' 1999
'train' 49164
'validation' 2000

paws_x_wiki/zh

  • Opis konfiguracji : Przetłumaczono na zh

  • Rozmiar zestawu danych : 13.20 MiB

  • Podziały :

Podział Przykłady
'test' 2000
'train' 49401
'validation' 2000