- opis :
W istniejących zbiorach danych do identyfikacji parafraz brakuje par zdań, które mają duże nakładanie się leksykalne i nie są parafrazami. Modele trenowane na takich danych nie rozróżniają par, takich jak loty z Nowego Jorku na Florydę i loty z Florydy do Nowego Jorku. Ten zestaw danych zawiera 108 463 par oznaczonych przez człowieka i 656 tys. par oznaczonych hałaśliwie, które przedstawiają znaczenie struktury modelowania, kontekstu i informacji o kolejności wyrazów dla problemu identyfikacji parafraz.
Więcej informacji można znaleźć w towarzyszącym dokumencie: PAWS: Paraphrase Adversaries from Word Scrambling na https://arxiv.org/abs/1904.01130
Ten korpus zawiera pary wygenerowane ze stron Wikipedii, zawierające pary wygenerowane zarówno metodą zamiany słów, jak i tłumaczenia zwrotnego. Wszystkie pary mają ludzkie osądy zarówno w zakresie parafrazowania, jak i płynności, i są podzielone na sekcje Train/Dev/Test.
Wszystkie pliki są w formacie tsv z czterema kolumnami:
-
id
: unikalny identyfikator dla każdej pary. -
sentence1
: Pierwsze zdanie. -
sentence2
2 : Drugie zdanie. -
(noisy_)label
: (Noisy) etykieta dla każdej pary.
Każda etykieta ma dwie możliwe wartości: 0 oznacza, że para ma inne znaczenie, a 1 oznacza, że para jest parafrazą.
Dodatkowa dokumentacja : Przeglądaj dokumenty z kodem na
Strona główna : https://github.com/google-research-datasets/paws
Kod źródłowy :
tfds.datasets.paws_wiki.Builder
Wersje :
-
1.0.0
: Wersja początkowa. -
1.1.0
(domyślnie): Dodaje konfiguracje do innego podzbioru i obsługuje nieprzetworzony tekst.
-
Rozmiar pliku do pobrania :
57.47 MiB
Struktura funkcji :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'sentence1': Text(shape=(), dtype=string),
'sentence2': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
etykieta | Etykieta klasy | int64 | ||
zdanie 1 | Tekst | strunowy | ||
zdanie2 | Tekst | strunowy |
Klucze nadzorowane (Zobacz dokument
as_supervised
):None
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Cytat :
@InProceedings{paws2019naacl,
title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
booktitle = {Proc. of NAACL},
year = {2019}
}
paws_wiki/labeled_final_tokenized (domyślna konfiguracja)
Opis konfiguracji: Podzbiór: labeled_final tokenized: True
Rozmiar zestawu danych :
17.96 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 8000 |
'train' | 49401 |
'validation' | 8000 |
- Przykłady ( tfds.as_dataframe ):
paws_wiki/labeled_final_raw
Opis konfiguracji: Podzbiór: labeled_final tokenized: False
Rozmiar zestawu danych :
17.57 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 8000 |
'train' | 49401 |
'validation' | 8000 |
- Przykłady ( tfds.as_dataframe ):
paws_wiki/labeled_swap_tokenized
Opis konfiguracji: Podzbiór: labeled_swap tokenized: True
Rozmiar zestawu danych :
8.79 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :
Rozdzielać | Przykłady |
---|---|
'train' | 30397 |
- Przykłady ( tfds.as_dataframe ):
paws_wiki/labeled_swap_raw
Opis konfiguracji: Podzbiór: labeled_swap tokenizowany: Fałsz
Rozmiar zestawu danych :
8.60 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :
Rozdzielać | Przykłady |
---|---|
'train' | 30397 |
- Przykłady ( tfds.as_dataframe ):
paws_wiki/unlabeled_final_tokenized
Opis konfiguracji: Podzbiór: unlabeled_final tokenized: True
Rozmiar zestawu danych :
177.89 MiB
Automatyczne buforowanie ( dokumentacja ): Tak (walidacja), Tylko wtedy, gdy
shuffle_files=False
(pociąg)Podziały :
Rozdzielać | Przykłady |
---|---|
'train' | 645652 |
'validation' | 10 000 |
- Przykłady ( tfds.as_dataframe ):