wmt19_translate

  • opis :

Przetłumacz zestaw danych na podstawie danych z statmt.org.

Wersje istnieją dla różnych lat przy użyciu kombinacji wielu źródeł danych. Podstawowy wmt_translate umożliwia utworzenie własnej konfiguracji w celu wybrania własnej pary danych/języka poprzez utworzenie niestandardowego tfds.translate.wmt.WmtConfig .

config = tfds.translate.wmt.WmtConfig(
    version="0.0.1",
    language_pair=("fr", "de"),
    subsets={
        tfds.Split.TRAIN: ["commoncrawl_frde"],
        tfds.Split.VALIDATION: ["euelections_dev2019"],
    },
)
builder = tfds.builder("wmt_translate", config=config)
  • Strona główna : http://www.statmt.org/wmt19/translation-task.html

  • Kod źródłowy : tfds.translate.Wmt19Translate

  • Wersje :

    • 1.0.0 (domyślnie): Brak informacji o wersji.
  • Instrukcje ręcznego pobierania : ten zestaw danych wymaga ręcznego pobrania danych źródłowych do katalogu download_config.manual_dir (domyślnie ~/tensorflow_datasets/downloads/manual/ ):
    Niektóre konfiguracje wmt tutaj wymagają ręcznego pobrania. Zajrzyj do pliku wmt.py, aby zobaczyć dokładną ścieżkę (i nazwę pliku), który należy pobrać.

  • Rysunek ( tfds.show_examples ): Nieobsługiwany.

  • Cytat :

@ONLINE {wmt19translate,
    author = "Wikimedia Foundation",
    title  = "ACL 2019 Fourth Conference on Machine Translation (WMT19), Shared Task: Machine Translation of News",
    url    = "http://www.statmt.org/wmt19/translation-task.html"
}

wmt19_translate/cs-en (domyślna konfiguracja)

  • Opis konfiguracji: zestaw danych zadania tłumaczenia WMT 2019 cs-en.

  • Rozmiar pliku do pobrania : 1.88 GiB

  • Rozmiar zestawu danych : 3.64 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Rozdzielać Przykłady
'train' 20 246 548
'validation' 2983
  • Struktura funkcji :
Translation({
    'cs': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
Tłumaczenie
cs Tekst strunowy
en Tekst strunowy

wmt19_translate/de-en

  • Opis konfiguracji: zestaw danych zadania tłumaczenia WMT 2019 de-en.

  • Rozmiar pliku do pobrania : 9.71 GiB

  • Rozmiar zestawu danych : 8.60 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Rozdzielać Przykłady
'train' 38 690 334
'validation' 2998
  • Struktura funkcji :
Translation({
    'de': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
Tłumaczenie
de Tekst strunowy
en Tekst strunowy

wmt19_translate/fi-pl

  • Opis konfiguracji: zestaw danych zadania tłumaczenia WMT 2019 fi-en.

  • Rozmiar pliku do pobrania : 959.46 MiB

  • Rozmiar zestawu danych : 1.46 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Rozdzielać Przykłady
'train' 6.587.448
'validation' 3000
  • Struktura funkcji :
Translation({
    'en': Text(shape=(), dtype=string),
    'fi': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
Tłumaczenie
en Tekst strunowy
fi Tekst strunowy

wmt19_translate/gu-en

  • Opis konfiguracji: zestaw danych zadania tłumaczenia WMT 2019 gu-en.

  • Rozmiar pliku do pobrania : 37.03 MiB

  • Rozmiar zestawu danych : 1.55 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'train' 11670
'validation' 1998
  • Struktura funkcji :
Translation({
    'en': Text(shape=(), dtype=string),
    'gu': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
Tłumaczenie
en Tekst strunowy
gu Tekst strunowy

wmt19_translate/kk-en

  • Opis konfiguracji: zestaw danych zadania tłumaczenia WMT 2019 kk-en.

  • Rozmiar pliku do pobrania : 39.58 MiB

  • Rozmiar zestawu danych : 11.82 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Rozdzielać Przykłady
'train' 126583
'validation' 2066
  • Struktura funkcji :
Translation({
    'en': Text(shape=(), dtype=string),
    'kk': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
Tłumaczenie
en Tekst strunowy
kk Tekst strunowy

wmt19_translate/lt-en

  • Opis konfiguracji: zestaw danych zadania tłumaczenia WMT 2019 lt-en.

  • Rozmiar pliku do pobrania : 392.20 MiB

  • Rozmiar zestawu danych : 537.26 MiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Rozdzielać Przykłady
'train' 2344893
'validation' 2000
  • Struktura funkcji :
Translation({
    'en': Text(shape=(), dtype=string),
    'lt': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
Tłumaczenie
en Tekst strunowy
lt Tekst strunowy

wmt19_translate/ru-en

  • Opis konfiguracji: zestaw danych zadania tłumaczenia WMT 2019 ru-en.

  • Rozmiar pliku do pobrania : 1.57 GiB

  • Rozmiar zestawu danych : 13.95 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Rozdzielać Przykłady
'train' 38 492 126
'validation' 3000
  • Struktura funkcji :
Translation({
    'en': Text(shape=(), dtype=string),
    'ru': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
Tłumaczenie
en Tekst strunowy
ru Tekst strunowy

wmt19_translate/zh-en

  • Opis konfiguracji: zestaw danych zadania tłumaczenia WMT 2019 zh-en.

  • Rozmiar pliku do pobrania : 770.91 MiB

  • Rozmiar zestawu danych : 6.49 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Rozdzielać Przykłady
'train' 25 986 436
'validation' 3981
  • Struktura funkcji :
Translation({
    'en': Text(shape=(), dtype=string),
    'zh': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
Tłumaczenie
en Tekst strunowy
zh Tekst strunowy

wmt19_translate/fr-de

  • Opis konfiguracji: zestaw danych zadania tłumaczenia WMT 2019 fr-de.

  • Rozmiar pliku do pobrania : 722.20 MiB

  • Rozmiar zestawu danych : 2.39 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Rozdzielać Przykłady
'train' 9824476
'validation' 1512
  • Struktura funkcji :
Translation({
    'de': Text(shape=(), dtype=string),
    'fr': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
Tłumaczenie
de Tekst strunowy
fr Tekst strunowy