- opis :
Przetłumacz zestaw danych na podstawie danych z statmt.org.
Wersje istnieją dla różnych lat przy użyciu kombinacji wielu źródeł danych. Podstawowy wmt_translate
umożliwia utworzenie własnej konfiguracji w celu wybrania własnej pary danych/języka poprzez utworzenie niestandardowego tfds.translate.wmt.WmtConfig
.
config = tfds.translate.wmt.WmtConfig(
version="0.0.1",
language_pair=("fr", "de"),
subsets={
tfds.Split.TRAIN: ["commoncrawl_frde"],
tfds.Split.VALIDATION: ["euelections_dev2019"],
},
)
builder = tfds.builder("wmt_translate", config=config)
Dodatkowa dokumentacja : Przeglądaj dokumenty z kodem na
Strona główna : http://www.statmt.org/wmt16/translation-task.html
Kod źródłowy :
tfds.translate.Wmt16Translate
Wersje :
-
1.0.0
(domyślnie): Brak informacji o wersji.
-
Instrukcje ręcznego pobierania : ten zestaw danych wymaga ręcznego pobrania danych źródłowych do katalogu
download_config.manual_dir
(domyślnie~/tensorflow_datasets/downloads/manual/
):
Niektóre konfiguracje wmt tutaj wymagają ręcznego pobrania. Zajrzyj do pliku wmt.py, aby zobaczyć dokładną ścieżkę (i nazwę pliku), który należy pobrać.Rysunek ( tfds.show_examples ): Nieobsługiwany.
Cytat :
@InProceedings{bojar-EtAl:2016:WMT1,
author = {Bojar, Ond
{r}ej and Chatterjee, Rajen and Federmann, Christian and Graham, Yvette and Haddow, Barry and Huck, Matthias and Jimeno Yepes, Antonio and Koehn, Philipp and Logacheva, Varvara and Monz, Christof and Negri, Matteo and Neveol, Aurelie and Neves, Mariana and Popel, Martin and Post, Matt and Rubino, Raphael and Scarton, Carolina and Specia, Lucia and Turchi, Marco and Verspoor, Karin and Zampieri, Marcos},
title = {Findings of the 2016 Conference on Machine Translation},
booktitle = {Proceedings of the First Conference on Machine Translation},
month = {August},
year = {2016},
address = {Berlin, Germany},
publisher = {Association for Computational Linguistics},
pages = {131--198},
url = {http://www.aclweb.org/anthology/W/W16/W16-2301}
}
wmt16_translate/cs-en (domyślna konfiguracja)
Opis konfiguracji: zestaw danych zadania tłumaczenia WMT 2016 cs-en.
Rozmiar pliku do pobrania :
1.57 GiB
Rozmiar zestawu danych :
7.56 GiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 2999 |
'train' | 52 335 651 |
'validation' | 2656 |
- Struktura funkcji :
Translation({
'cs': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
Tłumaczenie | ||||
cs | Tekst | strunowy | ||
en | Tekst | strunowy |
Nadzorowane klucze (zobacz
as_supervised
doc ):('cs', 'en')
Przykłady ( tfds.as_dataframe ):
wmt16_translate/de-en
Opis konfiguracji: zestaw danych zadania tłumaczenia WMT 2016 de-en.
Rozmiar pliku do pobrania :
1.57 GiB
Rozmiar zestawu danych :
1.38 GiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 2999 |
'train' | 4548885 |
'validation' | 2169 |
- Struktura funkcji :
Translation({
'de': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
Tłumaczenie | ||||
de | Tekst | strunowy | ||
en | Tekst | strunowy |
Nadzorowane klucze (Zobacz
as_supervised
doc ):('de', 'en')
Przykłady ( tfds.as_dataframe ):
wmt16_translate/fi-pl
Opis konfiguracji: zestaw danych zadania tłumaczenia WMT 2016 fi-en.
Rozmiar pliku do pobrania :
260.51 MiB
Rozmiar zbioru danych :
624.31 MiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 6000 |
'train' | 2 073 394 |
'validation' | 1370 |
- Struktura funkcji :
Translation({
'en': Text(shape=(), dtype=string),
'fi': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
Tłumaczenie | ||||
en | Tekst | strunowy | ||
fi | Tekst | strunowy |
Nadzorowane klucze (Zobacz
as_supervised
doc ):('fi', 'en')
Przykłady ( tfds.as_dataframe ):
wmt16_translate/ro-en
Opis konfiguracji: zestaw danych zadania tłumaczenia WMT 2016 ro-en.
Rozmiar pliku do pobrania :
273.83 MiB
Rozmiar zestawu danych :
194.35 MiB
Automatyczne buforowanie ( dokumentacja ): Tak (test, walidacja), Tylko wtedy, gdy
shuffle_files=False
(pociąg)Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 1999 |
'train' | 610320 |
'validation' | 1999 |
- Struktura funkcji :
Translation({
'en': Text(shape=(), dtype=string),
'ro': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
Tłumaczenie | ||||
en | Tekst | strunowy | ||
ro | Tekst | strunowy |
Klucze nadzorowane (zobacz dokument
as_supervised
):('ro', 'en')
Przykłady ( tfds.as_dataframe ):
wmt16_translate/ru-en
Opis konfiguracji: zestaw danych zadania tłumaczenia WMT 2016 ru-en.
Rozmiar pliku do pobrania :
993.38 MiB
Rozmiar zbioru danych :
854.44 MiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 2998 |
'train' | 2516162 |
'validation' | 2818 |
- Struktura funkcji :
Translation({
'en': Text(shape=(), dtype=string),
'ru': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
Tłumaczenie | ||||
en | Tekst | strunowy | ||
ru | Tekst | strunowy |
Nadzorowane klucze (Zobacz
as_supervised
doc ):('ru', 'en')
Przykłady ( tfds.as_dataframe ):
wmt16_translate/tr-en
Opis konfiguracji: zestaw danych zadania tłumaczenia WMT 2016 tr-en.
Rozmiar pliku do pobrania :
59.32 MiB
Rozmiar zestawu danych :
63.21 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 3000 |
'train' | 205756 |
'validation' | 1001 |
- Struktura funkcji :
Translation({
'en': Text(shape=(), dtype=string),
'tr': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
Tłumaczenie | ||||
en | Tekst | strunowy | ||
tr | Tekst | strunowy |
Nadzorowane klucze (Zobacz
as_supervised
doc ):('tr', 'en')
Przykłady ( tfds.as_dataframe ):