- Opis :
Tekst porządkowy dla wydań stron w ponad 40 językach Wikipedii odpowiada podmiotom. Zestawy danych mają podział na pociąg/programistę/test na każdy język. Zbiór danych jest czyszczony poprzez filtrowanie stron w celu usunięcia stron ujednoznaczniających, stron przekierowujących, stron usuniętych i stron niebędących encjami. Każdy przykład zawiera identyfikator wikidanych encji oraz pełny artykuł w Wikipedii po przetworzeniu strony, które usuwa sekcje niebędące treścią i obiekty strukturalne. Modele językowe przeszkolone w tym korpusie – w tym 41 modeli jednojęzycznych i 2 modele wielojęzyczne – można znaleźć na stronie https://tfhub.dev/google/collections/wiki40b-lm/1
Dodatkowa dokumentacja : Eksploruj w dokumentach z kodem
Strona główna : https://research.google/pubs/pub49029/
Kod źródłowy :
tfds.text.Wiki40b
Wersje :
-
1.3.0
(domyślnie): Brak informacji o wydaniu.
-
Rozmiar pobierania :
Unknown size
Struktura funkcji :
FeaturesDict({
'text': Text(shape=(), dtype=string),
'version_id': Text(shape=(), dtype=string),
'wikidata_id': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDykt | ||||
tekst | Tekst | strunowy | ||
identyfikator wersji | Tekst | strunowy | ||
wikidane_id | Tekst | strunowy |
Klucze nadzorowane (zobacz dokument
as_supervised
):None
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Cytat :
@inproceedings{49029,
title = {Wiki-40B: Multilingual Language Model Dataset},
author = {Mandy Guo and Zihang Dai and Denny Vrandecic and Rami Al-Rfou},
year = {2020},
booktitle = {LREC 2020}
}
wiki40b/en (konfiguracja domyślna)
Opis konfiguracji : Zbiór danych Wiki40B dla en.
Rozmiar zbioru danych :
9.91 GiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Podział | Przykłady |
---|---|
'test' | 162274 |
'train' | 2926536 |
'validation' | 163597 |
- Przykłady ( tfds.as_dataframe ):
wiki40b/ar
Opis konfiguracji : Zbiór danych Wiki40B dla ar.
Rozmiar zbioru danych :
833.20 MiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Podział | Przykłady |
---|---|
'test' | 12271 |
'train' | 220 885 |
'validation' | 12198 |
- Przykłady ( tfds.as_dataframe ):
wiki40b/zh-cn
Opis konfiguracji : Zbiór danych Wiki40B dla zh-cn.
Rozmiar zbioru danych :
985.53 MiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Podział | Przykłady |
---|---|
'test' | 30 355 |
'train' | 549 672 |
'validation' | 30299 |
- Przykłady ( tfds.as_dataframe ):
wiki40b/zh-tw
Opis konfiguracji : Zbiór danych Wiki40B dla zh-tw.
Rozmiar zbioru danych :
986.45 MiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Podział | Przykłady |
---|---|
'test' | 30670 |
'train' | 552031 |
'validation' | 30739 |
- Przykłady ( tfds.as_dataframe ):
wiki40b/nl
Opis konfiguracji : Zbiór danych Wiki40B dla nl.
Rozmiar zbioru danych :
961.82 MiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Podział | Przykłady |
---|---|
'test' | 24776 |
'train' | 447555 |
'validation' | 25201 |
- Przykłady ( tfds.as_dataframe ):
wiki40b/fr
Opis konfiguracji : Zbiór danych Wiki40B dla fr.
Rozmiar zbioru danych :
3.37 GiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Podział | Przykłady |
---|---|
'test' | 68 004 |
'train' | 1 227 206 |
'validation' | 68 655 |
- Przykłady ( tfds.as_dataframe ):
wiki40b/de
Opis konfiguracji : Zbiór danych Wiki40B dla de.
Rozmiar zbioru danych :
4.78 GiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Podział | Przykłady |
---|---|
'test' | 86594 |
'train' | 1554910 |
'validation' | 86068 |
- Przykłady ( tfds.as_dataframe ):
wiki40b/it
Opis konfiguracji : zbiór danych Wiki40B dla niego.
Rozmiar zbioru danych :
2.00 GiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Podział | Przykłady |
---|---|
'test' | 40 443 |
'train' | 732 609 |
'validation' | 40 684 |
- Przykłady ( tfds.as_dataframe ):
wiki40b/ja
Opis konfiguracji : Zbiór danych Wiki40B dla ja.
Rozmiar zbioru danych :
2.19 GiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Podział | Przykłady |
---|---|
'test' | 41268 |
'train' | 745 392 |
'validation' | 41576 |
- Przykłady ( tfds.as_dataframe ):
wiki40b/ko
Opis konfiguracji : Zbiór danych Wiki40B dla ko.
Rozmiar zbioru danych :
453.98 MiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Podział | Przykłady |
---|---|
'test' | 10802 |
'train' | 194 977 |
'validation' | 10805 |
- Przykłady ( tfds.as_dataframe ):
wiki40b/pl
Opis konfiguracji : Zbiór danych Wiki40B dla pl.
Rozmiar zbioru danych :
1.03 GiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Podział | Przykłady |
---|---|
'test' | 27 987 |
'train' | 505.191 |
'validation' | 28310 |
- Przykłady ( tfds.as_dataframe ):
wiki40b/pkt
Opis konfiguracji : Zbiór danych Wiki40B dla pkt.
Rozmiar zbioru danych :
1.08 GiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Podział | Przykłady |
---|---|
'test' | 22693 |
'train' | 406507 |
'validation' | 22301 |
- Przykłady ( tfds.as_dataframe ):
wiki40b/ru
Opis konfiguracji : Zbiór danych Wiki40B dla ru.
Rozmiar zbioru danych :
4.13 GiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Podział | Przykłady |
---|---|
'test' | 51885 |
'train' | 926 037 |
'validation' | 51287 |
- Przykłady ( tfds.as_dataframe ):
wiki40b/es
Opis konfiguracji : Zbiór danych Wiki40B dla es.
Rozmiar zbioru danych :
2.70 GiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Podział | Przykłady |
---|---|
'test' | 48764 |
'train' | 872541 |
'validation' | 48592 |
- Przykłady ( tfds.as_dataframe ):
wiki40b/th
Opis konfiguracji : Zbiór danych Wiki40B dla th.
Rozmiar zbioru danych :
326.29 MiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Podział | Przykłady |
---|---|
'test' | 3114 |
'train' | 56798 |
'validation' | 3093 |
- Przykłady ( tfds.as_dataframe ):
wiki40b/tr
Opis konfiguracji : Zbiór danych Wiki40B dla tr.
Rozmiar zbioru danych :
308.87 MiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Podział | Przykłady |
---|---|
'test' | 7890 |
'train' | 142576 |
'validation' | 7845 |
- Przykłady ( tfds.as_dataframe ):
wiki40b/bg
Opis konfiguracji : Zbiór danych Wiki40B dla bg.
Rozmiar zbioru danych :
433.20 MiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Podział | Przykłady |
---|---|
'test' | 7289 |
'train' | 130 670 |
'validation' | 7259 |
- Przykłady ( tfds.as_dataframe ):
wiki40b/ok
Opis konfiguracji : Zbiór danych Wiki40B dla ok.
Rozmiar zbioru danych :
753.00 MiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Podział | Przykłady |
---|---|
'test' | 15568 |
'train' | 277 313 |
'validation' | 15362 |
- Przykłady ( tfds.as_dataframe ):
wiki40b/cs
Opis konfiguracji : Zbiór danych Wiki40B dla cs.
Rozmiar zbioru danych :
631.84 MiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Podział | Przykłady |
---|---|
'test' | 12984 |
'train' | 235 971 |
'validation' | 13096 |
- Przykłady ( tfds.as_dataframe ):
wiki40b/da
Opis konfiguracji : Zbiór danych Wiki40B dla da.
Rozmiar zbioru danych :
240.51 MiB
Automatyczne buforowanie ( dokumentacja ): Tak (test, walidacja), Tylko gdy
shuffle_files=False
(pociąg)Podziały :
Podział | Przykłady |
---|---|
'test' | 6219 |
'train' | 109 486 |
'validation' | 6173 |
- Przykłady ( tfds.as_dataframe ):
wiki40b/el
Opis konfiguracji : Zbiór danych Wiki40B dla el.
Rozmiar zbioru danych :
524.77 MiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Podział | Przykłady |
---|---|
'test' | 5261 |
'train' | 93596 |
'validation' | 5130 |
- Przykłady ( tfds.as_dataframe ):
wiki40b/et
Opis konfiguracji : Zbiór danych Wiki40B dla et.
Rozmiar zbioru danych :
184.07 MiB
Automatyczne buforowanie ( dokumentacja ): Tak (test, walidacja), Tylko gdy
shuffle_files=False
(pociąg)Podziały :
Podział | Przykłady |
---|---|
'test' | 6205 |
'train' | 114 464 |
'validation' | 6351 |
- Przykłady ( tfds.as_dataframe ):
wiki40b/fa
Opis konfiguracji : Zbiór danych Wiki40B dla fa.
Rozmiar zbioru danych :
482.55 MiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Podział | Przykłady |
---|---|
'test' | 11262 |
'train' | 203145 |
'validation' | 11180 |
- Przykłady ( tfds.as_dataframe ):
wiki40b/fi
Opis konfiguracji : Zbiór danych Wiki40B dla fi.
Rozmiar zbioru danych :
534.13 MiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Podział | Przykłady |
---|---|
'test' | 14179 |
'train' | 255 822 |
'validation' | 13962 |
- Przykłady ( tfds.as_dataframe ):
wiki40b/he
Opis konfiguracji : Zbiór danych Wiki40B dla he.
Rozmiar zbioru danych :
869.51 MiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Podział | Przykłady |
---|---|
'test' | 9344 |
'train' | 165 359 |
'validation' | 9231 |
- Przykłady ( tfds.as_dataframe ):
wiki40b/cześć
Opis konfiguracji : Zbiór danych Wiki40B dla hi.
Rozmiar zbioru danych :
277.56 MiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Podział | Przykłady |
---|---|
'test' | 2643 |
'train' | 45737 |
'validation' | 2596 |
- Przykłady ( tfds.as_dataframe ):
wiki40b/godz
Opis konfiguracji : Zbiór danych Wiki40B dla hr.
Rozmiar zbioru danych :
235.58 MiB
Automatyczne buforowanie ( dokumentacja ): Tak (test, walidacja), Tylko gdy
shuffle_files=False
(pociąg)Podziały :
Podział | Przykłady |
---|---|
'test' | 5724 |
'train' | 103857 |
'validation' | 5792 |
- Przykłady ( tfds.as_dataframe ):
wiki40b/hu
Opis konfiguracji : Zbiór danych Wiki40B dla hu.
Rozmiar zbioru danych :
634.25 MiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Podział | Przykłady |
---|---|
'test' | 15258 |
'train' | 273248 |
'validation' | 15208 |
- Przykłady ( tfds.as_dataframe ):
wiki40b/id
Opis konfiguracji : Zbiór danych Wiki40B dla identyfikatora.
Rozmiar zbioru danych :
334.06 MiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Podział | Przykłady |
---|---|
'test' | 8598 |
'train' | 156255 |
'validation' | 8714 |
- Przykłady ( tfds.as_dataframe ):
wiki40b/lt
Opis konfiguracji : Zbiór danych Wiki40B dla lt.
Rozmiar zbioru danych :
140.46 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :
Podział | Przykłady |
---|---|
'test' | 4683 |
'train' | 84854 |
'validation' | 4754 |
- Przykłady ( tfds.as_dataframe ):
wiki40b/poz
Opis konfiguracji : Zbiór danych Wiki40B dla lv.
Rozmiar zbioru danych :
80.07 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :
Podział | Przykłady |
---|---|
'test' | 1932 |
'train' | 33064 |
'validation' | 1857 |
- Przykłady ( tfds.as_dataframe ):
wiki40b/ms
Opis konfiguracji : Zbiór danych Wiki40B dla ms.
Rozmiar zbioru danych :
142.49 MiB
Automatyczne buforowanie ( dokumentacja ): Tak (test, walidacja), Tylko gdy
shuffle_files=False
(pociąg)Podziały :
Podział | Przykłady |
---|---|
'test' | 5235 |
'train' | 97509 |
'validation' | 5357 |
- Przykłady ( tfds.as_dataframe ):
wiki40b/nie
Opis konfiguracji : Zbiór danych Wiki40B dla nr.
Rozmiar zbioru danych :
382.03 MiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Podział | Przykłady |
---|---|
'test' | 10588 |
'train' | 190 588 |
'validation' | 10547 |
- Przykłady ( tfds.as_dataframe ):
wiki40b/ro
Opis konfiguracji : Zbiór danych Wiki40B dla ro.
Rozmiar zbioru danych :
319.68 MiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Podział | Przykłady |
---|---|
'test' | 7870 |
'train' | 139 615 |
'validation' | 7624 |
- Przykłady ( tfds.as_dataframe ):
wiki40b/sk
Opis konfiguracji : Zbiór danych Wiki40B dla sk.
Rozmiar zbioru danych :
170.20 MiB
Automatyczne buforowanie ( dokumentacja ): Tak (test, walidacja), Tylko gdy
shuffle_files=False
(pociąg)Podziały :
Podział | Przykłady |
---|---|
'test' | 5741 |
'train' | 103 095 |
'validation' | 5604 |
- Przykłady ( tfds.as_dataframe ):
wiki40b/sl
Opis konfiguracji : Zbiór danych Wiki40B dla sl.
Rozmiar zbioru danych :
157.38 MiB
Automatyczne buforowanie ( dokumentacja ): Tak (test, walidacja), Tylko gdy
shuffle_files=False
(pociąg)Podziały :
Podział | Przykłady |
---|---|
'test' | 3341 |
'train' | 60 927 |
'validation' | 3287 |
- Przykłady ( tfds.as_dataframe ):
wiki40b/sr
Opis konfiguracji : Zbiór danych Wiki40B dla sr.
Rozmiar zbioru danych :
582.20 MiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Podział | Przykłady |
---|---|
'test' | 17 997 |
'train' | 327 313 |
'validation' | 18 100 |
- Przykłady ( tfds.as_dataframe ):
wiki40b/sv
Opis konfiguracji : Zbiór danych Wiki40B dla sv.
Rozmiar zbioru danych :
613.62 MiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Podział | Przykłady |
---|---|
'test' | 22291 |
'train' | 400 742 |
'validation' | 22263 |
- Przykłady ( tfds.as_dataframe ):
wiki40b/tl
Opis konfiguracji : Zbiór danych Wiki40B dla tl.
Rozmiar zbioru danych :
29.04 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :
Podział | Przykłady |
---|---|
'test' | 1446 |
'train' | 25940 |
'validation' | 1472 |
- Przykłady ( tfds.as_dataframe ):
wiki40b/uk
Opis konfiguracji : Zbiór danych Wiki40B dla Wielkiej Brytanii.
Rozmiar zbioru danych :
1.67 GiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Podział | Przykłady |
---|---|
'test' | 26581 |
'train' | 477 618 |
'validation' | 26324 |
- Przykłady ( tfds.as_dataframe ):
wiki40b/vi
Opis konfiguracji : Zbiór danych Wiki40B dla vi.
Rozmiar zbioru danych :
497.70 MiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Podział | Przykłady |
---|---|
'test' | 7942 |
'train' | 146255 |
'validation' | 8195 |
- Przykłady ( tfds.as_dataframe ):