wiki40b

  • Opis :

Tekst porządkowy dla wydań stron w ponad 40 językach Wikipedii odpowiada podmiotom. Zestawy danych mają podział na pociąg/programistę/test na każdy język. Zbiór danych jest czyszczony poprzez filtrowanie stron w celu usunięcia stron ujednoznaczniających, stron przekierowujących, stron usuniętych i stron niebędących encjami. Każdy przykład zawiera identyfikator wikidanych encji oraz pełny artykuł w Wikipedii po przetworzeniu strony, które usuwa sekcje niebędące treścią i obiekty strukturalne. Modele językowe przeszkolone w tym korpusie – w tym 41 modeli jednojęzycznych i 2 modele wielojęzyczne – można znaleźć na stronie https://tfhub.dev/google/collections/wiki40b-lm/1

FeaturesDict({
    'text': Text(shape=(), dtype=string),
    'version_id': Text(shape=(), dtype=string),
    'wikidata_id': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDykt
tekst Tekst strunowy
identyfikator wersji Tekst strunowy
wikidane_id Tekst strunowy
@inproceedings{49029,
title = {Wiki-40B: Multilingual Language Model Dataset},
author = {Mandy Guo and Zihang Dai and Denny Vrandecic and Rami Al-Rfou},
year = {2020},
booktitle   = {LREC 2020}
}

wiki40b/en (konfiguracja domyślna)

  • Opis konfiguracji : Zbiór danych Wiki40B dla en.

  • Rozmiar zbioru danych : 9.91 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'test' 162274
'train' 2926536
'validation' 163597

wiki40b/ar

  • Opis konfiguracji : Zbiór danych Wiki40B dla ar.

  • Rozmiar zbioru danych : 833.20 MiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'test' 12271
'train' 220 885
'validation' 12198

wiki40b/zh-cn

  • Opis konfiguracji : Zbiór danych Wiki40B dla zh-cn.

  • Rozmiar zbioru danych : 985.53 MiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'test' 30 355
'train' 549 672
'validation' 30299

wiki40b/zh-tw

  • Opis konfiguracji : Zbiór danych Wiki40B dla zh-tw.

  • Rozmiar zbioru danych : 986.45 MiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'test' 30670
'train' 552031
'validation' 30739

wiki40b/nl

  • Opis konfiguracji : Zbiór danych Wiki40B dla nl.

  • Rozmiar zbioru danych : 961.82 MiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'test' 24776
'train' 447555
'validation' 25201

wiki40b/fr

  • Opis konfiguracji : Zbiór danych Wiki40B dla fr.

  • Rozmiar zbioru danych : 3.37 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'test' 68 004
'train' 1 227 206
'validation' 68 655

wiki40b/de

  • Opis konfiguracji : Zbiór danych Wiki40B dla de.

  • Rozmiar zbioru danych : 4.78 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'test' 86594
'train' 1554910
'validation' 86068

wiki40b/it

  • Opis konfiguracji : zbiór danych Wiki40B dla niego.

  • Rozmiar zbioru danych : 2.00 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'test' 40 443
'train' 732 609
'validation' 40 684

wiki40b/ja

  • Opis konfiguracji : Zbiór danych Wiki40B dla ja.

  • Rozmiar zbioru danych : 2.19 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'test' 41268
'train' 745 392
'validation' 41576

wiki40b/ko

  • Opis konfiguracji : Zbiór danych Wiki40B dla ko.

  • Rozmiar zbioru danych : 453.98 MiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'test' 10802
'train' 194 977
'validation' 10805

wiki40b/pl

  • Opis konfiguracji : Zbiór danych Wiki40B dla pl.

  • Rozmiar zbioru danych : 1.03 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'test' 27 987
'train' 505.191
'validation' 28310

wiki40b/pkt

  • Opis konfiguracji : Zbiór danych Wiki40B dla pkt.

  • Rozmiar zbioru danych : 1.08 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'test' 22693
'train' 406507
'validation' 22301

wiki40b/ru

  • Opis konfiguracji : Zbiór danych Wiki40B dla ru.

  • Rozmiar zbioru danych : 4.13 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'test' 51885
'train' 926 037
'validation' 51287

wiki40b/es

  • Opis konfiguracji : Zbiór danych Wiki40B dla es.

  • Rozmiar zbioru danych : 2.70 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'test' 48764
'train' 872541
'validation' 48592

wiki40b/th

  • Opis konfiguracji : Zbiór danych Wiki40B dla th.

  • Rozmiar zbioru danych : 326.29 MiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'test' 3114
'train' 56798
'validation' 3093

wiki40b/tr

  • Opis konfiguracji : Zbiór danych Wiki40B dla tr.

  • Rozmiar zbioru danych : 308.87 MiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'test' 7890
'train' 142576
'validation' 7845

wiki40b/bg

  • Opis konfiguracji : Zbiór danych Wiki40B dla bg.

  • Rozmiar zbioru danych : 433.20 MiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'test' 7289
'train' 130 670
'validation' 7259

wiki40b/ok

  • Opis konfiguracji : Zbiór danych Wiki40B dla ok.

  • Rozmiar zbioru danych : 753.00 MiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'test' 15568
'train' 277 313
'validation' 15362

wiki40b/cs

  • Opis konfiguracji : Zbiór danych Wiki40B dla cs.

  • Rozmiar zbioru danych : 631.84 MiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'test' 12984
'train' 235 971
'validation' 13096

wiki40b/da

  • Opis konfiguracji : Zbiór danych Wiki40B dla da.

  • Rozmiar zbioru danych : 240.51 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak (test, walidacja), Tylko gdy shuffle_files=False (pociąg)

  • Podziały :

Podział Przykłady
'test' 6219
'train' 109 486
'validation' 6173

wiki40b/el

  • Opis konfiguracji : Zbiór danych Wiki40B dla el.

  • Rozmiar zbioru danych : 524.77 MiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'test' 5261
'train' 93596
'validation' 5130

wiki40b/et

  • Opis konfiguracji : Zbiór danych Wiki40B dla et.

  • Rozmiar zbioru danych : 184.07 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak (test, walidacja), Tylko gdy shuffle_files=False (pociąg)

  • Podziały :

Podział Przykłady
'test' 6205
'train' 114 464
'validation' 6351

wiki40b/fa

  • Opis konfiguracji : Zbiór danych Wiki40B dla fa.

  • Rozmiar zbioru danych : 482.55 MiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'test' 11262
'train' 203145
'validation' 11180

wiki40b/fi

  • Opis konfiguracji : Zbiór danych Wiki40B dla fi.

  • Rozmiar zbioru danych : 534.13 MiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'test' 14179
'train' 255 822
'validation' 13962

wiki40b/he

  • Opis konfiguracji : Zbiór danych Wiki40B dla he.

  • Rozmiar zbioru danych : 869.51 MiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'test' 9344
'train' 165 359
'validation' 9231

wiki40b/cześć

  • Opis konfiguracji : Zbiór danych Wiki40B dla hi.

  • Rozmiar zbioru danych : 277.56 MiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'test' 2643
'train' 45737
'validation' 2596

wiki40b/godz

  • Opis konfiguracji : Zbiór danych Wiki40B dla hr.

  • Rozmiar zbioru danych : 235.58 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak (test, walidacja), Tylko gdy shuffle_files=False (pociąg)

  • Podziały :

Podział Przykłady
'test' 5724
'train' 103857
'validation' 5792

wiki40b/hu

  • Opis konfiguracji : Zbiór danych Wiki40B dla hu.

  • Rozmiar zbioru danych : 634.25 MiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'test' 15258
'train' 273248
'validation' 15208

wiki40b/id

  • Opis konfiguracji : Zbiór danych Wiki40B dla identyfikatora.

  • Rozmiar zbioru danych : 334.06 MiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'test' 8598
'train' 156255
'validation' 8714

wiki40b/lt

  • Opis konfiguracji : Zbiór danych Wiki40B dla lt.

  • Rozmiar zbioru danych : 140.46 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Podział Przykłady
'test' 4683
'train' 84854
'validation' 4754

wiki40b/poz

  • Opis konfiguracji : Zbiór danych Wiki40B dla lv.

  • Rozmiar zbioru danych : 80.07 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Podział Przykłady
'test' 1932
'train' 33064
'validation' 1857

wiki40b/ms

  • Opis konfiguracji : Zbiór danych Wiki40B dla ms.

  • Rozmiar zbioru danych : 142.49 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak (test, walidacja), Tylko gdy shuffle_files=False (pociąg)

  • Podziały :

Podział Przykłady
'test' 5235
'train' 97509
'validation' 5357

wiki40b/nie

  • Opis konfiguracji : Zbiór danych Wiki40B dla nr.

  • Rozmiar zbioru danych : 382.03 MiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'test' 10588
'train' 190 588
'validation' 10547

wiki40b/ro

  • Opis konfiguracji : Zbiór danych Wiki40B dla ro.

  • Rozmiar zbioru danych : 319.68 MiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'test' 7870
'train' 139 615
'validation' 7624

wiki40b/sk

  • Opis konfiguracji : Zbiór danych Wiki40B dla sk.

  • Rozmiar zbioru danych : 170.20 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak (test, walidacja), Tylko gdy shuffle_files=False (pociąg)

  • Podziały :

Podział Przykłady
'test' 5741
'train' 103 095
'validation' 5604

wiki40b/sl

  • Opis konfiguracji : Zbiór danych Wiki40B dla sl.

  • Rozmiar zbioru danych : 157.38 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak (test, walidacja), Tylko gdy shuffle_files=False (pociąg)

  • Podziały :

Podział Przykłady
'test' 3341
'train' 60 927
'validation' 3287

wiki40b/sr

  • Opis konfiguracji : Zbiór danych Wiki40B dla sr.

  • Rozmiar zbioru danych : 582.20 MiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'test' 17 997
'train' 327 313
'validation' 18 100

wiki40b/sv

  • Opis konfiguracji : Zbiór danych Wiki40B dla sv.

  • Rozmiar zbioru danych : 613.62 MiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'test' 22291
'train' 400 742
'validation' 22263

wiki40b/tl

  • Opis konfiguracji : Zbiór danych Wiki40B dla tl.

  • Rozmiar zbioru danych : 29.04 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Podziały :

Podział Przykłady
'test' 1446
'train' 25940
'validation' 1472

wiki40b/uk

  • Opis konfiguracji : Zbiór danych Wiki40B dla Wielkiej Brytanii.

  • Rozmiar zbioru danych : 1.67 GiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'test' 26581
'train' 477 618
'validation' 26324

wiki40b/vi

  • Opis konfiguracji : Zbiór danych Wiki40B dla vi.

  • Rozmiar zbioru danych : 497.70 MiB

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'test' 7942
'train' 146255
'validation' 8195