c4

  • opis :

Ogromna, oczyszczona wersja korpusu indeksowania sieci Common Crawl.

Na podstawie zbioru danych Common Crawl: https://commoncrawl.org

Aby wygenerować ten zestaw danych, postępuj zgodnie z instrukcjami z t5 .

Ze względu na narzut związany z czyszczeniem zbioru danych zaleca się przygotowanie go za pomocą usługi rozproszonej, takiej jak Cloud Dataflow. Więcej informacji na https://www.tensorflow.org/datasets/beam_datasets

FeaturesDict({
    'content-length': Text(shape=(), dtype=string),
    'content-type': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'timestamp': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
długość treści Tekst strunowy
Typ zawartości Tekst strunowy
tekst Tekst strunowy
znak czasu Tekst strunowy
adres URL Tekst strunowy
@article{2019t5,
  author = {Colin Raffel and Noam Shazeer and Adam Roberts and Katherine Lee and Sharan Narang and Michael Matena and Yanqi Zhou and Wei Li and Peter J. Liu},
  title = {Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer},
  journal = {arXiv e-prints},
  year = {2019},
  archivePrefix = {arXiv},
  eprint = {1910.10683},
}

c4/en (domyślna konfiguracja)

  • Opis konfiguracji : angielski zestaw danych C4.

  • Rozmiar pliku do pobrania : 201.98 KiB

  • Rozmiar zestawu danych : 806.87 GiB

  • Podziały :

Rozdzielać Przykłady
'train' 364 613 570
'validation' 364724

c4/en.noclean

  • Opis konfiguracji: Wyłącza wszelkie czyszczenie (deduplikację, usuwanie na podstawie złych słów itp.)

  • Rozmiar pliku do pobrania : 177.11 KiB

  • Rozmiar zestawu danych : 6.21 TiB

  • Podziały :

Rozdzielać Przykłady
'train' 1 063 805 169
'validation' 1 065 028

c4/realnewslike

  • Opis konfiguracji: Filtruje z domyślnej konfiguracji, aby uwzględniać tylko treści z domen używanych w zbiorze danych „RealNews” (Zellers i in., 2019).

  • Rozmiar pliku do pobrania : 340.29 KiB

  • Rozmiar zestawu danych : 36.91 GiB

  • Podziały :

Rozdzielać Przykłady
'train' 13 804 817
'validation' 13855

c4/webtextlike

  • Opis konfiguracji: Filtruje z domyślnej konfiguracji, aby uwzględnić tylko zawartość z adresów URL w OpenWebText ( https://github.com/jcpeterson/openwebtext ).

  • Rozmiar pliku do pobrania : 2.04 MiB

  • Rozmiar zestawu danych : 17.93 GiB

  • Podziały :

Rozdzielać Przykłady
'train' 4 488 694
'validation' 4486

c4/wielojęzyczny

  • Opis konfiguracji: wielojęzyczny C4 (mC4) ma 101 języków i jest generowany z 86 zrzutów Common Crawl.

  • Rozmiar pliku do pobrania : 13.60 MiB

  • Rozmiar zestawu danych : 38.49 TiB

  • Podziały :

Rozdzielać Przykłady
'af' 1 770 414
'af-validation' 1757
'am' 291570
'am-validation' 289
'ar' 92 455 378
'ar-validation' 92374
'az' 7 179 300
'az-validation' 7206
'be' 2156584
'be-validation' 2103
'bg' 32.511.350
'bg-Latn' 44290
'bg-Latn-validation' 41
'bg-validation' 32690
'bn' 15 183 514
'bn-validation' 15130
'ca' 19 438 615
'ca-validation' 19562
'ceb' 415208
'ceb-validation' 430
'co' 217257
'co-validation' 211
'cs' 82 262 078
'cs-validation' 82.594
'cy' 1 066 595
'cy-validation' 1016
'da' 36 884 558
'da-validation' 37071
'de' 545 956 997
'de-validation' 547566
'el' 68 577 376
'el-Latn' 162 004
'el-Latn-validation' 171
'el-validation' 69435
'en' 3 928 733 379
'en-validation' 3 933 379
'eo' 560151
'eo-validation' 546
'es' 591 272 119
'es-validation' 592258
'et' 10 401 882
'et-validation' 10276
'eu' 2 077 113
'eu-validation' 2077
'fa' 81 252 911
'fa-validation' 81034
'fi' 36 807 562
'fi-validation' 36512
'fil' 2331209
'fil-validation' 2381
'fr' 454 229 019
'fr-validation' 453124
'fy' 502656
'fy-validation' 478
'ga' 611457
'ga-validation' 631
'gd' 201237
'gd-validation' 196
'gl' 3 762 255
'gl-validation' 3811
'gu' 1 292 191
'gu-validation' 1323
'ha' 363 002
'ha-validation' 368
'haw' 103 043
'haw-validation' 99
'hi' 26 695 748
'hi-Latn' 251231
'hi-Latn-validation' 261
'hi-validation' 26721
'hmn' 157 016
'hmn-validation' 175
'ht' 232354
'ht-validation' 246
'hu' 56 645 732
'hu-validation' 56905
'hy' 3 873 029
'hy-validation' 3804
'id' 19 423 746
'id-validation' 19601
'ig' 110 582
'ig-validation' 103
'is' 3139312
'is-validation' 3210
'it' 267 686 115
'it-validation' 267322
'iw' 17 607 812
'iw-validation' 17570
'ja' 85 226 039
'ja-Latn' 235 885
'ja-Latn-validation' 221
'ja-validation' 85618
'jv' 218 969
'jv-validation' 253
'ka' 3726808
'ka-validation' 3752
'kk' 3421165
'kk-validation' 3443
'km' 1384128
'km-validation' 1359
'kn' 1 916 445
'kn-validation' 1895
'ko' 24 035 493
'ko-validation' 24240
'ku' 399 027
'ku-validation' 417
'ky' 1 198 504
'ky-validation' 1188
'la' 1 632 557
'la-validation' 1630
'lb' 850 921
'lb-validation' 856
'lo' 302612
'lo-validation' 290
'lt' 18 234 466
'lt-validation' 18428
'lv' 9882376
'lv-validation' 10034
'mg' 263321
'mg-validation' 254
'mi' 148146
'mi-validation' 156
'mk' 3 599 707
'mk-validation' 3713
'ml' 3 604 562
'ml-validation' 3514
'mn' 2 947 312
'mn-validation' 3021
'mr' 4555599
'mr-validation' 4602
'ms' 4 688 036
'ms-validation' 4719
'mt' 1 109 191
'mt-validation' 1207
'my' 1 248 242
'my-validation' 1314
'ne' 4 679 412
'ne-validation' 4738
'nl' 136 379 427
'nl-validation' 137142
'no' 30 644 684
'no-validation' 31134
'ny' 114 952
'ny-validation' 121
'pa' 729394
'pa-validation' 719
'pl' 178 690 573
'pl-validation' 178481
'ps' 497321
'ps-validation' 468
'pt' 246 401 954
'pt-validation' 246120
'ro' 66 499 899
'ro-validation' 66384
'ru' 1 014 064 014
'ru-Latn' 582.022
'ru-Latn-validation' 616
'ru-validation' 1 014 169
'sd' 210 835
'sd-validation' 206
'si' 846125
'si-validation' 846
'sk' 26 721 250
'sk-validation' 26882
'sl' 12 381 886
'sl-validation' 12381
'sm' 102125
'sm-validation' 108
'sn' 124 984
'sn-validation' 116
'so' 1168106
'so-validation' 1212
'sq' 7 023 573
'sq-validation' 7057
'sr' 4 775 217
'sr-validation' 4804
'st' 99970
'st-validation' 103
'su' 153302
'su-validation' 151
'sv' 63308307
'sv-validation' 63488
'sw' 1 279 408
'sw-validation' 1296
'ta' 5 769 533
'ta-validation' 5770
'te' 2 034 828
'te-validation' 2010
'tg' 1 563 304
'tg-validation' 1526
'th' 28.021.205
'th-validation' 28062
'tr' 132 662 955
'tr-validation' 133062
'uk' 56159593
'uk-validation' 56321
'und' 3 650 492 732
'und-validation' 3 656 588
'ur' 3 432 478
'ur-validation' 3443
'uz' 1183603
'uz-validation' 1259
'vi' 132 667 573
'vi-validation' 132 915
'xh' 122232
'xh-validation' 117
'yi' 173510
'yi-validation' 166
'yo' 86686
'yo-validation' 82
'zh' 214 856 503
'zh-Latn' 471314
'zh-Latn-validation' 492
'zh-validation' 214733
'zu' 261239
'zu-validation' 253