- Описание :
Колоссальная, очищенная версия корпуса веб-сканеров Common Crawl.
На основе набора данных Common Crawl: https://commoncrawl.org
Чтобы создать этот набор данных, следуйте инструкциям из t5 .
Из-за накладных расходов на очистку набора данных рекомендуется подготовить его с помощью распределенной службы, такой как Cloud Dataflow. Дополнительная информация на https://www.tensorflow.org/datasets/beam_datasets.
Дополнительная документация : изучить документы с кодом
Домашняя страница : https://github.com/google-research/text-to-text-transfer-transformer#datasets
Исходный код :
tfds.text.C4
Версии :
-
2.2.0
: нет примечаний к выпуску. -
2.2.1
: Нет примечаний к выпуску. -
2.3.0
: Нет примечаний к выпуску. -
2.3.1
: Нет примечаний к выпуску. -
3.1.0
(по умолчанию): нет примечаний к выпуску.
-
Инструкции по ручной загрузке : этот набор данных требует, чтобы вы загружали исходные данные вручную в
download_config.manual_dir
(по умолчанию~/tensorflow_datasets/downloads/manual/
):
Вы используете конфигурацию C4, которая требует ручной загрузки некоторых файлов. Дляc4/webtextlike
загрузите OpenWebText.zip с https://mega.nz/#F!EZZD0YwJ!9_PlEQzdMVLaNdKv_ICNVQ .Автоматическое кэширование ( документация ): Нет
Структура функции :
FeaturesDict({
'content-length': Text(shape=(), dtype=string),
'content-type': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'timestamp': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
длина содержимого | Текст | нить | ||
Тип содержимого | Текст | нить | ||
текст | Текст | нить | ||
отметка времени | Текст | нить | ||
URL | Текст | нить |
Ключи под наблюдением (см . документ
as_supervised
):None
Рисунок ( tfds.show_examples ): не поддерживается.
Цитата :
@article{2019t5,
author = {Colin Raffel and Noam Shazeer and Adam Roberts and Katherine Lee and Sharan Narang and Michael Matena and Yanqi Zhou and Wei Li and Peter J. Liu},
title = {Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer},
journal = {arXiv e-prints},
year = {2019},
archivePrefix = {arXiv},
eprint = {1910.10683},
}
c4/en (конфигурация по умолчанию)
Описание конфигурации : английский набор данных C4.
Размер загрузки :
201.98 KiB
Размер набора данных :
806.87 GiB
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 364 613 570 |
'validation' | 364 724 |
- Примеры ( tfds.as_dataframe ):
c4/en.noclean
Описание конфигурации : отключает всю очистку (дедупликацию, удаление на основе нецензурных слов и т. д.)
Размер загрузки :
177.11 KiB
Размер набора данных :
6.21 TiB
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 1 063 805 169 |
'validation' | 1 065 028 |
- Примеры ( tfds.as_dataframe ):
c4/realnewslike
Описание конфигурации : Фильтры из конфигурации по умолчанию включают только контент из доменов, используемых в наборе данных «RealNews» (Zellers et al., 2019).
Размер загрузки :
340.29 KiB
Размер набора данных :
36.91 GiB
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 13 804 817 |
'validation' | 13 855 |
- Примеры ( tfds.as_dataframe ):
c4/вебтекстлайк
Описание конфигурации : Фильтры из конфигурации по умолчанию включают только контент из URL-адресов в OpenWebText ( https://github.com/jcpeterson/openwebtext ).
Размер загрузки :
2.04 MiB
Размер набора данных :
17.93 GiB
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 4 488 694 |
'validation' | 4486 |
- Примеры ( tfds.as_dataframe ):
c4/многоязычный
Описание конфигурации : Многоязычный C4 (mC4) поддерживает 101 язык и создается из 86 дампов Common Crawl.
Размер загрузки :
13.60 MiB
.Размер набора данных :
38.49 TiB
.Сплиты :
Расколоть | Примеры |
---|---|
'af' | 1 770 414 |
'af-validation' | 1757 |
'am' | 291 570 |
'am-validation' | 289 |
'ar' | 92 455 378 |
'ar-validation' | 92 374 |
'az' | 7 179 300 |
'az-validation' | 7 206 |
'be' | 2 156 584 |
'be-validation' | 2103 |
'bg' | 32 511 350 |
'bg-Latn' | 44 290 |
'bg-Latn-validation' | 41 |
'bg-validation' | 32 690 |
'bn' | 15 183 514 |
'bn-validation' | 15 130 |
'ca' | 19 438 615 |
'ca-validation' | 19 562 |
'ceb' | 415 208 |
'ceb-validation' | 430 |
'co' | 217 257 |
'co-validation' | 211 |
'cs' | 82 262 078 |
'cs-validation' | 82 594 |
'cy' | 1 066 595 |
'cy-validation' | 1016 |
'da' | 36 884 558 |
'da-validation' | 37 071 |
'de' | 545 956 997 |
'de-validation' | 547 566 |
'el' | 68 577 376 |
'el-Latn' | 162 004 |
'el-Latn-validation' | 171 |
'el-validation' | 69 435 |
'en' | 3 928 733 379 |
'en-validation' | 3 933 379 |
'eo' | 560 151 |
'eo-validation' | 546 |
'es' | 591 272 119 |
'es-validation' | 592 258 |
'et' | 10 401 882 |
'et-validation' | 10 276 |
'eu' | 2 077 113 |
'eu-validation' | 2077 |
'fa' | 81 252 911 |
'fa-validation' | 81 034 |
'fi' | 36 807 562 |
'fi-validation' | 36 512 |
'fil' | 2 331 209 |
'fil-validation' | 2381 |
'fr' | 454 229 019 |
'fr-validation' | 453 124 |
'fy' | 502 656 |
'fy-validation' | 478 |
'ga' | 611 457 |
'ga-validation' | 631 |
'gd' | 201 237 |
'gd-validation' | 196 |
'gl' | 3 762 255 |
'gl-validation' | 3811 |
'gu' | 1 292 191 |
'gu-validation' | 1323 |
'ha' | 363 002 |
'ha-validation' | 368 |
'haw' | 103 043 |
'haw-validation' | 99 |
'hi' | 26 695 748 |
'hi-Latn' | 251 231 |
'hi-Latn-validation' | 261 |
'hi-validation' | 26 721 |
'hmn' | 157 016 |
'hmn-validation' | 175 |
'ht' | 232 354 |
'ht-validation' | 246 |
'hu' | 56 645 732 |
'hu-validation' | 56 905 |
'hy' | 3 873 029 |
'hy-validation' | 3804 |
'id' | 19 423 746 |
'id-validation' | 19 601 |
'ig' | 110 582 |
'ig-validation' | 103 |
'is' | 3 139 312 |
'is-validation' | 3210 |
'it' | 267 686 115 |
'it-validation' | 267 322 |
'iw' | 17 607 812 |
'iw-validation' | 17 570 |
'ja' | 85 226 039 |
'ja-Latn' | 235 885 |
'ja-Latn-validation' | 221 |
'ja-validation' | 85 618 |
'jv' | 218 969 |
'jv-validation' | 253 |
'ka' | 3 726 808 |
'ka-validation' | 3752 |
'kk' | 3 421 165 |
'kk-validation' | 3443 |
'km' | 1 384 128 |
'km-validation' | 1359 |
'kn' | 1 916 445 |
'kn-validation' | 1895 |
'ko' | 24 035 493 |
'ko-validation' | 24 240 |
'ku' | 399 027 |
'ku-validation' | 417 |
'ky' | 1 198 504 |
'ky-validation' | 1188 |
'la' | 1 632 557 |
'la-validation' | 1630 |
'lb' | 850 921 |
'lb-validation' | 856 |
'lo' | 302 612 |
'lo-validation' | 290 |
'lt' | 18 234 466 |
'lt-validation' | 18 428 |
'lv' | 9 882 376 |
'lv-validation' | 10 034 |
'mg' | 263 321 |
'mg-validation' | 254 |
'mi' | 148 146 |
'mi-validation' | 156 |
'mk' | 3 599 707 |
'mk-validation' | 3713 |
'ml' | 3 604 562 |
'ml-validation' | 3514 |
'mn' | 2 947 312 |
'mn-validation' | 3021 |
'mr' | 4 555 599 |
'mr-validation' | 4602 |
'ms' | 4 688 036 |
'ms-validation' | 4719 |
'mt' | 1 109 191 |
'mt-validation' | 1207 |
'my' | 1 248 242 |
'my-validation' | 1314 |
'ne' | 4 679 412 |
'ne-validation' | 4738 |
'nl' | 136 379 427 |
'nl-validation' | 137 142 |
'no' | 30 644 684 |
'no-validation' | 31 134 |
'ny' | 114 952 |
'ny-validation' | 121 |
'pa' | 729 394 |
'pa-validation' | 719 |
'pl' | 178 690 573 |
'pl-validation' | 178 481 |
'ps' | 497 321 |
'ps-validation' | 468 |
'pt' | 246 401 954 |
'pt-validation' | 246 120 |
'ro' | 66 499 899 |
'ro-validation' | 66 384 |
'ru' | 1 014 064 014 |
'ru-Latn' | 582 022 |
'ru-Latn-validation' | 616 |
'ru-validation' | 1 014 169 |
'sd' | 210 835 |
'sd-validation' | 206 |
'si' | 846 125 |
'si-validation' | 846 |
'sk' | 26 721 250 |
'sk-validation' | 26 882 |
'sl' | 12 381 886 |
'sl-validation' | 12 381 |
'sm' | 102 125 |
'sm-validation' | 108 |
'sn' | 124 984 |
'sn-validation' | 116 |
'so' | 1 168 106 |
'so-validation' | 1212 |
'sq' | 7 023 573 |
'sq-validation' | 7057 |
'sr' | 4 775 217 |
'sr-validation' | 4804 |
'st' | 99 970 |
'st-validation' | 103 |
'su' | 153 302 |
'su-validation' | 151 |
'sv' | 63 308 307 |
'sv-validation' | 63 488 |
'sw' | 1 279 408 |
'sw-validation' | 1296 |
'ta' | 5 769 533 |
'ta-validation' | 5770 |
'te' | 2 034 828 |
'te-validation' | 2010 |
'tg' | 1 563 304 |
'tg-validation' | 1526 |
'th' | 28 021 205 |
'th-validation' | 28 062 |
'tr' | 132 662 955 |
'tr-validation' | 133 062 |
'uk' | 56 159 593 |
'uk-validation' | 56 321 |
'und' | 3 650 492 732 |
'und-validation' | 3 656 588 |
'ur' | 3 432 478 |
'ur-validation' | 3443 |
'uz' | 1 183 603 |
'uz-validation' | 1259 |
'vi' | 132 667 573 |
'vi-validation' | 132 915 |
'xh' | 122 232 |
'xh-validation' | 117 |
'yi' | 173 510 |
'yi-validation' | 166 |
'yo' | 86 686 |
'yo-validation' | 82 |
'zh' | 214 856 503 |
'zh-Latn' | 471 314 |
'zh-Latn-validation' | 492 |
'zh-validation' | 214 733 |
'zu' | 261 239 |
'zu-validation' | 253 |
- Примеры ( tfds.as_dataframe ):