- Описание :
Текст очистки для более чем 40 языковых версий страниц Википедии соответствует сущностям. Наборы данных разделены на обучение/разработку/тестирование для каждого языка. Набор данных очищается посредством фильтрации страниц для удаления страниц устранения неоднозначности, страниц перенаправления, удаленных страниц и страниц, не являющихся сущностями. Каждый пример содержит идентификатор объекта в Викиданных и полную статью Википедии после обработки страницы, при которой удаляются несодержательные разделы и структурированные объекты. Языковые модели, обученные на этом корпусе, включая 41 одноязычную модель и 2 многоязычные модели, можно найти по адресу https://tfhub.dev/google/collections/wiki40b-lm/1 .
Дополнительная документация : Изучите статьи с кодом
Домашняя страница : https://research.google/pubs/pub49029/ .
Исходный код :
tfds.text.Wiki40b
.Версии :
-
1.3.0
(по умолчанию): нет примечаний к выпуску.
-
Размер загрузки :
Unknown size
Структура функции :
FeaturesDict({
'text': Text(shape=(), dtype=string),
'version_id': Text(shape=(), dtype=string),
'wikidata_id': Text(shape=(), dtype=string),
})
- Функциональная документация :
Особенность | Сорт | Форма | Дтип | Описание |
---|---|---|---|---|
ВозможностиDict | ||||
текст | Текст | нить | ||
идентификатор_версии | Текст | нить | ||
wikidata_id | Текст | нить |
Контролируемые ключи (см. документ
as_supervised
):None
Рисунок ( tfds.show_examples ): не поддерживается.
Цитата :
@inproceedings{49029,
title = {Wiki-40B: Multilingual Language Model Dataset},
author = {Mandy Guo and Zihang Dai and Denny Vrandecic and Rami Al-Rfou},
year = {2020},
booktitle = {LREC 2020}
}
wiki40b/en (конфигурация по умолчанию)
Описание конфигурации : Набор данных Wiki40B для en.
Размер набора данных :
9.91 GiB
Автокэширование ( документация ): Нет
Расколы :
Расколоть | Примеры |
---|---|
'test' | 162 274 |
'train' | 2 926 536 |
'validation' | 163 597 |
- Примеры ( tfds.as_dataframe ):
вики40б/ар
Описание конфигурации : Набор данных Wiki40B для ar.
Размер набора данных :
833.20 MiB
Автокэширование ( документация ): Нет
Расколы :
Расколоть | Примеры |
---|---|
'test' | 12 271 |
'train' | 220 885 |
'validation' | 12 198 |
- Примеры ( tfds.as_dataframe ):
wiki40b/zh-cn
Описание конфигурации : набор данных Wiki40B для zh-cn.
Размер набора данных :
985.53 MiB
Автокэширование ( документация ): Нет
Расколы :
Расколоть | Примеры |
---|---|
'test' | 30 355 |
'train' | 549 672 |
'validation' | 30 299 |
- Примеры ( tfds.as_dataframe ):
wiki40b/zh-tw
Описание конфигурации : Набор данных Wiki40B для zh-tw.
Размер набора данных :
986.45 MiB
Автокэширование ( документация ): Нет
Расколы :
Расколоть | Примеры |
---|---|
'test' | 30 670 |
'train' | 552 031 |
'validation' | 30 739 |
- Примеры ( tfds.as_dataframe ):
wiki40b/nl
Описание конфигурации : набор данных Wiki40B для nl.
Размер набора данных :
961.82 MiB
Автокэширование ( документация ): Нет
Расколы :
Расколоть | Примеры |
---|---|
'test' | 24 776 |
'train' | 447 555 |
'validation' | 25 201 |
- Примеры ( tfds.as_dataframe ):
wiki40b/фр.
Описание конфигурации : Набор данных Wiki40B для фр.
Размер набора данных :
3.37 GiB
Автокэширование ( документация ): Нет
Расколы :
Расколоть | Примеры |
---|---|
'test' | 68 004 |
'train' | 1 227 206 |
'validation' | 68 655 |
- Примеры ( tfds.as_dataframe ):
wiki40b/де
Описание конфигурации : Набор данных Wiki40B для de.
Размер набора данных :
4.78 GiB
Автокэширование ( документация ): Нет
Расколы :
Расколоть | Примеры |
---|---|
'test' | 86 594 |
'train' | 1 554 910 |
'validation' | 86 068 |
- Примеры ( tfds.as_dataframe ):
вики40б/это
Описание конфигурации : набор данных Wiki40B для него.
Размер набора данных :
2.00 GiB
Автокэширование ( документация ): Нет
Расколы :
Расколоть | Примеры |
---|---|
'test' | 40 443 |
'train' | 732 609 |
'validation' | 40 684 |
- Примеры ( tfds.as_dataframe ):
wiki40b/ja
Описание конфигурации : Набор данных Wiki40B для ja.
Размер набора данных :
2.19 GiB
Автокэширование ( документация ): Нет
Расколы :
Расколоть | Примеры |
---|---|
'test' | 41 268 |
'train' | 745 392 |
'validation' | 41 576 |
- Примеры ( tfds.as_dataframe ):
wiki40b/ко
Описание конфигурации : набор данных Wiki40B для ko.
Размер набора данных :
453.98 MiB
Автокэширование ( документация ): Нет
Расколы :
Расколоть | Примеры |
---|---|
'test' | 10 802 |
'train' | 194 977 |
'validation' | 10 805 |
- Примеры ( tfds.as_dataframe ):
вики40б/пл
Описание конфигурации : набор данных Wiki40B для pl.
Размер набора данных :
1.03 GiB
Автокэширование ( документация ): Нет
Расколы :
Расколоть | Примеры |
---|---|
'test' | 27 987 |
'train' | 505 191 |
'validation' | 28 310 |
- Примеры ( tfds.as_dataframe ):
вики40б/пт
Описание конфигурации : Набор данных Wiki40B для pt.
Размер набора данных :
1.08 GiB
Автокэширование ( документация ): Нет
Расколы :
Расколоть | Примеры |
---|---|
'test' | 22 693 |
'train' | 406 507 |
'validation' | 22 301 |
- Примеры ( tfds.as_dataframe ):
вики40б/ру
Описание конфига : Набор данных Wiki40B для ру.
Размер набора данных :
4.13 GiB
Автокэширование ( документация ): Нет
Расколы :
Расколоть | Примеры |
---|---|
'test' | 51 885 |
'train' | 926 037 |
'validation' | 51 287 |
- Примеры ( tfds.as_dataframe ):
wiki40b/es
Описание конфигурации : набор данных Wiki40B для es.
Размер набора данных :
2.70 GiB
Автокэширование ( документация ): Нет
Расколы :
Расколоть | Примеры |
---|---|
'test' | 48 764 |
'train' | 872 541 |
'validation' | 48 592 |
- Примеры ( tfds.as_dataframe ):
wiki40b/th
Описание конфигурации : набор данных Wiki40B для th.
Размер набора данных :
326.29 MiB
Автокэширование ( документация ): Нет
Расколы :
Расколоть | Примеры |
---|---|
'test' | 3114 |
'train' | 56 798 |
'validation' | 3093 |
- Примеры ( tfds.as_dataframe ):
вики40б/тр
Описание конфигурации : Набор данных Wiki40B для tr.
Размер набора данных :
308.87 MiB
Автокэширование ( документация ): Нет
Расколы :
Расколоть | Примеры |
---|---|
'test' | 7890 |
'train' | 142 576 |
'validation' | 7845 |
- Примеры ( tfds.as_dataframe ):
вики40b/bg
Описание конфигурации : набор данных Wiki40B для bg.
Размер набора данных :
433.20 MiB
Автокэширование ( документация ): Нет
Расколы :
Расколоть | Примеры |
---|---|
'test' | 7,289 |
'train' | 130 670 |
'validation' | 7,259 |
- Примеры ( tfds.as_dataframe ):
wiki40b/ca
Описание конфигурации : Набор данных Wiki40B для ок.
Размер набора данных :
753.00 MiB
Автокэширование ( документация ): Нет
Расколы :
Расколоть | Примеры |
---|---|
'test' | 15 568 |
'train' | 277 313 |
'validation' | 15 362 |
- Примеры ( tfds.as_dataframe ):
вики40b/cs
Описание конфигурации : набор данных Wiki40B для cs.
Размер набора данных :
631.84 MiB
Автокэширование ( документация ): Нет
Расколы :
Расколоть | Примеры |
---|---|
'test' | 12 984 |
'train' | 235 971 |
'validation' | 13 096 |
- Примеры ( tfds.as_dataframe ):
вики40б/да
Описание конфигурации : Набор данных Wiki40B для da.
Размер набора данных :
240.51 MiB
Автоматическое кэширование ( документация ): Да (тест, проверка), только если
shuffle_files=False
(поезд)Расколы :
Расколоть | Примеры |
---|---|
'test' | 6,219 |
'train' | 109 486 |
'validation' | 6,173 |
- Примеры ( tfds.as_dataframe ):
wiki40b/эл.
Описание конфигурации : Набор данных Wiki40B для эл.
Размер набора данных :
524.77 MiB
Автокэширование ( документация ): Нет
Расколы :
Расколоть | Примеры |
---|---|
'test' | 5,261 |
'train' | 93 596 |
'validation' | 5130 |
- Примеры ( tfds.as_dataframe ):
wiki40b/et
Описание конфигурации : Набор данных Wiki40B для et.
Размер набора данных :
184.07 MiB
Автоматическое кэширование ( документация ): Да (тест, проверка), только если
shuffle_files=False
(поезд)Расколы :
Расколоть | Примеры |
---|---|
'test' | 6,205 |
'train' | 114 464 |
'validation' | 6,351 |
- Примеры ( tfds.as_dataframe ):
вики40б/фа
Описание конфигурации : Набор данных Wiki40B для fa.
Размер набора данных :
482.55 MiB
Автокэширование ( документация ): Нет
Расколы :
Расколоть | Примеры |
---|---|
'test' | 11 262 |
'train' | 203 145 |
'validation' | 11 180 |
- Примеры ( tfds.as_dataframe ):
вики40б/фи
Описание конфигурации : Набор данных Wiki40B для fi.
Размер набора данных :
534.13 MiB
Автокэширование ( документация ): Нет
Расколы :
Расколоть | Примеры |
---|---|
'test' | 14 179 |
'train' | 255 822 |
'validation' | 13 962 |
- Примеры ( tfds.as_dataframe ):
вики40б/он
Описание конфигурации : набор данных Wiki40B для he.
Размер набора данных :
869.51 MiB
Автокэширование ( документация ): Нет
Расколы :
Расколоть | Примеры |
---|---|
'test' | 9,344 |
'train' | 165 359 |
'validation' | 9,231 |
- Примеры ( tfds.as_dataframe ):
wiki40b/привет
Описание конфигурации : набор данных Wiki40B для hi.
Размер набора данных :
277.56 MiB
Автокэширование ( документация ): Нет
Расколы :
Расколоть | Примеры |
---|---|
'test' | 2643 |
'train' | 45 737 |
'validation' | 2596 |
- Примеры ( tfds.as_dataframe ):
вики40б/ч
Описание конфигурации : набор данных Wiki40B для часов.
Размер набора данных :
235.58 MiB
Автоматическое кэширование ( документация ): Да (тест, проверка), только если
shuffle_files=False
(поезд)Расколы :
Расколоть | Примеры |
---|---|
'test' | 5,724 |
'train' | 103 857 |
'validation' | 5,792 |
- Примеры ( tfds.as_dataframe ):
вики40б/ч
Описание конфигурации : Набор данных Wiki40B для hu.
Размер набора данных :
634.25 MiB
Автокэширование ( документация ): Нет
Расколы :
Расколоть | Примеры |
---|---|
'test' | 15 258 |
'train' | 273 248 |
'validation' | 15 208 |
- Примеры ( tfds.as_dataframe ):
вики40b/идентификатор
Описание конфигурации : набор данных Wiki40B для идентификатора.
Размер набора данных :
334.06 MiB
Автокэширование ( документация ): Нет
Расколы :
Расколоть | Примеры |
---|---|
'test' | 8,598 |
'train' | 156 255 |
'validation' | 8,714 |
- Примеры ( tfds.as_dataframe ):
вики40б/лт
Описание конфигурации : Набор данных Wiki40B для lt.
Размер набора данных :
140.46 MiB
Автокэширование ( документация ): Да
Расколы :
Расколоть | Примеры |
---|---|
'test' | 4683 |
'train' | 84 854 |
'validation' | 4754 |
- Примеры ( tfds.as_dataframe ):
вики40б/лв
Описание конфигурации : Набор данных Wiki40B для lv.
Размер набора данных :
80.07 MiB
Автокэширование ( документация ): Да
Расколы :
Расколоть | Примеры |
---|---|
'test' | 1932 |
'train' | 33 064 |
'validation' | 1857 |
- Примеры ( tfds.as_dataframe ):
вики40б/мс
Описание конфигурации : набор данных Wiki40B для ms.
Размер набора данных :
142.49 MiB
Автоматическое кэширование ( документация ): Да (тест, проверка), только если
shuffle_files=False
(поезд)Расколы :
Расколоть | Примеры |
---|---|
'test' | 5,235 |
'train' | 97 509 |
'validation' | 5,357 |
- Примеры ( tfds.as_dataframe ):
вики40б/нет
Описание конфигурации : Набор данных Wiki40B для нет.
Размер набора данных :
382.03 MiB
Автокэширование ( документация ): Нет
Расколы :
Расколоть | Примеры |
---|---|
'test' | 10 588 |
'train' | 190 588 |
'validation' | 10 547 |
- Примеры ( tfds.as_dataframe ):
вики40б/ро
Описание конфигурации : Набор данных Wiki40B для ro.
Размер набора данных :
319.68 MiB
Автокэширование ( документация ): Нет
Расколы :
Расколоть | Примеры |
---|---|
'test' | 7870 |
'train' | 139 615 |
'validation' | 7,624 |
- Примеры ( tfds.as_dataframe ):
вики40б/ск
Описание конфигурации : набор данных Wiki40B для sk.
Размер набора данных :
170.20 MiB
Автоматическое кэширование ( документация ): Да (тест, проверка), только если
shuffle_files=False
(поезд)Расколы :
Расколоть | Примеры |
---|---|
'test' | 5,741 |
'train' | 103 095 |
'validation' | 5604 |
- Примеры ( tfds.as_dataframe ):
вики40б/сл
Описание конфигурации : Набор данных Wiki40B для sl.
Размер набора данных :
157.38 MiB
Автоматическое кэширование ( документация ): Да (тест, проверка), только если
shuffle_files=False
(поезд)Расколы :
Расколоть | Примеры |
---|---|
'test' | 3,341 |
'train' | 60 927 |
'validation' | 3287 |
- Примеры ( tfds.as_dataframe ):
вики40б/ср
Описание конфигурации : Набор данных Wiki40B для sr.
Размер набора данных :
582.20 MiB
Автокэширование ( документация ): Нет
Расколы :
Расколоть | Примеры |
---|---|
'test' | 17 997 |
'train' | 327 313 |
'validation' | 18 100 |
- Примеры ( tfds.as_dataframe ):
вики40б/св
Описание конфигурации : Набор данных Wiki40B для sv.
Размер набора данных :
613.62 MiB
Автокэширование ( документация ): Нет
Расколы :
Расколоть | Примеры |
---|---|
'test' | 22 291 |
'train' | 400 742 |
'validation' | 22 263 |
- Примеры ( tfds.as_dataframe ):
вики40б/тл
Описание конфигурации : набор данных Wiki40B для tl.
Размер набора данных :
29.04 MiB
Автокэширование ( документация ): Да
Расколы :
Расколоть | Примеры |
---|---|
'test' | 1446 |
'train' | 25 940 |
'validation' | 1472 |
- Примеры ( tfds.as_dataframe ):
wiki40b/Великобритания
Описание конфигурации : набор данных Wiki40B для Великобритании.
Размер набора данных :
1.67 GiB
Автокэширование ( документация ): Нет
Расколы :
Расколоть | Примеры |
---|---|
'test' | 26 581 |
'train' | 477 618 |
'validation' | 26 324 |
- Примеры ( tfds.as_dataframe ):
вики40b/vi
Описание конфигурации : набор данных Wiki40B для vi.
Размер набора данных :
497.70 MiB
Автокэширование ( документация ): Нет
Расколы :
Расколоть | Примеры |
---|---|
'test' | 7942 |
'train' | 146 255 |
'validation' | 8,195 |
- Примеры ( tfds.as_dataframe ):