wiki40b

  • Описание :

Текст очистки для более чем 40 языковых версий страниц Википедии соответствует сущностям. Наборы данных разделены на обучение/разработку/тестирование для каждого языка. Набор данных очищается посредством фильтрации страниц для удаления страниц устранения неоднозначности, страниц перенаправления, удаленных страниц и страниц, не являющихся сущностями. Каждый пример содержит идентификатор объекта в Викиданных и полную статью Википедии после обработки страницы, при которой удаляются несодержательные разделы и структурированные объекты. Языковые модели, обученные на этом корпусе, включая 41 одноязычную модель и 2 многоязычные модели, можно найти по адресу https://tfhub.dev/google/collections/wiki40b-lm/1 .

FeaturesDict({
    'text': Text(shape=(), dtype=string),
    'version_id': Text(shape=(), dtype=string),
    'wikidata_id': Text(shape=(), dtype=string),
})
  • Функциональная документация :
Особенность Сорт Форма Дтип Описание
ВозможностиDict
текст Текст нить
идентификатор_версии Текст нить
wikidata_id Текст нить
@inproceedings{49029,
title = {Wiki-40B: Multilingual Language Model Dataset},
author = {Mandy Guo and Zihang Dai and Denny Vrandecic and Rami Al-Rfou},
year = {2020},
booktitle   = {LREC 2020}
}

wiki40b/en (конфигурация по умолчанию)

  • Описание конфигурации : Набор данных Wiki40B для en.

  • Размер набора данных : 9.91 GiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'test' 162 274
'train' 2 926 536
'validation' 163 597

вики40б/ар

  • Описание конфигурации : Набор данных Wiki40B для ar.

  • Размер набора данных : 833.20 MiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'test' 12 271
'train' 220 885
'validation' 12 198

wiki40b/zh-cn

  • Описание конфигурации : набор данных Wiki40B для zh-cn.

  • Размер набора данных : 985.53 MiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'test' 30 355
'train' 549 672
'validation' 30 299

wiki40b/zh-tw

  • Описание конфигурации : Набор данных Wiki40B для zh-tw.

  • Размер набора данных : 986.45 MiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'test' 30 670
'train' 552 031
'validation' 30 739

wiki40b/nl

  • Описание конфигурации : набор данных Wiki40B для nl.

  • Размер набора данных : 961.82 MiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'test' 24 776
'train' 447 555
'validation' 25 201

wiki40b/фр.

  • Описание конфигурации : Набор данных Wiki40B для фр.

  • Размер набора данных : 3.37 GiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'test' 68 004
'train' 1 227 206
'validation' 68 655

wiki40b/де

  • Описание конфигурации : Набор данных Wiki40B для de.

  • Размер набора данных : 4.78 GiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'test' 86 594
'train' 1 554 910
'validation' 86 068

вики40б/это

  • Описание конфигурации : набор данных Wiki40B для него.

  • Размер набора данных : 2.00 GiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'test' 40 443
'train' 732 609
'validation' 40 684

wiki40b/ja

  • Описание конфигурации : Набор данных Wiki40B для ja.

  • Размер набора данных : 2.19 GiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'test' 41 268
'train' 745 392
'validation' 41 576

wiki40b/ко

  • Описание конфигурации : набор данных Wiki40B для ko.

  • Размер набора данных : 453.98 MiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'test' 10 802
'train' 194 977
'validation' 10 805

вики40б/пл

  • Описание конфигурации : набор данных Wiki40B для pl.

  • Размер набора данных : 1.03 GiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'test' 27 987
'train' 505 191
'validation' 28 310

вики40б/пт

  • Описание конфигурации : Набор данных Wiki40B для pt.

  • Размер набора данных : 1.08 GiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'test' 22 693
'train' 406 507
'validation' 22 301

вики40б/ру

  • Описание конфига : Набор данных Wiki40B для ру.

  • Размер набора данных : 4.13 GiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'test' 51 885
'train' 926 037
'validation' 51 287

wiki40b/es

  • Описание конфигурации : набор данных Wiki40B для es.

  • Размер набора данных : 2.70 GiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'test' 48 764
'train' 872 541
'validation' 48 592

wiki40b/th

  • Описание конфигурации : набор данных Wiki40B для th.

  • Размер набора данных : 326.29 MiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'test' 3114
'train' 56 798
'validation' 3093

вики40б/тр

  • Описание конфигурации : Набор данных Wiki40B для tr.

  • Размер набора данных : 308.87 MiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'test' 7890
'train' 142 576
'validation' 7845

вики40b/bg

  • Описание конфигурации : набор данных Wiki40B для bg.

  • Размер набора данных : 433.20 MiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'test' 7,289
'train' 130 670
'validation' 7,259

wiki40b/ca

  • Описание конфигурации : Набор данных Wiki40B для ок.

  • Размер набора данных : 753.00 MiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'test' 15 568
'train' 277 313
'validation' 15 362

вики40b/cs

  • Описание конфигурации : набор данных Wiki40B для cs.

  • Размер набора данных : 631.84 MiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'test' 12 984
'train' 235 971
'validation' 13 096

вики40б/да

  • Описание конфигурации : Набор данных Wiki40B для da.

  • Размер набора данных : 240.51 MiB

  • Автоматическое кэширование ( документация ): Да (тест, проверка), только если shuffle_files=False (поезд)

  • Расколы :

Расколоть Примеры
'test' 6,219
'train' 109 486
'validation' 6,173

wiki40b/эл.

  • Описание конфигурации : Набор данных Wiki40B для эл.

  • Размер набора данных : 524.77 MiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'test' 5,261
'train' 93 596
'validation' 5130

wiki40b/et

  • Описание конфигурации : Набор данных Wiki40B для et.

  • Размер набора данных : 184.07 MiB

  • Автоматическое кэширование ( документация ): Да (тест, проверка), только если shuffle_files=False (поезд)

  • Расколы :

Расколоть Примеры
'test' 6,205
'train' 114 464
'validation' 6,351

вики40б/фа

  • Описание конфигурации : Набор данных Wiki40B для fa.

  • Размер набора данных : 482.55 MiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'test' 11 262
'train' 203 145
'validation' 11 180

вики40б/фи

  • Описание конфигурации : Набор данных Wiki40B для fi.

  • Размер набора данных : 534.13 MiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'test' 14 179
'train' 255 822
'validation' 13 962

вики40б/он

  • Описание конфигурации : набор данных Wiki40B для he.

  • Размер набора данных : 869.51 MiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'test' 9,344
'train' 165 359
'validation' 9,231

wiki40b/привет

  • Описание конфигурации : набор данных Wiki40B для hi.

  • Размер набора данных : 277.56 MiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'test' 2643
'train' 45 737
'validation' 2596

вики40б/ч

  • Описание конфигурации : набор данных Wiki40B для часов.

  • Размер набора данных : 235.58 MiB

  • Автоматическое кэширование ( документация ): Да (тест, проверка), только если shuffle_files=False (поезд)

  • Расколы :

Расколоть Примеры
'test' 5,724
'train' 103 857
'validation' 5,792

вики40б/ч

  • Описание конфигурации : Набор данных Wiki40B для hu.

  • Размер набора данных : 634.25 MiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'test' 15 258
'train' 273 248
'validation' 15 208

вики40b/идентификатор

  • Описание конфигурации : набор данных Wiki40B для идентификатора.

  • Размер набора данных : 334.06 MiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'test' 8,598
'train' 156 255
'validation' 8,714

вики40б/лт

  • Описание конфигурации : Набор данных Wiki40B для lt.

  • Размер набора данных : 140.46 MiB

  • Автокэширование ( документация ): Да

  • Расколы :

Расколоть Примеры
'test' 4683
'train' 84 854
'validation' 4754

вики40б/лв

  • Описание конфигурации : Набор данных Wiki40B для lv.

  • Размер набора данных : 80.07 MiB

  • Автокэширование ( документация ): Да

  • Расколы :

Расколоть Примеры
'test' 1932
'train' 33 064
'validation' 1857

вики40б/мс

  • Описание конфигурации : набор данных Wiki40B для ms.

  • Размер набора данных : 142.49 MiB

  • Автоматическое кэширование ( документация ): Да (тест, проверка), только если shuffle_files=False (поезд)

  • Расколы :

Расколоть Примеры
'test' 5,235
'train' 97 509
'validation' 5,357

вики40б/нет

  • Описание конфигурации : Набор данных Wiki40B для нет.

  • Размер набора данных : 382.03 MiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'test' 10 588
'train' 190 588
'validation' 10 547

вики40б/ро

  • Описание конфигурации : Набор данных Wiki40B для ro.

  • Размер набора данных : 319.68 MiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'test' 7870
'train' 139 615
'validation' 7,624

вики40б/ск

  • Описание конфигурации : набор данных Wiki40B для sk.

  • Размер набора данных : 170.20 MiB

  • Автоматическое кэширование ( документация ): Да (тест, проверка), только если shuffle_files=False (поезд)

  • Расколы :

Расколоть Примеры
'test' 5,741
'train' 103 095
'validation' 5604

вики40б/сл

  • Описание конфигурации : Набор данных Wiki40B для sl.

  • Размер набора данных : 157.38 MiB

  • Автоматическое кэширование ( документация ): Да (тест, проверка), только если shuffle_files=False (поезд)

  • Расколы :

Расколоть Примеры
'test' 3,341
'train' 60 927
'validation' 3287

вики40б/ср

  • Описание конфигурации : Набор данных Wiki40B для sr.

  • Размер набора данных : 582.20 MiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'test' 17 997
'train' 327 313
'validation' 18 100

вики40б/св

  • Описание конфигурации : Набор данных Wiki40B для sv.

  • Размер набора данных : 613.62 MiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'test' 22 291
'train' 400 742
'validation' 22 263

вики40б/тл

  • Описание конфигурации : набор данных Wiki40B для tl.

  • Размер набора данных : 29.04 MiB

  • Автокэширование ( документация ): Да

  • Расколы :

Расколоть Примеры
'test' 1446
'train' 25 940
'validation' 1472

wiki40b/Великобритания

  • Описание конфигурации : набор данных Wiki40B для Великобритании.

  • Размер набора данных : 1.67 GiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'test' 26 581
'train' 477 618
'validation' 26 324

вики40b/vi

  • Описание конфигурации : набор данных Wiki40B для vi.

  • Размер набора данных : 497.70 MiB

  • Автокэширование ( документация ): Нет

  • Расколы :

Расколоть Примеры
'test' 7942
'train' 146 255
'validation' 8,195