- Описание :
Этот набор данных содержит разреженный график, представляющий структуру веб-ссылок для небольшого подмножества Интернета.
Это обработанная версия одиночного сканирования, выполненного CommonCrawl в 2021 году, когда мы удаляем все и сохраняем только структуру ссылок-> исходящих ссылок. Окончательный набор данных в основном имеет формат int -> List[int], где каждый целочисленный идентификатор представляет собой URL-адрес.
Кроме того, чтобы увеличить ценность этого ресурса, мы создали 6 разных версий WebGraph, каждая из которых отличается шаблоном разреженности и локалью. Мы предприняли следующие шаги обработки по порядку:
- Мы начали с файлов WAT из сканирования в июне 2021 года.
- Поскольку исходящие ссылки в HTTP-Response-Metadata хранятся как относительные пути, мы преобразуем их в абсолютные пути с помощью urllib после проверки каждой ссылки.
- Чтобы изучить графы, зависящие от локали, мы дополнительно фильтруем на основе двух доменов верхнего уровня: «de» и «in», каждый из которых создает граф с числом узлов на порядок меньше.
- Эти графы по-прежнему могут иметь произвольные шаблоны разреженности и оборванные ссылки. Таким образом, мы дополнительно фильтруем узлы в каждом графе, чтобы иметь минимум K ∈ [10, 50] входящих и исходящих ссылок. Обратите внимание, что мы выполняем эту обработку только один раз, поэтому это все еще приближение, т. е. результирующий граф может иметь узлы с менее чем K ссылками.
- Используя фильтры локали и счетчика, мы дорабатываем 6 версий набора данных WebGraph, обобщенные в следующей таблице.
Версия | Домен верхнего уровня | Минимальное количество | Количество узлов | Количество ребер |
---|---|---|---|---|
редкий | 10 | 365,4 млн | 30Б | |
плотный | 50 | 136,5 млн | 22Б | |
де-разреженный | де | 10 | 19,7 млн | 1,19Б |
де-плотный | де | 50 | 5,7 млн | 0,82 Б |
редкий | в | 10 | 1,5 млн | 0,14 Б |
плотный | в | 50 | 0,5М | 0,12 Б |
Все версии набора данных имеют следующие особенности:
- "row_tag": уникальный идентификатор строки (ссылка на источник).
- "col_tag": список уникальных идентификаторов ненулевых столбцов (целевых исходящих ссылок).
«gt_tag»: список уникальных идентификаторов ненулевых столбцов, используемых в качестве исходной истины (целевые исходящие ссылки), пустой для разделения train/train_t.
Домашняя страница : https://arxiv.org/abs/2112.02194
Исходный код :
tfds.structured.web_graph.WebGraph
Версии :
-
1.0.0
(по умолчанию): Первоначальный выпуск.
-
Размер загрузки :
Unknown size
Автоматическое кэширование ( документация ): Нет
Структура функции :
FeaturesDict({
'col_tag': Sequence(int64),
'gt_tag': Sequence(int64),
'row_tag': int64,
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
col_tag | Последовательность (тензор) | (Никто,) | int64 | |
gt_tag | Последовательность (тензор) | (Никто,) | int64 | |
row_tag | Тензор | int64 |
Ключи под наблюдением (см . документ
as_supervised
):None
Рисунок ( tfds.show_examples ): не поддерживается.
Цитата :
@article{mehta2021alx,
title={ALX: Large Scale Matrix Factorization on TPUs},
author={Harsh Mehta and Steffen Rendle and Walid Krichene and Li Zhang},
year={2021},
eprint={2112.02194},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
web_graph/sparse (конфигурация по умолчанию)
Описание конфигурации : WebGraph-sparse содержит около 30 миллиардов ребер и около 365 миллионов узлов.
Размер набора данных :
273.38 GiB
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 39 871 321 |
'train' | 372 049 054 |
'train_t' | 410 867 007 |
- Примеры ( tfds.as_dataframe ):
web_graph/плотный
Описание конфигурации : WebGraph-dense содержит около 22 млрд ребер и около 136,5 млн узлов.
Размер набора данных :
170.87 GiB
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 13 256 496 |
'train' | 122 815 749 |
'train_t' | 136 019 364 |
- Примеры ( tfds.as_dataframe ):
web_graph/де-разреженный
Описание конфигурации : WebGraph-de-sparse содержит около 1,19 млрд ребер и около 19,7 млн узлов.
Размер набора данных :
10.25 GiB
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 1 903 443 |
'train' | 17 688 633 |
'train_t' | 19 566 045 |
- Примеры ( tfds.as_dataframe ):
web_graph/де-плотный
Описание конфигурации : WebGraph-de-dense содержит около 0,82 млрд ребер и около 5,7 млн узлов.
Размер набора данных :
5.90 GiB
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 553 270 |
'train' | 5 118 902 |
'train_t' | 5 672 473 |
- Примеры ( tfds.as_dataframe ):
web_graph/в разреженном
Описание конфигурации : WebGraph-de-sparse содержит около 0,14 млрд ребер и около 1,5 млн узлов.
Размер набора данных :
960.57 MiB
.Сплиты :
Расколоть | Примеры |
---|---|
'test' | 140 313 |
'train' | 1 309 063 |
'train_t' | 1 445 042 |
- Примеры ( tfds.as_dataframe ):
web_graph/в плотном
Описание конфигурации : WebGraph-de-dense содержит около 0,12 млрд ребер и около 0,5 млн узлов.
Размер набора данных :
711.72 MiB
.Сплиты :
Расколоть | Примеры |
---|---|
'test' | 47 894 |
'train' | 443 786 |
'train_t' | 491 634 |
- Примеры ( tfds.as_dataframe ):