web_graph

  • Описание :

Этот набор данных содержит разреженный график, представляющий структуру веб-ссылок для небольшого подмножества Интернета.

Это обработанная версия одиночного сканирования, выполненного CommonCrawl в 2021 году, когда мы удаляем все и сохраняем только структуру ссылок-> исходящих ссылок. Окончательный набор данных в основном имеет формат int -> List[int], где каждый целочисленный идентификатор представляет собой URL-адрес.

Кроме того, чтобы увеличить ценность этого ресурса, мы создали 6 разных версий WebGraph, каждая из которых отличается шаблоном разреженности и локалью. Мы предприняли следующие шаги обработки по порядку:

  • Мы начали с файлов WAT из сканирования в июне 2021 года.
  • Поскольку исходящие ссылки в HTTP-Response-Metadata хранятся как относительные пути, мы преобразуем их в абсолютные пути с помощью urllib после проверки каждой ссылки.
  • Чтобы изучить графы, зависящие от локали, мы дополнительно фильтруем на основе двух доменов верхнего уровня: «de» и «in», каждый из которых создает граф с числом узлов на порядок меньше.
  • Эти графы по-прежнему могут иметь произвольные шаблоны разреженности и оборванные ссылки. Таким образом, мы дополнительно фильтруем узлы в каждом графе, чтобы иметь минимум K ∈ [10, 50] входящих и исходящих ссылок. Обратите внимание, что мы выполняем эту обработку только один раз, поэтому это все еще приближение, т. е. результирующий граф может иметь узлы с менее чем K ссылками.
  • Используя фильтры локали и счетчика, мы дорабатываем 6 версий набора данных WebGraph, обобщенные в следующей таблице.
Версия Домен верхнего уровня Минимальное количество Количество узлов Количество ребер
редкий 10 365,4 млн 30Б
плотный 50 136,5 млн 22Б
де-разреженный де 10 19,7 млн 1,19Б
де-плотный де 50 5,7 млн 0,82 Б
редкий в 10 1,5 млн 0,14 Б
плотный в 50 0,5М 0,12 Б

Все версии набора данных имеют следующие особенности:

  • "row_tag": уникальный идентификатор строки (ссылка на источник).
  • "col_tag": список уникальных идентификаторов ненулевых столбцов (целевых исходящих ссылок).
  • «gt_tag»: список уникальных идентификаторов ненулевых столбцов, используемых в качестве исходной истины (целевые исходящие ссылки), пустой для разделения train/train_t.

  • Домашняя страница : https://arxiv.org/abs/2112.02194

  • Исходный код : tfds.structured.web_graph.WebGraph

  • Версии :

    • 1.0.0 (по умолчанию): Первоначальный выпуск.
  • Размер загрузки : Unknown size

  • Автоматическое кэширование ( документация ): Нет

  • Структура функции :

FeaturesDict({
    'col_tag': Sequence(int64),
    'gt_tag': Sequence(int64),
    'row_tag': int64,
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
col_tag Последовательность (тензор) (Никто,) int64
gt_tag Последовательность (тензор) (Никто,) int64
row_tag Тензор int64
@article{mehta2021alx,
    title={ALX: Large Scale Matrix Factorization on TPUs},
    author={Harsh Mehta and Steffen Rendle and Walid Krichene and Li Zhang},
    year={2021},
    eprint={2112.02194},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

web_graph/sparse (конфигурация по умолчанию)

  • Описание конфигурации : WebGraph-sparse содержит около 30 миллиардов ребер и около 365 миллионов узлов.

  • Размер набора данных : 273.38 GiB

  • Сплиты :

Расколоть Примеры
'test' 39 871 321
'train' 372 049 054
'train_t' 410 867 007

web_graph/плотный

  • Описание конфигурации : WebGraph-dense содержит около 22 млрд ребер и около 136,5 млн узлов.

  • Размер набора данных : 170.87 GiB

  • Сплиты :

Расколоть Примеры
'test' 13 256 496
'train' 122 815 749
'train_t' 136 019 364

web_graph/де-разреженный

  • Описание конфигурации : WebGraph-de-sparse содержит около 1,19 млрд ребер и около 19,7 млн ​​узлов.

  • Размер набора данных : 10.25 GiB

  • Сплиты :

Расколоть Примеры
'test' 1 903 443
'train' 17 688 633
'train_t' 19 566 045

web_graph/де-плотный

  • Описание конфигурации : WebGraph-de-dense содержит около 0,82 млрд ребер и около 5,7 млн ​​узлов.

  • Размер набора данных : 5.90 GiB

  • Сплиты :

Расколоть Примеры
'test' 553 270
'train' 5 118 902
'train_t' 5 672 473

web_graph/в разреженном

  • Описание конфигурации : WebGraph-de-sparse содержит около 0,14 млрд ребер и около 1,5 млн узлов.

  • Размер набора данных : 960.57 MiB .

  • Сплиты :

Расколоть Примеры
'test' 140 313
'train' 1 309 063
'train_t' 1 445 042

web_graph/в плотном

  • Описание конфигурации : WebGraph-de-dense содержит около 0,12 млрд ребер и около 0,5 млн узлов.

  • Размер набора данных : 711.72 MiB .

  • Сплиты :

Расколоть Примеры
'test' 47 894
'train' 443 786
'train_t' 491 634