- opis :
Ten zestaw danych zawiera rzadki wykres przedstawiający strukturę łączy internetowych dla małego podzbioru sieci Web.
Jest to przetworzona wersja pojedynczego indeksowania przeprowadzonego przez CommonCrawl w 2021 r., w którym usuwamy wszystko i zachowujemy tylko strukturę link->outlinks. Ostateczny zestaw danych to zasadniczo format int -> List[int] z każdym identyfikatorem liczby całkowitej reprezentującym adres URL.
Ponadto, aby zwiększyć wartość tego zasobu, stworzyliśmy 6 różnych wersji WebGraph, z których każda różni się wzorcem rzadkości i ustawieniami regionalnymi. Podjęliśmy następujące kroki przetwarzania w kolejności:
- Zaczęliśmy od plików WAT z indeksowania czerwca 2021.
- Ponieważ łącza wychodzące w HTTP-Response-Metadata są przechowywane jako ścieżki względne, konwertujemy je na ścieżki bezwzględne za pomocą urllib po sprawdzeniu poprawności każdego łącza.
- Aby zbadać wykresy specyficzne dla ustawień regionalnych, dalej filtrujemy na podstawie 2 domen najwyższego poziomu: „de” i „in”, z których każda tworzy wykres o rząd wielkości mniejszej liczby węzłów.
- Te wykresy mogą nadal zawierać dowolne wzorce rzadkości i wiszące połączenia. W ten sposób dalej filtrujemy węzły na każdym grafie, aby mieć minimum K ∈ [10, 50] łączy przychodzących i wychodzących. Zauważ, że wykonujemy to przetwarzanie tylko raz, więc nadal jest to przybliżenie, tj. wynikowy graf może mieć węzły z mniej niż K linkami.
- Używając zarówno ustawień regionalnych, jak i filtrów liczby, finalizujemy 6 wersji zestawu danych WebGraph, podsumowanych w poniższej tabeli.
Wersja | Domena najwyższego poziomu | Minimalna liczba | Liczba węzłów | Liczba krawędzi |
---|---|---|---|---|
rzadki | 10 | 365,4 mln | 30B | |
gęsty | 50 | 136,5 mln | 22B | |
rzadkie | de | 10 | 19,7 mln | 1.19B |
odgęścić | de | 50 | 5,7 mln | 0,82B |
rzadkie | w | 10 | 1,5 mln | 0,14B |
gęsty | w | 50 | 0,5 miliona | 0,12B |
Wszystkie wersje zestawu danych mają następujące funkcje:
- „row_tag”: unikalny identyfikator wiersza (łącze źródłowe).
- „col_tag”: lista unikalnych identyfikatorów niezerowych kolumn (docelowe łącza wychodzące).
„gt_tag”: lista unikalnych identyfikatorów niezerowych kolumn używanych jako podstawowa prawda (dest outlinks), pusta dla podziałów train/train_t.
Strona główna : https://arxiv.org/abs/2112.02194
Kod źródłowy :
tfds.structured.web_graph.WebGraph
Wersje :
-
1.0.0
(domyślnie): Wersja początkowa.
-
Rozmiar pliku do pobrania :
Unknown size
Automatyczne buforowanie ( dokumentacja ): Nie
Struktura funkcji :
FeaturesDict({
'col_tag': Sequence(int64),
'gt_tag': Sequence(int64),
'row_tag': int64,
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
znacznik_kolumny | Sekwencja (Tensor) | (Nic,) | int64 | |
gt_tag | Sekwencja (Tensor) | (Nic,) | int64 | |
tag_wiersza | Napinacz | int64 |
Klucze nadzorowane (Zobacz dokument
as_supervised
):None
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Cytat :
@article{mehta2021alx,
title={ALX: Large Scale Matrix Factorization on TPUs},
author={Harsh Mehta and Steffen Rendle and Walid Krichene and Li Zhang},
year={2021},
eprint={2112.02194},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
web_graph/sparse (domyślna konfiguracja)
Opis konfiguracji: WebGraph-sparse zawiera około 30B krawędzi i około 365M węzłów.
Rozmiar zestawu danych :
273.38 GiB
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 39 871 321 |
'train' | 372 049 054 |
'train_t' | 410 867 007 |
- Przykłady ( tfds.as_dataframe ):
web_graph/gęsty
Opis konfiguracji: WebGraph-dense zawiera około 22B krawędzi i około 136,5 mln węzłów.
Rozmiar zestawu danych :
170.87 GiB
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 13 256 496 |
'train' | 122 815 749 |
'train_t' | 136 019 364 |
- Przykłady ( tfds.as_dataframe ):
web_graph/de-sparse
Opis konfiguracji: WebGraph-de-sparse zawiera około 1,19 miliarda krawędzi i około 19,7 miliona węzłów.
Rozmiar zestawu danych :
10.25 GiB
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 1 903 443 |
'train' | 17 688 633 |
'train_t' | 19 566 045 |
- Przykłady ( tfds.as_dataframe ):
web_graph/de-dense
Opis konfiguracji: WebGraph-de-dense zawiera około 0,82B krawędzi i około 5,7M węzłów.
Rozmiar zestawu danych :
5.90 GiB
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 553270 |
'train' | 5118902 |
'train_t' | 5 672 473 |
- Przykłady ( tfds.as_dataframe ):
web_graph/in-sparse
Opis konfiguracji: WebGraph-de-sparse zawiera około 0,14 B krawędzi i około 1,5 mln węzłów.
Rozmiar zbioru danych :
960.57 MiB
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 140313 |
'train' | 1 309 063 |
'train_t' | 1 445 042 |
- Przykłady ( tfds.as_dataframe ):
web_graph/in-dense
Opis konfiguracji: WebGraph-de-dense zawiera około 0,12B krawędzi i około 0,5M węzłów.
Rozmiar zbioru danych :
711.72 MiB
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 47 894 |
'train' | 443 786 |
'train_t' | 491634 |
- Przykłady ( tfds.as_dataframe ):