laion400m

  • Opis :

Zbiór danych LAION-400M jest całkowicie otwarty i swobodnie dostępny.

Pełny opis tego zbioru danych znajdziesz na https://laion.ai/laion-400-open-dataset/ .

Wszystkie obrazy i teksty w zbiorze danych LAION-400M zostały przefiltrowane za pomocą CLIP OpenAI poprzez obliczenie podobieństwa cosinus między tekstem i osadzonymi obrazami i usunięcie tych z podobieństwem poniżej 0,3. Próg 0,3 został określony na podstawie ocen przeprowadzanych przez ludzi i wydawał się być dobrą heurystyką do szacowania semantycznego dopasowania obrazu, tekstu i treści.

Pary obraz-tekst zostały wyodrębnione ze zrzutu danych sieciowych Common Crawl i pochodzą z losowych stron internetowych przeszukanych w latach 2014–2021.

Podział Przykłady
@article{DBLP:journals/corr/abs-2111-02114,
  author    = {Christoph Schuhmann and
               Richard Vencu and
               Romain Beaumont and
               Robert Kaczmarczyk and
               Clayton Mullis and
               Aarush Katta and
               Theo Coombes and
               Jenia Jitsev and
               Aran Komatsuzaki},
  title     = { {LAION-400M:} Open Dataset of CLIP-Filtered 400 Million Image-Text
               Pairs},
  journal   = {CoRR},
  volume    = {abs/2111.02114},
  year      = {2021},
  url       = {https://arxiv.org/abs/2111.02114},
  eprinttype = {arXiv},
  eprint    = {2111.02114},
  timestamp = {Fri, 05 Nov 2021 15:25:54 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2111-02114.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

laion400m/images (konfiguracja domyślna)

  • Struktura funkcji :
FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8, description=image),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
    'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
    'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
    'url': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis Zakres wartości
FunkcjeDykt
podpis Tekst smyczkowy Atrybut tekstu alternatywnego HTML
obraz Obraz (Brak, Brak, 3) uint8 obraz
licencja Tekst smyczkowy rodzaj licencji Creative Commons (jeśli dotyczy)
nsfw Etykieta klasy int64 Znacznik NSFW (wykrywany za pomocą CLIP). Niespójne i brakujące tagi są zastępowane przez UNTAGGED
wysokość_oryginalna Skalarny int32 pierwotna wysokość obrazu
oryginalna_szerokość Skalarny int32 pierwotna szerokość obrazu
podobieństwo Skalarny pływak64 cosinusowy wynik podobieństwa pomiędzy osadzeniem tekstu i obrazu. Brakujące wartości mają domyślnie wartość -1,0 [0,0, 1,0]
adres URL Tekst smyczkowy adres URL obrazu

laion400m/osadzenia

  • Struktura funkcji :
FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP image embedding),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
    'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
    'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
    'text_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP text embedding),
    'url': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis Zakres wartości
FunkcjeDykt
podpis Tekst smyczkowy Atrybut tekstu alternatywnego HTML
osadzanie_obrazu Napinacz (512,) pływak16 Osadzanie obrazu CLIP
licencja Tekst smyczkowy rodzaj licencji Creative Commons (jeśli dotyczy)
nsfw Etykieta klasy int64 Znacznik NSFW (wykrywany za pomocą CLIP). Niespójne i brakujące tagi są zastępowane przez UNTAGGED
wysokość_oryginalna Skalarny int32 pierwotna wysokość obrazu
oryginalna_szerokość Skalarny int32 pierwotna szerokość obrazu
podobieństwo Skalarny pływak64 cosinusowy wynik podobieństwa między osadzeniem tekstu i obrazu. Brakujące wartości domyślnie wynoszą -1,0 [0,0, 1,0]
osadzanie tekstu Napinacz (512,) pływak16 Osadzanie tekstu CLIP
adres URL Tekst smyczkowy adres URL obrazu