- Opis :
Zbiór danych LAION-400M jest całkowicie otwarty i swobodnie dostępny.
Pełny opis tego zbioru danych znajdziesz na https://laion.ai/laion-400-open-dataset/ .
Wszystkie obrazy i teksty w zbiorze danych LAION-400M zostały przefiltrowane za pomocą CLIP OpenAI poprzez obliczenie podobieństwa cosinus między tekstem i osadzonymi obrazami i usunięcie tych z podobieństwem poniżej 0,3. Próg 0,3 został określony na podstawie ocen przeprowadzanych przez ludzi i wydawał się być dobrą heurystyką do szacowania semantycznego dopasowania obrazu, tekstu i treści.
Pary obraz-tekst zostały wyodrębnione ze zrzutu danych sieciowych Common Crawl i pochodzą z losowych stron internetowych przeszukanych w latach 2014–2021.
Dodatkowa dokumentacja : Eksploruj w dokumentach z kodem
Strona główna : https://laion.ai/blog/laion-400-open-dataset/
Kod źródłowy :
tfds.vision_language.laion400m.Laion400m
Wersje :
-
1.0.0
(domyślnie): Wersja pierwsza.
-
Rozmiar pobierania :
Unknown size
Rozmiar zbioru danych :
Unknown size
Instrukcje ręcznego pobierania : ten zestaw danych wymaga ręcznego pobrania danych źródłowych do
download_config.manual_dir
(domyślnie jest to~/tensorflow_datasets/downloads/manual/
):
Zapoznaj się z sekcją „Informacje o pobieraniu” na stronie https://laion.ai/blog/laion-400-open-dataset/Automatyczne buforowanie ( dokumentacja ): Nieznane
Podziały :
Podział | Przykłady |
---|
Klucze nadzorowane (zobacz dokument
as_supervised
):None
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Przykłady ( tfds.as_dataframe ): Brak.
Cytat :
@article{DBLP:journals/corr/abs-2111-02114,
author = {Christoph Schuhmann and
Richard Vencu and
Romain Beaumont and
Robert Kaczmarczyk and
Clayton Mullis and
Aarush Katta and
Theo Coombes and
Jenia Jitsev and
Aran Komatsuzaki},
title = { {LAION-400M:} Open Dataset of CLIP-Filtered 400 Million Image-Text
Pairs},
journal = {CoRR},
volume = {abs/2111.02114},
year = {2021},
url = {https://arxiv.org/abs/2111.02114},
eprinttype = {arXiv},
eprint = {2111.02114},
timestamp = {Fri, 05 Nov 2021 15:25:54 +0100},
biburl = {https://dblp.org/rec/journals/corr/abs-2111-02114.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
laion400m/images (konfiguracja domyślna)
- Struktura funkcji :
FeaturesDict({
'caption': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8, description=image),
'license': Text(shape=(), dtype=string),
'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
'url': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis | Zakres wartości |
---|---|---|---|---|---|
FunkcjeDykt | |||||
podpis | Tekst | smyczkowy | Atrybut tekstu alternatywnego HTML | ||
obraz | Obraz | (Brak, Brak, 3) | uint8 | obraz | |
licencja | Tekst | smyczkowy | rodzaj licencji Creative Commons (jeśli dotyczy) | ||
nsfw | Etykieta klasy | int64 | Znacznik NSFW (wykrywany za pomocą CLIP). Niespójne i brakujące tagi są zastępowane przez UNTAGGED | ||
wysokość_oryginalna | Skalarny | int32 | pierwotna wysokość obrazu | ||
oryginalna_szerokość | Skalarny | int32 | pierwotna szerokość obrazu | ||
podobieństwo | Skalarny | pływak64 | cosinusowy wynik podobieństwa pomiędzy osadzeniem tekstu i obrazu. Brakujące wartości mają domyślnie wartość -1,0 | [0,0, 1,0] | |
adres URL | Tekst | smyczkowy | adres URL obrazu |
laion400m/osadzenia
- Struktura funkcji :
FeaturesDict({
'caption': Text(shape=(), dtype=string),
'image_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP image embedding),
'license': Text(shape=(), dtype=string),
'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
'text_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP text embedding),
'url': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis | Zakres wartości |
---|---|---|---|---|---|
FunkcjeDykt | |||||
podpis | Tekst | smyczkowy | Atrybut tekstu alternatywnego HTML | ||
osadzanie_obrazu | Napinacz | (512,) | pływak16 | Osadzanie obrazu CLIP | |
licencja | Tekst | smyczkowy | rodzaj licencji Creative Commons (jeśli dotyczy) | ||
nsfw | Etykieta klasy | int64 | Znacznik NSFW (wykrywany za pomocą CLIP). Niespójne i brakujące tagi są zastępowane przez UNTAGGED | ||
wysokość_oryginalna | Skalarny | int32 | pierwotna wysokość obrazu | ||
oryginalna_szerokość | Skalarny | int32 | pierwotna szerokość obrazu | ||
podobieństwo | Skalarny | pływak64 | cosinusowy wynik podobieństwa między osadzeniem tekstu i obrazu. Brakujące wartości domyślnie wynoszą -1,0 | [0,0, 1,0] | |
osadzanie tekstu | Napinacz | (512,) | pływak16 | Osadzanie tekstu CLIP | |
adres URL | Tekst | smyczkowy | adres URL obrazu |