- Описание :
Набор данных LAION-400M находится в полностью открытом и свободном доступе.
Проверьте https://laion.ai/laion-400-open-dataset/ для полного описания этого набора данных.
Все изображения и тексты в наборе данных LAION-400M были отфильтрованы с помощью CLIP OpenAI путем расчета косинусного сходства между внедренными текстом и изображением и удаления тех, у которых сходство ниже 0,3. Порог 0,3 был определен посредством человеческих оценок и оказался хорошей эвристикой для оценки семантического соответствия изображения-текста.
Пары изображение-текст были извлечены из дампа веб-данных Common Crawl и взяты из случайных веб-страниц, просканированных в период с 2014 по 2021 год.
Дополнительная документация : Изучите статьи с кодом
Домашняя страница : https://laion.ai/blog/laion-400-open-dataset/
Исходный код :
tfds.vision_language.laion400m.Laion400m
Версии :
-
1.0.0
(по умолчанию): первоначальный выпуск.
-
Размер загрузки :
Unknown size
Размер набора данных :
Unknown size
Инструкции по загрузке вручную : этот набор данных требует, чтобы вы вручную загрузили исходные данные в
download_config.manual_dir
(по умолчанию~/tensorflow_datasets/downloads/manual/
):
См. раздел «Информация о загрузке» на странице https://laion.ai/blog/laion-400-open-dataset/.Автокэширование ( документация ): неизвестно.
Расколы :
Расколоть | Примеры |
---|
Контролируемые ключи (см. документ
as_supervised
):None
Рисунок ( tfds.show_examples ): не поддерживается.
Примеры ( tfds.as_dataframe ): Отсутствуют.
Цитата :
@article{DBLP:journals/corr/abs-2111-02114,
author = {Christoph Schuhmann and
Richard Vencu and
Romain Beaumont and
Robert Kaczmarczyk and
Clayton Mullis and
Aarush Katta and
Theo Coombes and
Jenia Jitsev and
Aran Komatsuzaki},
title = { {LAION-400M:} Open Dataset of CLIP-Filtered 400 Million Image-Text
Pairs},
journal = {CoRR},
volume = {abs/2111.02114},
year = {2021},
url = {https://arxiv.org/abs/2111.02114},
eprinttype = {arXiv},
eprint = {2111.02114},
timestamp = {Fri, 05 Nov 2021 15:25:54 +0100},
biburl = {https://dblp.org/rec/journals/corr/abs-2111-02114.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
laion400m/images (конфигурация по умолчанию)
- Структура функции :
FeaturesDict({
'caption': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8, description=image),
'license': Text(shape=(), dtype=string),
'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
'url': Text(shape=(), dtype=string),
})
- Функциональная документация :
Особенность | Сорт | Форма | Дтип | Описание | Диапазон значений |
---|---|---|---|---|---|
ВозможностиDict | |||||
подпись | Текст | нить | HTML-атрибут альтернативного текста | ||
изображение | Изображение | (Нет, Нет, 3) | uint8 | изображение | |
лицензия | Текст | нить | тип лицензии Creative Commons (если применимо) | ||
нсфв | Класслейбл | int64 | Тег NSFW (обнаруживается с помощью CLIP). Несвязные и отсутствующие теги заменяются на UNTAGGED. | ||
original_height | Скаляр | int32 | исходная высота изображения | ||
исходная_ширина | Скаляр | int32 | исходная ширина изображения | ||
сходство | Скаляр | float64 | Косинусная оценка сходства между текстом и встраиванием изображения. Отсутствующие значения по умолчанию равны -1,0. | [0,0, 1,0] | |
URL | Текст | нить | URL изображения |
Лайон400м/встраивания
- Структура функции :
FeaturesDict({
'caption': Text(shape=(), dtype=string),
'image_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP image embedding),
'license': Text(shape=(), dtype=string),
'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
'original_height': Scalar(shape=(), dtype=int32, description=original height of the image),
'original_width': Scalar(shape=(), dtype=int32, description=original width of the image),
'similarity': Scalar(shape=(), dtype=float64, description=cosine similarity score between the text and image embedding. Missing values default to -1.0),
'text_embedding': Tensor(shape=(512,), dtype=float16, description=CLIP text embedding),
'url': Text(shape=(), dtype=string),
})
- Функциональная документация :
Особенность | Сорт | Форма | Дтип | Описание | Диапазон значений |
---|---|---|---|---|---|
ВозможностиDict | |||||
подпись | Текст | нить | HTML-атрибут альтернативного текста | ||
image_embedding | Тензор | (512,) | поплавок16 | Встраивание изображений CLIP | |
лицензия | Текст | нить | тип лицензии Creative Commons (если применимо) | ||
нсфв | Класслейбл | int64 | Тег NSFW (обнаруживается с помощью CLIP). Несвязные и отсутствующие теги заменяются на UNTAGGED. | ||
original_height | Скаляр | int32 | исходная высота изображения | ||
исходная_ширина | Скаляр | int32 | исходная ширина изображения | ||
сходство | Скаляр | float64 | Косинусная оценка сходства между текстом и встраиванием изображения. Отсутствующие значения по умолчанию равны -1,0. | [0,0, 1,0] | |
text_embedding | Тензор | (512,) | поплавок16 | Встраивание текста CLIP | |
URL | Текст | нить | URL изображения |