- Описание :
Youtube-vis — это набор данных для сегментации экземпляров видео. Он содержит 2 883 видеоролика YouTube с высоким разрешением, набор меток категории для каждого пикселя, включающий 40 общих объектов, таких как люди, животные и транспортные средства, 4 883 уникальных экземпляра видео и 131 000 высококачественных ручных аннотаций.
Набор данных YouTube-VIS разделен на 2238 обучающих видеороликов, 302 проверочных видеоролика и 343 тестовых видеоролика.
Никакие файлы не были удалены или изменены во время предварительной обработки.
Дополнительная документация : изучить документы с кодом
Домашняя страница : https://youtube-vos.org/dataset/vis/
Исходный код :
tfds.video.youtube_vis.YoutubeVis
Версии :
-
1.0.0
(по умолчанию): Первоначальный выпуск.
-
Размер загрузки :
Unknown size
Инструкции по ручной загрузке : этот набор данных требует, чтобы вы загружали исходные данные вручную в
download_config.manual_dir
(по умолчанию~/tensorflow_datasets/downloads/manual/
):
Пожалуйста, загрузите все файлы для версии набора данных 2019 года (test_all_frames.zip, test.json, train_all_frames.zip, train.json, valid_all_frames.zip, valid.json) с веб-сайта youtube-vis и переместите их в ~/tensorflow_datasets/ загрузки/руководство/.
Обратите внимание, что целевая страница набора данных находится по адресу https://youtube-vos.org/dataset/vis/, и затем она перенаправит вас на страницу https://competitions.codalab.org , где вы сможете скачать версию 2019 года. набора данных. Вам нужно будет создать учетную запись на codalab для загрузки данных. Обратите внимание, что на момент написания этой статьи вам нужно будет обойти предупреждение «Соединение небезопасно» при доступе к codalab.
Автоматическое кэширование ( документация ): Нет
Ключи под наблюдением (см . документ
as_supervised
):None
Рисунок ( tfds.show_examples ): не поддерживается.
Цитата :
@article{DBLP:journals/corr/abs-1905-04804,
author = {Linjie Yang and
Yuchen Fan and
Ning Xu},
title = {Video Instance Segmentation},
journal = {CoRR},
volume = {abs/1905.04804},
year = {2019},
url = {http://arxiv.org/abs/1905.04804},
archivePrefix = {arXiv},
eprint = {1905.04804},
timestamp = {Tue, 28 May 2019 12:48:08 +0200},
biburl = {https://dblp.org/rec/journals/corr/abs-1905-04804.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
youtube_vis/full (конфигурация по умолчанию)
Описание конфигурации : версия набора данных с полным разрешением, включая все кадры, в том числе без меток.
Размер набора данных :
33.31 GiB
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 343 |
'train' | 2238 |
'validation' | 302 |
- Структура функции :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
метаданные | ОсобенностиDict | |||
метаданные/высота | Тензор | int32 | ||
метаданные/число_кадров | Тензор | int32 | ||
метаданные/имя_видео | Тензор | нить | ||
метаданные/ширина | Тензор | int32 | ||
треки | Последовательность | |||
треки/районы | Последовательность (тензор) | (Никто,) | поплавок32 | |
треки/боксы | Последовательность (BBoxFeature) | (Нет, 4) | поплавок32 | |
треки/категория | Метка класса | int64 | ||
треки/кадры | Последовательность (тензор) | (Никто,) | int32 | |
треки/is_crowd | Тензор | логический | ||
треки/сегменты | Видео (изображение) | (Нет, Нет, Нет, 1) | uint8 | |
видео | Видео (изображение) | (Нет, Нет, Нет, 3) | uint8 |
- Примеры ( tfds.as_dataframe ):
youtube_vis/480_640_full
Описание конфигурации : размер всех изображений билинейно изменен до 480 X 640 со всеми включенными кадрами.
Размер набора данных :
130.02 GiB
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 343 |
'train' | 2238 |
'validation' | 302 |
- Структура функции :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
метаданные | ОсобенностиDict | |||
метаданные/высота | Тензор | int32 | ||
метаданные/число_кадров | Тензор | int32 | ||
метаданные/имя_видео | Тензор | нить | ||
метаданные/ширина | Тензор | int32 | ||
треки | Последовательность | |||
треки/районы | Последовательность (тензор) | (Никто,) | поплавок32 | |
треки/боксы | Последовательность (BBoxFeature) | (Нет, 4) | поплавок32 | |
треки/категория | Метка класса | int64 | ||
треки/кадры | Последовательность (тензор) | (Никто,) | int32 | |
треки/is_crowd | Тензор | логический | ||
треки/сегменты | Видео (изображение) | (Нет, 480, 640, 1) | uint8 | |
видео | Видео (изображение) | (Нет, 480, 640, 3) | uint8 |
- Примеры ( tfds.as_dataframe ):
youtube_vis/480_640_only_frames_with_labels
Описание конфигурации : размер всех изображений билинейно изменен до 480 X 640 с включением только кадров с метками.
Размер набора данных :
26.27 GiB
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 343 |
'train' | 2238 |
'validation' | 302 |
- Структура функции :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
метаданные | ОсобенностиDict | |||
метаданные/высота | Тензор | int32 | ||
метаданные/число_кадров | Тензор | int32 | ||
метаданные/имя_видео | Тензор | нить | ||
метаданные/ширина | Тензор | int32 | ||
треки | Последовательность | |||
треки/районы | Последовательность (тензор) | (Никто,) | поплавок32 | |
треки/боксы | Последовательность (BBoxFeature) | (Нет, 4) | поплавок32 | |
треки/категория | Метка класса | int64 | ||
треки/кадры | Последовательность (тензор) | (Никто,) | int32 | |
треки/is_crowd | Тензор | логический | ||
треки/сегменты | Видео (изображение) | (Нет, 480, 640, 1) | uint8 | |
видео | Видео (изображение) | (Нет, 480, 640, 3) | uint8 |
- Примеры ( tfds.as_dataframe ):
youtube_vis/only_frames_with_labels
Описание конфигурации : только изображения с включенными метками в исходном разрешении.
Размер набора данных :
6.91 GiB
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 343 |
'train' | 2238 |
'validation' | 302 |
- Структура функции :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
метаданные | ОсобенностиDict | |||
метаданные/высота | Тензор | int32 | ||
метаданные/число_кадров | Тензор | int32 | ||
метаданные/имя_видео | Тензор | нить | ||
метаданные/ширина | Тензор | int32 | ||
треки | Последовательность | |||
треки/районы | Последовательность (тензор) | (Никто,) | поплавок32 | |
треки/боксы | Последовательность (BBoxFeature) | (Нет, 4) | поплавок32 | |
треки/категория | Метка класса | int64 | ||
треки/кадры | Последовательность (тензор) | (Никто,) | int32 | |
треки/is_crowd | Тензор | логический | ||
треки/сегменты | Видео (изображение) | (Нет, Нет, Нет, 1) | uint8 | |
видео | Видео (изображение) | (Нет, Нет, Нет, 3) | uint8 |
- Примеры ( tfds.as_dataframe ):
youtube_vis/full_train_split
Описание конфигурации : версия набора данных с полным разрешением, включая все кадры, в том числе без меток. Расщепления val и test создаются на основе обучающих данных.
Размер набора данных :
26.09 GiB
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 200 |
'train' | 1838 |
'validation' | 200 |
- Структура функции :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
метаданные | ОсобенностиDict | |||
метаданные/высота | Тензор | int32 | ||
метаданные/число_кадров | Тензор | int32 | ||
метаданные/имя_видео | Тензор | нить | ||
метаданные/ширина | Тензор | int32 | ||
треки | Последовательность | |||
треки/районы | Последовательность (тензор) | (Никто,) | поплавок32 | |
треки/боксы | Последовательность (BBoxFeature) | (Нет, 4) | поплавок32 | |
треки/категория | Метка класса | int64 | ||
треки/кадры | Последовательность (тензор) | (Никто,) | int32 | |
треки/is_crowd | Тензор | логический | ||
треки/сегменты | Видео (изображение) | (Нет, Нет, Нет, 1) | uint8 | |
видео | Видео (изображение) | (Нет, Нет, Нет, 3) | uint8 |
- Примеры ( tfds.as_dataframe ):
youtube_vis/480_640_full_train_split
Описание конфигурации : размер всех изображений билинейно изменен до 480 X 640 со всеми включенными кадрами. Расщепления val и test создаются на основе обучающих данных.
Размер набора данных :
101.57 GiB
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 200 |
'train' | 1838 |
'validation' | 200 |
- Структура функции :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
метаданные | ОсобенностиDict | |||
метаданные/высота | Тензор | int32 | ||
метаданные/число_кадров | Тензор | int32 | ||
метаданные/имя_видео | Тензор | нить | ||
метаданные/ширина | Тензор | int32 | ||
треки | Последовательность | |||
треки/районы | Последовательность (тензор) | (Никто,) | поплавок32 | |
треки/боксы | Последовательность (BBoxFeature) | (Нет, 4) | поплавок32 | |
треки/категория | Метка класса | int64 | ||
треки/кадры | Последовательность (тензор) | (Никто,) | int32 | |
треки/is_crowd | Тензор | логический | ||
треки/сегменты | Видео (изображение) | (Нет, 480, 640, 1) | uint8 | |
видео | Видео (изображение) | (Нет, 480, 640, 3) | uint8 |
- Примеры ( tfds.as_dataframe ):
youtube_vis/480_640_only_frames_with_labels_train_split
Описание конфигурации : размер всех изображений билинейно изменен до 480 X 640 с включением только кадров с метками. Расщепления val и test создаются на основе обучающих данных.
Размер набора данных :
20.55 GiB
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 200 |
'train' | 1838 |
'validation' | 200 |
- Структура функции :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
метаданные | ОсобенностиDict | |||
метаданные/высота | Тензор | int32 | ||
метаданные/число_кадров | Тензор | int32 | ||
метаданные/имя_видео | Тензор | нить | ||
метаданные/ширина | Тензор | int32 | ||
треки | Последовательность | |||
треки/районы | Последовательность (тензор) | (Никто,) | поплавок32 | |
треки/боксы | Последовательность (BBoxFeature) | (Нет, 4) | поплавок32 | |
треки/категория | Метка класса | int64 | ||
треки/кадры | Последовательность (тензор) | (Никто,) | int32 | |
треки/is_crowd | Тензор | логический | ||
треки/сегменты | Видео (изображение) | (Нет, 480, 640, 1) | uint8 | |
видео | Видео (изображение) | (Нет, 480, 640, 3) | uint8 |
- Примеры ( tfds.as_dataframe ):
youtube_vis/only_frames_with_labels_train_split
Описание конфигурации : только изображения с включенными метками в исходном разрешении. Расщепления val и test создаются на основе обучающих данных.
Размер набора данных :
5.46 GiB
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 200 |
'train' | 1838 |
'validation' | 200 |
- Структура функции :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
метаданные | ОсобенностиDict | |||
метаданные/высота | Тензор | int32 | ||
метаданные/число_кадров | Тензор | int32 | ||
метаданные/имя_видео | Тензор | нить | ||
метаданные/ширина | Тензор | int32 | ||
треки | Последовательность | |||
треки/районы | Последовательность (тензор) | (Никто,) | поплавок32 | |
треки/боксы | Последовательность (BBoxFeature) | (Нет, 4) | поплавок32 | |
треки/категория | Метка класса | int64 | ||
треки/кадры | Последовательность (тензор) | (Никто,) | int32 | |
треки/is_crowd | Тензор | логический | ||
треки/сегменты | Видео (изображение) | (Нет, Нет, Нет, 1) | uint8 | |
видео | Видео (изображение) | (Нет, Нет, Нет, 3) | uint8 |
- Примеры ( tfds.as_dataframe ):