youtube_vis

  • Описание :

Youtube-vis — это набор данных для сегментации экземпляров видео. Он содержит 2 883 видеоролика YouTube с высоким разрешением, набор меток категории для каждого пикселя, включающий 40 общих объектов, таких как люди, животные и транспортные средства, 4 883 уникальных экземпляра видео и 131 000 высококачественных ручных аннотаций.

Набор данных YouTube-VIS разделен на 2238 обучающих видеороликов, 302 проверочных видеоролика и 343 тестовых видеоролика.

Никакие файлы не были удалены или изменены во время предварительной обработки.

  • Дополнительная документация : изучить документы с кодом

  • Домашняя страница : https://youtube-vos.org/dataset/vis/

  • Исходный код : tfds.video.youtube_vis.YoutubeVis

  • Версии :

    • 1.0.0 (по умолчанию): Первоначальный выпуск.
  • Размер загрузки : Unknown size

  • Инструкции по ручной загрузке : этот набор данных требует, чтобы вы загружали исходные данные вручную в download_config.manual_dir (по умолчанию ~/tensorflow_datasets/downloads/manual/ ):
    Пожалуйста, загрузите все файлы для версии набора данных 2019 года (test_all_frames.zip, test.json, train_all_frames.zip, train.json, valid_all_frames.zip, valid.json) с веб-сайта youtube-vis и переместите их в ~/tensorflow_datasets/ загрузки/руководство/.

Обратите внимание, что целевая страница набора данных находится по адресу https://youtube-vos.org/dataset/vis/, и затем она перенаправит вас на страницу https://competitions.codalab.org , где вы сможете скачать версию 2019 года. набора данных. Вам нужно будет создать учетную запись на codalab для загрузки данных. Обратите внимание, что на момент написания этой статьи вам нужно будет обойти предупреждение «Соединение небезопасно» при доступе к codalab.

@article{DBLP:journals/corr/abs-1905-04804,
  author    = {Linjie Yang and
               Yuchen Fan and
               Ning Xu},
  title     = {Video Instance Segmentation},
  journal   = {CoRR},
  volume    = {abs/1905.04804},
  year      = {2019},
  url       = {http://arxiv.org/abs/1905.04804},
  archivePrefix = {arXiv},
  eprint    = {1905.04804},
  timestamp = {Tue, 28 May 2019 12:48:08 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-1905-04804.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

youtube_vis/full (конфигурация по умолчанию)

  • Описание конфигурации : версия набора данных с полным разрешением, включая все кадры, в том числе без меток.

  • Размер набора данных : 33.31 GiB

  • Сплиты :

Расколоть Примеры
'test' 343
'train' 2238
'validation' 302
  • Структура функции :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
метаданные ОсобенностиDict
метаданные/высота Тензор int32
метаданные/число_кадров Тензор int32
метаданные/имя_видео Тензор нить
метаданные/ширина Тензор int32
треки Последовательность
треки/районы Последовательность (тензор) (Никто,) поплавок32
треки/боксы Последовательность (BBoxFeature) (Нет, 4) поплавок32
треки/категория Метка класса int64
треки/кадры Последовательность (тензор) (Никто,) int32
треки/is_crowd Тензор логический
треки/сегменты Видео (изображение) (Нет, Нет, Нет, 1) uint8
видео Видео (изображение) (Нет, Нет, Нет, 3) uint8

youtube_vis/480_640_full

  • Описание конфигурации : размер всех изображений билинейно изменен до 480 X 640 со всеми включенными кадрами.

  • Размер набора данных : 130.02 GiB

  • Сплиты :

Расколоть Примеры
'test' 343
'train' 2238
'validation' 302
  • Структура функции :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
метаданные ОсобенностиDict
метаданные/высота Тензор int32
метаданные/число_кадров Тензор int32
метаданные/имя_видео Тензор нить
метаданные/ширина Тензор int32
треки Последовательность
треки/районы Последовательность (тензор) (Никто,) поплавок32
треки/боксы Последовательность (BBoxFeature) (Нет, 4) поплавок32
треки/категория Метка класса int64
треки/кадры Последовательность (тензор) (Никто,) int32
треки/is_crowd Тензор логический
треки/сегменты Видео (изображение) (Нет, 480, 640, 1) uint8
видео Видео (изображение) (Нет, 480, 640, 3) uint8

youtube_vis/480_640_only_frames_with_labels

  • Описание конфигурации : размер всех изображений билинейно изменен до 480 X 640 с включением только кадров с метками.

  • Размер набора данных : 26.27 GiB

  • Сплиты :

Расколоть Примеры
'test' 343
'train' 2238
'validation' 302
  • Структура функции :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
метаданные ОсобенностиDict
метаданные/высота Тензор int32
метаданные/число_кадров Тензор int32
метаданные/имя_видео Тензор нить
метаданные/ширина Тензор int32
треки Последовательность
треки/районы Последовательность (тензор) (Никто,) поплавок32
треки/боксы Последовательность (BBoxFeature) (Нет, 4) поплавок32
треки/категория Метка класса int64
треки/кадры Последовательность (тензор) (Никто,) int32
треки/is_crowd Тензор логический
треки/сегменты Видео (изображение) (Нет, 480, 640, 1) uint8
видео Видео (изображение) (Нет, 480, 640, 3) uint8

youtube_vis/only_frames_with_labels

  • Описание конфигурации : только изображения с включенными метками в исходном разрешении.

  • Размер набора данных : 6.91 GiB

  • Сплиты :

Расколоть Примеры
'test' 343
'train' 2238
'validation' 302
  • Структура функции :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
метаданные ОсобенностиDict
метаданные/высота Тензор int32
метаданные/число_кадров Тензор int32
метаданные/имя_видео Тензор нить
метаданные/ширина Тензор int32
треки Последовательность
треки/районы Последовательность (тензор) (Никто,) поплавок32
треки/боксы Последовательность (BBoxFeature) (Нет, 4) поплавок32
треки/категория Метка класса int64
треки/кадры Последовательность (тензор) (Никто,) int32
треки/is_crowd Тензор логический
треки/сегменты Видео (изображение) (Нет, Нет, Нет, 1) uint8
видео Видео (изображение) (Нет, Нет, Нет, 3) uint8

youtube_vis/full_train_split

  • Описание конфигурации : версия набора данных с полным разрешением, включая все кадры, в том числе без меток. Расщепления val и test создаются на основе обучающих данных.

  • Размер набора данных : 26.09 GiB

  • Сплиты :

Расколоть Примеры
'test' 200
'train' 1838
'validation' 200
  • Структура функции :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
метаданные ОсобенностиDict
метаданные/высота Тензор int32
метаданные/число_кадров Тензор int32
метаданные/имя_видео Тензор нить
метаданные/ширина Тензор int32
треки Последовательность
треки/районы Последовательность (тензор) (Никто,) поплавок32
треки/боксы Последовательность (BBoxFeature) (Нет, 4) поплавок32
треки/категория Метка класса int64
треки/кадры Последовательность (тензор) (Никто,) int32
треки/is_crowd Тензор логический
треки/сегменты Видео (изображение) (Нет, Нет, Нет, 1) uint8
видео Видео (изображение) (Нет, Нет, Нет, 3) uint8

youtube_vis/480_640_full_train_split

  • Описание конфигурации : размер всех изображений билинейно изменен до 480 X 640 со всеми включенными кадрами. Расщепления val и test создаются на основе обучающих данных.

  • Размер набора данных : 101.57 GiB

  • Сплиты :

Расколоть Примеры
'test' 200
'train' 1838
'validation' 200
  • Структура функции :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
метаданные ОсобенностиDict
метаданные/высота Тензор int32
метаданные/число_кадров Тензор int32
метаданные/имя_видео Тензор нить
метаданные/ширина Тензор int32
треки Последовательность
треки/районы Последовательность (тензор) (Никто,) поплавок32
треки/боксы Последовательность (BBoxFeature) (Нет, 4) поплавок32
треки/категория Метка класса int64
треки/кадры Последовательность (тензор) (Никто,) int32
треки/is_crowd Тензор логический
треки/сегменты Видео (изображение) (Нет, 480, 640, 1) uint8
видео Видео (изображение) (Нет, 480, 640, 3) uint8

youtube_vis/480_640_only_frames_with_labels_train_split

  • Описание конфигурации : размер всех изображений билинейно изменен до 480 X 640 с включением только кадров с метками. Расщепления val и test создаются на основе обучающих данных.

  • Размер набора данных : 20.55 GiB

  • Сплиты :

Расколоть Примеры
'test' 200
'train' 1838
'validation' 200
  • Структура функции :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
метаданные ОсобенностиDict
метаданные/высота Тензор int32
метаданные/число_кадров Тензор int32
метаданные/имя_видео Тензор нить
метаданные/ширина Тензор int32
треки Последовательность
треки/районы Последовательность (тензор) (Никто,) поплавок32
треки/боксы Последовательность (BBoxFeature) (Нет, 4) поплавок32
треки/категория Метка класса int64
треки/кадры Последовательность (тензор) (Никто,) int32
треки/is_crowd Тензор логический
треки/сегменты Видео (изображение) (Нет, 480, 640, 1) uint8
видео Видео (изображение) (Нет, 480, 640, 3) uint8

youtube_vis/only_frames_with_labels_train_split

  • Описание конфигурации : только изображения с включенными метками в исходном разрешении. Расщепления val и test создаются на основе обучающих данных.

  • Размер набора данных : 5.46 GiB

  • Сплиты :

Расколоть Примеры
'test' 200
'train' 1838
'validation' 200
  • Структура функции :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
метаданные ОсобенностиDict
метаданные/высота Тензор int32
метаданные/число_кадров Тензор int32
метаданные/имя_видео Тензор нить
метаданные/ширина Тензор int32
треки Последовательность
треки/районы Последовательность (тензор) (Никто,) поплавок32
треки/боксы Последовательность (BBoxFeature) (Нет, 4) поплавок32
треки/категория Метка класса int64
треки/кадры Последовательность (тензор) (Никто,) int32
треки/is_crowd Тензор логический
треки/сегменты Видео (изображение) (Нет, Нет, Нет, 1) uint8
видео Видео (изображение) (Нет, Нет, Нет, 3) uint8