youtube_vis

  • opis :

Youtube-vis to zestaw danych segmentacji instancji wideo. Zawiera 2883 filmy wideo YouTube w wysokiej rozdzielczości, zestaw etykiet kategorii według piksela, obejmujący 40 typowych obiektów, takich jak osoby, zwierzęta i pojazdy, 4883 unikalne wystąpienia wideo i 131 000 wysokiej jakości adnotacji ręcznych.

Zbiór danych YouTube-VIS jest podzielony na 2238 filmów szkoleniowych, 302 filmy walidacyjne i 343 filmy testowe.

Żadne pliki nie zostały usunięte ani zmienione podczas wstępnego przetwarzania.

  • Dodatkowa dokumentacja : Przeglądaj dokumenty z kodem

  • Strona główna : https://youtube-vos.org/dataset/vis/

  • Kod źródłowy : tfds.video.youtube_vis.YoutubeVis

  • Wersje :

    • 1.0.0 (domyślnie): Wersja początkowa.
  • Rozmiar pliku do pobrania : Unknown size

  • Instrukcje ręcznego pobierania : ten zestaw danych wymaga ręcznego pobrania danych źródłowych do download_config.manual_dir (domyślnie ~/tensorflow_datasets/downloads/manual/ ):
    Pobierz wszystkie pliki zestawu danych w wersji 2019 (test_all_frames.zip, test.json, train_all_frames.zip, train.json, valid_all_frames.zip, valid.json) ze strony youtube-vis i przenieś je do ~/tensorflow_datasets/ pliki do pobrania/instrukcja/.

Pamiętaj, że strona docelowa zestawu danych znajduje się pod adresem https://youtube-vos.org/dataset/vis/, a następnie przekieruje Cię do strony https://competitions.codalab.org , z której możesz pobrać wersję 2019 zestawu danych. Aby pobrać dane, musisz założyć konto na codalab. Pamiętaj, że w momencie pisania tego tekstu będziesz musiał ominąć ostrzeżenie „Połączenie nie jest bezpieczne” podczas uzyskiwania dostępu do Codalab.

@article{DBLP:journals/corr/abs-1905-04804,
  author    = {Linjie Yang and
               Yuchen Fan and
               Ning Xu},
  title     = {Video Instance Segmentation},
  journal   = {CoRR},
  volume    = {abs/1905.04804},
  year      = {2019},
  url       = {http://arxiv.org/abs/1905.04804},
  archivePrefix = {arXiv},
  eprint    = {1905.04804},
  timestamp = {Tue, 28 May 2019 12:48:08 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-1905-04804.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

youtube_vis/full (domyślna konfiguracja)

  • Opis konfiguracji : wersja zestawu danych w pełnej rozdzielczości, zawierająca wszystkie klatki, w tym te bez etykiet.

  • Rozmiar zestawu danych : 33.31 GiB

  • Podziały :

Rozdzielać Przykłady
'test' 343
'train' 2238
'validation' 302
  • Struktura funkcji :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
metadane FunkcjeDict
metadane/wysokość Napinacz int32
metadane/liczba_ramek Napinacz int32
metadane/nazwa_wideo Napinacz strunowy
metadane/szerokość Napinacz int32
utwory Sekwencja
tory/obszary Sekwencja (Tensor) (Nic,) pływak32
utwory/bboxy Sekwencja (BBoxFeature) (Brak, 4) pływak32
utwory/kategoria Etykieta klasy int64
tory/ramki Sekwencja (Tensor) (Nic,) int32
tory/jest_tłum Napinacz bool
ścieżki/segmentacje Wideo (obraz) (Brak, Brak, Brak, 1) uint8
wideo Wideo (obraz) (Brak, Brak, Brak, 3) uint8

youtube_vis/480_640_full

  • Opis konfiguracji : Wszystkie obrazy są dwuliniowo zmieniane do rozdzielczości 480 X 640 z uwzględnieniem wszystkich klatek.

  • Rozmiar zestawu danych : 130.02 GiB

  • Podziały :

Rozdzielać Przykłady
'test' 343
'train' 2238
'validation' 302
  • Struktura funkcji :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
metadane FunkcjeDict
metadane/wysokość Napinacz int32
metadane/liczba_ramek Napinacz int32
metadane/nazwa_wideo Napinacz strunowy
metadane/szerokość Napinacz int32
utwory Sekwencja
tory/obszary Sekwencja (Tensor) (Nic,) pływak32
utwory/bboxy Sekwencja (BBoxFeature) (Brak, 4) pływak32
utwory/kategoria Etykieta klasy int64
tory/ramki Sekwencja (Tensor) (Nic,) int32
tory/jest_tłum Napinacz bool
ścieżki/segmentacje Wideo (obraz) (Brak, 480, 640, 1) uint8
wideo Wideo (obraz) (Brak, 480, 640, 3) uint8

youtube_vis/480_640_only_frames_with_labels

  • Opis konfiguracji : Wszystkie obrazy są dwuliniowo przeskalowane do 480 X 640 z dołączonymi tylko ramkami z etykietami.

  • Rozmiar zestawu danych : 26.27 GiB

  • Podziały :

Rozdzielać Przykłady
'test' 343
'train' 2238
'validation' 302
  • Struktura funkcji :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
metadane FunkcjeDict
metadane/wysokość Napinacz int32
metadane/liczba_ramek Napinacz int32
metadane/nazwa_wideo Napinacz strunowy
metadane/szerokość Napinacz int32
utwory Sekwencja
tory/obszary Sekwencja (Tensor) (Nic,) pływak32
utwory/bboxy Sekwencja (BBoxFeature) (Brak, 4) pływak32
utwory/kategoria Etykieta klasy int64
tory/ramki Sekwencja (Tensor) (Nic,) int32
tory/jest_tłum Napinacz bool
ścieżki/segmentacje Wideo (obraz) (Brak, 480, 640, 1) uint8
wideo Wideo (obraz) (Brak, 480, 640, 3) uint8

youtube_vis/only_frames_with_labels

  • Opis konfiguracji : tylko obrazy z dołączonymi etykietami w ich natywnej rozdzielczości.

  • Rozmiar zestawu danych : 6.91 GiB

  • Podziały :

Rozdzielać Przykłady
'test' 343
'train' 2238
'validation' 302
  • Struktura funkcji :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
metadane FunkcjeDict
metadane/wysokość Napinacz int32
metadane/liczba_ramek Napinacz int32
metadane/nazwa_wideo Napinacz strunowy
metadane/szerokość Napinacz int32
utwory Sekwencja
tory/obszary Sekwencja (Tensor) (Nic,) pływak32
utwory/bboxy Sekwencja (BBoxFeature) (Brak, 4) pływak32
utwory/kategoria Etykieta klasy int64
tory/ramki Sekwencja (Tensor) (Nic,) int32
tory/jest_tłum Napinacz bool
ścieżki/segmentacje Wideo (obraz) (Brak, Brak, Brak, 1) uint8
wideo Wideo (obraz) (Brak, Brak, Brak, 3) uint8

youtube_vis/full_train_split

  • Opis konfiguracji : wersja zestawu danych w pełnej rozdzielczości, zawierająca wszystkie klatki, w tym te bez etykiet. Podziały val i test są tworzone na podstawie danych treningowych.

  • Rozmiar zestawu danych : 26.09 GiB

  • Podziały :

Rozdzielać Przykłady
'test' 200
'train' 1838
'validation' 200
  • Struktura funkcji :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
metadane FunkcjeDict
metadane/wysokość Napinacz int32
metadane/liczba_ramek Napinacz int32
metadane/nazwa_wideo Napinacz strunowy
metadane/szerokość Napinacz int32
utwory Sekwencja
tory/obszary Sekwencja (Tensor) (Nic,) pływak32
utwory/bboxy Sekwencja (BBoxFeature) (Brak, 4) pływak32
utwory/kategoria Etykieta klasy int64
tory/ramki Sekwencja (Tensor) (Nic,) int32
tory/jest_tłum Napinacz bool
ścieżki/segmentacje Wideo (obraz) (Brak, Brak, Brak, 1) uint8
wideo Wideo (obraz) (Brak, Brak, Brak, 3) uint8

youtube_vis/480_640_full_train_split

  • Opis konfiguracji : Wszystkie obrazy są dwuliniowo zmieniane do rozdzielczości 480 X 640 z uwzględnieniem wszystkich klatek. Podziały val i test są tworzone na podstawie danych treningowych.

  • Rozmiar zestawu danych : 101.57 GiB

  • Podziały :

Rozdzielać Przykłady
'test' 200
'train' 1838
'validation' 200
  • Struktura funkcji :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
metadane FunkcjeDict
metadane/wysokość Napinacz int32
metadane/liczba_ramek Napinacz int32
metadane/nazwa_wideo Napinacz strunowy
metadane/szerokość Napinacz int32
utwory Sekwencja
tory/obszary Sekwencja (Tensor) (Nic,) pływak32
utwory/bboxy Sekwencja (BBoxFeature) (Brak, 4) pływak32
utwory/kategoria Etykieta klasy int64
tory/ramki Sekwencja (Tensor) (Nic,) int32
tory/jest_tłum Napinacz bool
ścieżki/segmentacje Wideo (obraz) (Brak, 480, 640, 1) uint8
wideo Wideo (obraz) (Brak, 480, 640, 3) uint8

youtube_vis/480_640_only_frames_with_labels_train_split

  • Opis konfiguracji : Wszystkie obrazy są dwuliniowo przeskalowane do 480 X 640 z dołączonymi tylko ramkami z etykietami. Podziały val i test są tworzone na podstawie danych treningowych.

  • Rozmiar zestawu danych : 20.55 GiB

  • Podziały :

Rozdzielać Przykłady
'test' 200
'train' 1838
'validation' 200
  • Struktura funkcji :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
metadane FunkcjeDict
metadane/wysokość Napinacz int32
metadane/liczba_ramek Napinacz int32
metadane/nazwa_wideo Napinacz strunowy
metadane/szerokość Napinacz int32
utwory Sekwencja
tory/obszary Sekwencja (Tensor) (Nic,) pływak32
utwory/bboxy Sekwencja (BBoxFeature) (Brak, 4) pływak32
utwory/kategoria Etykieta klasy int64
tory/ramki Sekwencja (Tensor) (Nic,) int32
tory/jest_tłum Napinacz bool
ścieżki/segmentacje Wideo (obraz) (Brak, 480, 640, 1) uint8
wideo Wideo (obraz) (Brak, 480, 640, 3) uint8

youtube_vis/only_frames_with_labels_train_split

  • Opis konfiguracji : tylko obrazy z dołączonymi etykietami w ich natywnej rozdzielczości. Podziały val i test są tworzone na podstawie danych treningowych.

  • Rozmiar zestawu danych : 5.46 GiB

  • Podziały :

Rozdzielać Przykłady
'test' 200
'train' 1838
'validation' 200
  • Struktura funkcji :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
metadane FunkcjeDict
metadane/wysokość Napinacz int32
metadane/liczba_ramek Napinacz int32
metadane/nazwa_wideo Napinacz strunowy
metadane/szerokość Napinacz int32
utwory Sekwencja
tory/obszary Sekwencja (Tensor) (Nic,) pływak32
utwory/bboxy Sekwencja (BBoxFeature) (Brak, 4) pływak32
utwory/kategoria Etykieta klasy int64
tory/ramki Sekwencja (Tensor) (Nic,) int32
tory/jest_tłum Napinacz bool
ścieżki/segmentacje Wideo (obraz) (Brak, Brak, Brak, 1) uint8
wideo Wideo (obraz) (Brak, Brak, Brak, 3) uint8