- opis :
Youtube-vis to zestaw danych segmentacji instancji wideo. Zawiera 2883 filmy wideo YouTube w wysokiej rozdzielczości, zestaw etykiet kategorii według piksela, obejmujący 40 typowych obiektów, takich jak osoby, zwierzęta i pojazdy, 4883 unikalne wystąpienia wideo i 131 000 wysokiej jakości adnotacji ręcznych.
Zbiór danych YouTube-VIS jest podzielony na 2238 filmów szkoleniowych, 302 filmy walidacyjne i 343 filmy testowe.
Żadne pliki nie zostały usunięte ani zmienione podczas wstępnego przetwarzania.
Dodatkowa dokumentacja : Przeglądaj dokumenty z kodem
Strona główna : https://youtube-vos.org/dataset/vis/
Kod źródłowy :
tfds.video.youtube_vis.YoutubeVis
Wersje :
-
1.0.0
(domyślnie): Wersja początkowa.
-
Rozmiar pliku do pobrania :
Unknown size
Instrukcje ręcznego pobierania : ten zestaw danych wymaga ręcznego pobrania danych źródłowych do
download_config.manual_dir
(domyślnie~/tensorflow_datasets/downloads/manual/
):
Pobierz wszystkie pliki zestawu danych w wersji 2019 (test_all_frames.zip, test.json, train_all_frames.zip, train.json, valid_all_frames.zip, valid.json) ze strony youtube-vis i przenieś je do ~/tensorflow_datasets/ pliki do pobrania/instrukcja/.
Pamiętaj, że strona docelowa zestawu danych znajduje się pod adresem https://youtube-vos.org/dataset/vis/, a następnie przekieruje Cię do strony https://competitions.codalab.org , z której możesz pobrać wersję 2019 zestawu danych. Aby pobrać dane, musisz założyć konto na codalab. Pamiętaj, że w momencie pisania tego tekstu będziesz musiał ominąć ostrzeżenie „Połączenie nie jest bezpieczne” podczas uzyskiwania dostępu do Codalab.
Automatyczne buforowanie ( dokumentacja ): Nie
Klucze nadzorowane (Zobacz dokument
as_supervised
):None
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Cytat :
@article{DBLP:journals/corr/abs-1905-04804,
author = {Linjie Yang and
Yuchen Fan and
Ning Xu},
title = {Video Instance Segmentation},
journal = {CoRR},
volume = {abs/1905.04804},
year = {2019},
url = {http://arxiv.org/abs/1905.04804},
archivePrefix = {arXiv},
eprint = {1905.04804},
timestamp = {Tue, 28 May 2019 12:48:08 +0200},
biburl = {https://dblp.org/rec/journals/corr/abs-1905-04804.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
youtube_vis/full (domyślna konfiguracja)
Opis konfiguracji : wersja zestawu danych w pełnej rozdzielczości, zawierająca wszystkie klatki, w tym te bez etykiet.
Rozmiar zestawu danych :
33.31 GiB
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 343 |
'train' | 2238 |
'validation' | 302 |
- Struktura funkcji :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
metadane | FunkcjeDict | |||
metadane/wysokość | Napinacz | int32 | ||
metadane/liczba_ramek | Napinacz | int32 | ||
metadane/nazwa_wideo | Napinacz | strunowy | ||
metadane/szerokość | Napinacz | int32 | ||
utwory | Sekwencja | |||
tory/obszary | Sekwencja (Tensor) | (Nic,) | pływak32 | |
utwory/bboxy | Sekwencja (BBoxFeature) | (Brak, 4) | pływak32 | |
utwory/kategoria | Etykieta klasy | int64 | ||
tory/ramki | Sekwencja (Tensor) | (Nic,) | int32 | |
tory/jest_tłum | Napinacz | bool | ||
ścieżki/segmentacje | Wideo (obraz) | (Brak, Brak, Brak, 1) | uint8 | |
wideo | Wideo (obraz) | (Brak, Brak, Brak, 3) | uint8 |
- Przykłady ( tfds.as_dataframe ):
youtube_vis/480_640_full
Opis konfiguracji : Wszystkie obrazy są dwuliniowo zmieniane do rozdzielczości 480 X 640 z uwzględnieniem wszystkich klatek.
Rozmiar zestawu danych :
130.02 GiB
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 343 |
'train' | 2238 |
'validation' | 302 |
- Struktura funkcji :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
metadane | FunkcjeDict | |||
metadane/wysokość | Napinacz | int32 | ||
metadane/liczba_ramek | Napinacz | int32 | ||
metadane/nazwa_wideo | Napinacz | strunowy | ||
metadane/szerokość | Napinacz | int32 | ||
utwory | Sekwencja | |||
tory/obszary | Sekwencja (Tensor) | (Nic,) | pływak32 | |
utwory/bboxy | Sekwencja (BBoxFeature) | (Brak, 4) | pływak32 | |
utwory/kategoria | Etykieta klasy | int64 | ||
tory/ramki | Sekwencja (Tensor) | (Nic,) | int32 | |
tory/jest_tłum | Napinacz | bool | ||
ścieżki/segmentacje | Wideo (obraz) | (Brak, 480, 640, 1) | uint8 | |
wideo | Wideo (obraz) | (Brak, 480, 640, 3) | uint8 |
- Przykłady ( tfds.as_dataframe ):
youtube_vis/480_640_only_frames_with_labels
Opis konfiguracji : Wszystkie obrazy są dwuliniowo przeskalowane do 480 X 640 z dołączonymi tylko ramkami z etykietami.
Rozmiar zestawu danych :
26.27 GiB
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 343 |
'train' | 2238 |
'validation' | 302 |
- Struktura funkcji :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
metadane | FunkcjeDict | |||
metadane/wysokość | Napinacz | int32 | ||
metadane/liczba_ramek | Napinacz | int32 | ||
metadane/nazwa_wideo | Napinacz | strunowy | ||
metadane/szerokość | Napinacz | int32 | ||
utwory | Sekwencja | |||
tory/obszary | Sekwencja (Tensor) | (Nic,) | pływak32 | |
utwory/bboxy | Sekwencja (BBoxFeature) | (Brak, 4) | pływak32 | |
utwory/kategoria | Etykieta klasy | int64 | ||
tory/ramki | Sekwencja (Tensor) | (Nic,) | int32 | |
tory/jest_tłum | Napinacz | bool | ||
ścieżki/segmentacje | Wideo (obraz) | (Brak, 480, 640, 1) | uint8 | |
wideo | Wideo (obraz) | (Brak, 480, 640, 3) | uint8 |
- Przykłady ( tfds.as_dataframe ):
youtube_vis/only_frames_with_labels
Opis konfiguracji : tylko obrazy z dołączonymi etykietami w ich natywnej rozdzielczości.
Rozmiar zestawu danych :
6.91 GiB
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 343 |
'train' | 2238 |
'validation' | 302 |
- Struktura funkcji :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
metadane | FunkcjeDict | |||
metadane/wysokość | Napinacz | int32 | ||
metadane/liczba_ramek | Napinacz | int32 | ||
metadane/nazwa_wideo | Napinacz | strunowy | ||
metadane/szerokość | Napinacz | int32 | ||
utwory | Sekwencja | |||
tory/obszary | Sekwencja (Tensor) | (Nic,) | pływak32 | |
utwory/bboxy | Sekwencja (BBoxFeature) | (Brak, 4) | pływak32 | |
utwory/kategoria | Etykieta klasy | int64 | ||
tory/ramki | Sekwencja (Tensor) | (Nic,) | int32 | |
tory/jest_tłum | Napinacz | bool | ||
ścieżki/segmentacje | Wideo (obraz) | (Brak, Brak, Brak, 1) | uint8 | |
wideo | Wideo (obraz) | (Brak, Brak, Brak, 3) | uint8 |
- Przykłady ( tfds.as_dataframe ):
youtube_vis/full_train_split
Opis konfiguracji : wersja zestawu danych w pełnej rozdzielczości, zawierająca wszystkie klatki, w tym te bez etykiet. Podziały val i test są tworzone na podstawie danych treningowych.
Rozmiar zestawu danych :
26.09 GiB
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 200 |
'train' | 1838 |
'validation' | 200 |
- Struktura funkcji :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
metadane | FunkcjeDict | |||
metadane/wysokość | Napinacz | int32 | ||
metadane/liczba_ramek | Napinacz | int32 | ||
metadane/nazwa_wideo | Napinacz | strunowy | ||
metadane/szerokość | Napinacz | int32 | ||
utwory | Sekwencja | |||
tory/obszary | Sekwencja (Tensor) | (Nic,) | pływak32 | |
utwory/bboxy | Sekwencja (BBoxFeature) | (Brak, 4) | pływak32 | |
utwory/kategoria | Etykieta klasy | int64 | ||
tory/ramki | Sekwencja (Tensor) | (Nic,) | int32 | |
tory/jest_tłum | Napinacz | bool | ||
ścieżki/segmentacje | Wideo (obraz) | (Brak, Brak, Brak, 1) | uint8 | |
wideo | Wideo (obraz) | (Brak, Brak, Brak, 3) | uint8 |
- Przykłady ( tfds.as_dataframe ):
youtube_vis/480_640_full_train_split
Opis konfiguracji : Wszystkie obrazy są dwuliniowo zmieniane do rozdzielczości 480 X 640 z uwzględnieniem wszystkich klatek. Podziały val i test są tworzone na podstawie danych treningowych.
Rozmiar zestawu danych :
101.57 GiB
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 200 |
'train' | 1838 |
'validation' | 200 |
- Struktura funkcji :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
metadane | FunkcjeDict | |||
metadane/wysokość | Napinacz | int32 | ||
metadane/liczba_ramek | Napinacz | int32 | ||
metadane/nazwa_wideo | Napinacz | strunowy | ||
metadane/szerokość | Napinacz | int32 | ||
utwory | Sekwencja | |||
tory/obszary | Sekwencja (Tensor) | (Nic,) | pływak32 | |
utwory/bboxy | Sekwencja (BBoxFeature) | (Brak, 4) | pływak32 | |
utwory/kategoria | Etykieta klasy | int64 | ||
tory/ramki | Sekwencja (Tensor) | (Nic,) | int32 | |
tory/jest_tłum | Napinacz | bool | ||
ścieżki/segmentacje | Wideo (obraz) | (Brak, 480, 640, 1) | uint8 | |
wideo | Wideo (obraz) | (Brak, 480, 640, 3) | uint8 |
- Przykłady ( tfds.as_dataframe ):
youtube_vis/480_640_only_frames_with_labels_train_split
Opis konfiguracji : Wszystkie obrazy są dwuliniowo przeskalowane do 480 X 640 z dołączonymi tylko ramkami z etykietami. Podziały val i test są tworzone na podstawie danych treningowych.
Rozmiar zestawu danych :
20.55 GiB
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 200 |
'train' | 1838 |
'validation' | 200 |
- Struktura funkcji :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
metadane | FunkcjeDict | |||
metadane/wysokość | Napinacz | int32 | ||
metadane/liczba_ramek | Napinacz | int32 | ||
metadane/nazwa_wideo | Napinacz | strunowy | ||
metadane/szerokość | Napinacz | int32 | ||
utwory | Sekwencja | |||
tory/obszary | Sekwencja (Tensor) | (Nic,) | pływak32 | |
utwory/bboxy | Sekwencja (BBoxFeature) | (Brak, 4) | pływak32 | |
utwory/kategoria | Etykieta klasy | int64 | ||
tory/ramki | Sekwencja (Tensor) | (Nic,) | int32 | |
tory/jest_tłum | Napinacz | bool | ||
ścieżki/segmentacje | Wideo (obraz) | (Brak, 480, 640, 1) | uint8 | |
wideo | Wideo (obraz) | (Brak, 480, 640, 3) | uint8 |
- Przykłady ( tfds.as_dataframe ):
youtube_vis/only_frames_with_labels_train_split
Opis konfiguracji : tylko obrazy z dołączonymi etykietami w ich natywnej rozdzielczości. Podziały val i test są tworzone na podstawie danych treningowych.
Rozmiar zestawu danych :
5.46 GiB
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 200 |
'train' | 1838 |
'validation' | 200 |
- Struktura funkcji :
FeaturesDict({
'metadata': FeaturesDict({
'height': int32,
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'areas': Sequence(float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
'frames': Sequence(int32),
'is_crowd': bool,
'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
metadane | FunkcjeDict | |||
metadane/wysokość | Napinacz | int32 | ||
metadane/liczba_ramek | Napinacz | int32 | ||
metadane/nazwa_wideo | Napinacz | strunowy | ||
metadane/szerokość | Napinacz | int32 | ||
utwory | Sekwencja | |||
tory/obszary | Sekwencja (Tensor) | (Nic,) | pływak32 | |
utwory/bboxy | Sekwencja (BBoxFeature) | (Brak, 4) | pływak32 | |
utwory/kategoria | Etykieta klasy | int64 | ||
tory/ramki | Sekwencja (Tensor) | (Nic,) | int32 | |
tory/jest_tłum | Napinacz | bool | ||
ścieżki/segmentacje | Wideo (obraz) | (Brak, Brak, Brak, 1) | uint8 | |
wideo | Wideo (obraz) | (Brak, Brak, Brak, 3) | uint8 |
- Przykłady ( tfds.as_dataframe ):