- Opis :
Kitti zawiera zestaw zadań wizyjnych zbudowanych przy użyciu platformy autonomicznej jazdy. Pełny test porównawczy obejmuje wiele zadań, takich jak stereo, przepływ optyczny, odometria wizualna itp. Ten zbiór danych zawiera zbiór danych dotyczących wykrywania obiektów, w tym obrazy jednooczne i ramki ograniczające. Zbiór danych zawiera 7481 obrazów szkoleniowych opatrzonych adnotacjami z ramkami ograniczającymi 3D. Pełny opis adnotacji można znaleźć w pliku Readme zestawu do tworzenia obiektów na stronie głównej Kitti.
Dodatkowa dokumentacja : Eksploruj w dokumentach z kodem
Strona główna : http://www.cvlibs.net/datasets/kitti/
Kod źródłowy :
tfds.datasets.kitti.Builder
Wersje :
-
3.1.0
: Brak informacji o wydaniu. -
3.2.0
: Zaktualizowano Devkit. -
3.3.0
(domyślnie): Dodano etykiety dlaoccluded
obiektu.
-
Rozmiar pobierania :
11.71 GiB
Rozmiar zbioru danych :
5.27 GiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Podział | Przykłady |
---|---|
'test' | 711 |
'train' | 6347 |
'validation' | 423 |
- Struktura funkcji :
FeaturesDict({
'image': Image(shape=(None, None, 3), dtype=uint8),
'image/file_name': Text(shape=(), dtype=string),
'objects': Sequence({
'alpha': float32,
'bbox': BBoxFeature(shape=(4,), dtype=float32, description=2D bounding box of object in the image),
'dimensions': Tensor(shape=(3,), dtype=float32, description=3D object dimensions: height, width, length (in meters)),
'location': Tensor(shape=(3,), dtype=float32, description=3D object location x,y,z in camera coordinates (in meters)),
'occluded': ClassLabel(shape=(), dtype=int64, num_classes=4),
'rotation_y': float32,
'truncated': float32,
'type': ClassLabel(shape=(), dtype=int64, num_classes=8),
}),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDykt | ||||
obraz | Obraz | (Brak, Brak, 3) | uint8 | |
obraz/nazwa_pliku | Tekst | smyczkowy | ||
obiekty | Sekwencja | |||
obiekty/alfa | Napinacz | pływak32 | Kąt obserwacji obiektu, w zakresie [-pi..pi] | |
obiekty/bbox | Funkcja BBox | (4,) | pływak32 | Obwiednia 2D obiektu na obrazie |
obiekty/wymiary | Napinacz | (3,) | pływak32 | Wymiary obiektu 3D: wysokość, szerokość, długość (w metrach) |
obiekty/lokalizacja | Napinacz | (3,) | pływak32 | Lokalizacja obiektu 3D x, y, z we współrzędnych kamery (w metrach) |
obiekty/zasłonięte | Etykieta klasy | int64 | Liczba całkowita (0,1,2,3) wskazująca stan okluzji: 0 = całkowicie widoczny, 1 = częściowo okluzja2 = w dużym stopniu okluzja, 3 = nieznany | |
obiekty/obrót_y | Napinacz | pływak32 | Obrót ry wokół osi Y we współrzędnych kamery [-pi..pi] | |
obiekty/obcięte | Napinacz | pływak32 | Float od 0 (nieobcięty) do 1 (obcięty), gdzie obcięty odnosi się do obiektu opuszczającego granice obrazu | |
obiekty/typ | Etykieta klasy | int64 | Rodzaj obiektu, np. „Samochód” lub „Van” |
Klucze nadzorowane (zobacz dokument
as_supervised
):None
Rysunek ( tfds.show_examples ):
- Przykłady ( tfds.as_dataframe ):
- Cytat :
@inproceedings{Geiger2012CVPR,
author = {Andreas Geiger and Philip Lenz and Raquel Urtasun},
title = {Are we ready for Autonomous Driving? The KITTI Vision Benchmark Suite},
booktitle = {Conference on Computer Vision and Pattern Recognition (CVPR)},
year = {2012}
}