ref_coco

  • Opis :

Zbiór 3 zestawów danych dotyczących wyrażeń odnoszących się do obrazów w zestawie danych COCO. Wyrażenie odsyłające to fragment tekstu opisujący unikalny obiekt na obrazie. Te zbiory danych są gromadzone poprzez proszenie osób oceniających o ujednoznacznienie obiektów wyznaczonych przez ramki ograniczające w zbiorze danych COCO.

RefCoco i RefCoco+ pochodzą od Kazemzadeha i in. 2014. Wyrażenia RefCoco+ są opisami ściśle opartymi na wyglądzie, co jest egzekwowane, uniemożliwiając oceniającym korzystanie z opisów opartych na lokalizacji (np. „osoba po prawej” nie jest prawidłowym opisem RefCoco+). RefCocoG pochodzi od Mao i in. 2016 i ma bogatszy opis obiektów w porównaniu do RefCoco ze względu na różnice w procesie adnotacji. W szczególności dane RefCoco zebrano w środowisku interaktywnym, podczas gdy RefCocoG zebrano w środowisku nieinteraktywnym. RefCocoG ma średnio 8,4 słowa na wyrażenie, podczas gdy RefCoco ma 3,5 słowa.

Każdy zbiór danych ma różne przydziały podziału, które zazwyczaj są podawane w artykułach. Zestawy „testA” i „testB” w RefCoco i RefCoco+ zawierają odpowiednio tylko osoby i tylko nieludzi. Obrazy są podzielone na różne części. W przypadku podziału „google” obiekty, a nie obrazy, są dzielone na części pociągowe i inne niż pociągowe. Oznacza to, że ten sam obraz może pojawić się zarówno w podziale pociągu, jak i walidacji, ale obiekty, do których odnosi się obraz, będą różne w obu zestawach. Natomiast „unc” i „umd” dzielą obrazy partycji pomiędzy pociąg, walidację i podział testowy. W RefCocoG podział „google” nie ma kanonicznego zestawu testów, a zestaw walidacyjny jest zwykle podawany w artykułach jako „val*”.

Statystyki dla każdego zbioru danych i podziału („refs” to liczba odwołujących się wyrażeń, a „obrazy” to liczba obrazów):

zbiór danych przegroda podział ref obrazy
refcoco Google pociąg 40000 19213
refcoco Google wal 5000 4559
refcoco Google test 5000 4527
refcoco wuj pociąg 42404 16994
refcoco wuj wal 3811 1500
refcoco wuj testA 1975 750
refcoco wuj testB 1810 750
refcoco+ wuj pociąg 42278 16992
refcoco+ wuj wal 3805 1500
refcoco+ wuj testA 1975 750
refcoco+ wuj testB 1798 750
refcocog Google pociąg 44822 24698
refcocog Google wal 5000 4650
refcocog umd pociąg 42226 21899
refcocog umd wal 2573 1300
refcocog umd test 5023 2600
  1. Postępuj zgodnie z instrukcjami PythonAPI w https://github.com/cocodataset/cocoapi , aby uzyskać pycocotools i plik adnotacji instancji_train2014 z https://cocodataset.org/#download

  2. Dodaj zarówno refer.py z (1), jak i pycocotools z (2) do swojego PYTHONPATH.

  3. Uruchom manual_download_process.py, aby wygenerować plik refcoco.json, zastępując ref_data_root , coco_annotations_file i out_file wartościami odpowiadającymi miejscu, gdzie pobrałeś/chcesz zapisać te pliki. Pamiętaj, że plik manual_download_process.py można znaleźć w repozytorium TFDS.

  4. Pobierz zestaw szkoleniowy COCO ze strony https://cocodataset.org/#download i wklej go do folderu o nazwie coco_train2014/ . Przenieś refcoco.json na ten sam poziom co coco_train2014 .

  5. Postępuj zgodnie ze standardowymi instrukcjami ręcznego pobierania.

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Struktura funkcji :

FeaturesDict({
    'coco_annotations': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'id': int64,
        'label': int64,
    }),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image/id': int64,
    'objects': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'gt_box_index': int64,
        'id': int64,
        'label': int64,
        'mask': Image(shape=(None, None, 3), dtype=uint8),
        'refexp': Sequence({
            'raw': Text(shape=(), dtype=string),
            'refexp_id': int64,
        }),
    }),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDykt
koko_adnotacje Sekwencja
coco_annotations/area Napinacz int64
coco_annotations/bbox Funkcja BBox (4,) pływak32
coco_annotations/id Napinacz int64
coco_annotations/label Napinacz int64
obraz Obraz (Brak, Brak, 3) uint8
obraz/identyfikator Napinacz int64
obiekty Sekwencja
obiekty/obszar Napinacz int64
obiekty/bbox Funkcja BBox (4,) pływak32
obiekty/gt_box_index Napinacz int64
obiekty/identyfikator Napinacz int64
obiekty/etykieta Napinacz int64
obiekty/maska Obraz (Brak, Brak, 3) uint8
obiekty/odruch Sekwencja
obiekty/refexp/raw Tekst strunowy
obiekty/refexp/idexp_refexp Napinacz int64
@inproceedings{kazemzadeh2014referitgame,
  title={Referitgame: Referring to objects in photographs of natural scenes},
  author={Kazemzadeh, Sahar and Ordonez, Vicente and Matten, Mark and Berg, Tamara},
  booktitle={Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP)},
  pages={787--798},
  year={2014}
}
@inproceedings{yu2016modeling,
  title={Modeling context in referring expressions},
  author={Yu, Licheng and Poirson, Patrick and Yang, Shan and Berg, Alexander C and Berg, Tamara L},
  booktitle={European Conference on Computer Vision},
  pages={69--85},
  year={2016},
  organization={Springer}
}
@inproceedings{mao2016generation,
  title={Generation and Comprehension of Unambiguous Object Descriptions},
  author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
  booktitle={CVPR},
  year={2016}
}
@inproceedings{nagaraja2016modeling,
  title={Modeling context between objects for referring expression understanding},
  author={Nagaraja, Varun K and Morariu, Vlad I and Davis, Larry S},
  booktitle={European Conference on Computer Vision},
  pages={792--807},
  year={2016},
  organization={Springer}
}

ref_coco/refcoco_unc (konfiguracja domyślna)

  • Rozmiar zbioru danych : 3.29 GiB

  • Podziały :

Podział Przykłady
'testA' 750
'testB' 750
'train' 16 994
'validation' 1500

Wyobrażanie sobie

ref_coco/refcoco_google

  • Rozmiar zbioru danych : 4.65 GiB

  • Podziały :

Podział Przykłady
'test' 4527
'train' 19213
'validation' 4559

Wyobrażanie sobie

ref_coco/refcocoplus_unc

  • Rozmiar zbioru danych : 3.29 GiB

  • Podziały :

Podział Przykłady
'testA' 750
'testB' 750
'train' 16 992
'validation' 1500

Wyobrażanie sobie

ref_coco/refcocog_google

  • Rozmiar zbioru danych : 4.64 GiB

  • Podziały :

Podział Przykłady
'train' 24 698
'validation' 4650

Wyobrażanie sobie

ref_coco/refcocog_umd

  • Rozmiar zbioru danych : 4.08 GiB

  • Podziały :

Podział Przykłady
'test' 2600
'train' 21 899
'validation' 1300

Wyobrażanie sobie