ref_coco

  • Описание :

Коллекция из трех наборов данных ссылающихся выражений, основанных на изображениях в наборе данных COCO. Ссылающееся выражение — это фрагмент текста, описывающий уникальный объект на изображении. Эти наборы данных собираются путем просьбы оценщиков устранить неоднозначность объектов, очерченных ограничивающими рамками в наборе данных COCO.

RefCoco и RefCoco+ предоставлены Каземзаде и др. 2014. Выражения RefCoco+ представляют собой описания, основанные исключительно на внешнем виде, которые они обеспечивают, не позволяя оценщикам использовать описания на основе местоположения (например, «человек справа» не является допустимым описанием для RefCoco+). RefCocoG от Mao et al. 2016 и имеет более подробное описание объектов по сравнению с RefCoco из-за различий в процессе аннотирования. В частности, RefCoco был собран в интерактивной игровой среде, а RefCocoG — в неинтерактивной. В среднем RefCocoG содержит 8,4 слова на выражение, а RefCoco — 3,5 слова.

Каждый набор данных имеет различные распределения, о которых обычно сообщается в документах. Наборы «testA» и «testB» в RefCoco и RefCoco+ содержат только людей и только нелюдей соответственно. Изображения разделены на различные части. При разделении «Google» объекты, а не изображения, распределяются между разделами «поезд» и «не-поезд». Это означает, что одно и то же изображение может появиться как в разделении поезда, так и в разделении проверки, но объекты, на которые ссылается изображение, в этих двух наборах будут разными. Напротив, «unc» и «umd» разделяют образы разделов между обучающим, проверочным и тестовым разделением. В RefCocoG разделение «google» не имеет канонического набора тестов, а набор проверки обычно обозначается в статьях как «val*».

Статистика для каждого набора данных и разделения («refs» — количество ссылающихся выражений, а «images» — количество изображений):

набор данных раздел расколоть ссылки изображений
рефкоко Google тренироваться 40000 19213
рефкоко Google вал 5000 4559
рефкоко Google тест 5000 4527
рефкоко дядя тренироваться 42404 16994
рефкоко дядя вал 3811 1500
рефкоко дядя тестА 1975 год 750
рефкоко дядя тестБ 1810 г. 750
рефкоко+ дядя тренироваться 42278 16992
рефкоко+ дядя вал 3805 1500
рефкоко+ дядя тестА 1975 год 750
рефкоко+ дядя тестБ 1798 г. 750
рефкоког Google тренироваться 44822 24698
рефкоког Google вал 5000 4650
рефкоког умд тренироваться 42226 21899
рефкоког умд вал 2573 1300
рефкоког умд тест 5023 2600
  • Дополнительная документация : Изучите статьи с кодом

  • Домашняя страница : https://github.com/lichengunc/refer .

  • Исходный код : tfds.datasets.ref_coco.Builder

  • Версии :

    • 1.0.0 : Начальная версия.
    • 1.1.0 (по умолчанию): Добавлены маски.
  • Размер загрузки : Unknown size

  • Инструкции по загрузке вручную : этот набор данных требует, чтобы вы вручную загрузили исходные данные в download_config.manual_dir (по умолчанию ~/tensorflow_datasets/downloads/manual/ ):

  • Следуйте инструкциям в https://github.com/lichengunc/refer и загрузите аннотации и изображения, соответствующие каталогу data/, указанному в репозитории.

  1. Следуйте инструкциям PythonAPI в https://github.com/cocodataset/cocoapi , чтобы получить pycocotools и файл аннотаций instances_train2014 с https://cocodataset.org/#download.

  2. Добавьте в свой PYTHONPATH оба файла Refer.py из (1) и pycocotools из (2).

  3. Запустите файл manual_download_process.py, чтобы сгенерировать refcoco.json, заменив ref_data_root , coco_annotations_file и out_file значениями, соответствующими тому месту, где вы загрузили или хотите сохранить эти файлы. Обратите внимание, что файл manual_download_process.py можно найти в репозитории TFDS.

  4. Загрузите обучающий набор COCO с https://cocodataset.org/#download и вставьте его в папку coco_train2014/ . Переместите refcoco.json на тот же уровень, что и coco_train2014 .

  5. Следуйте стандартным инструкциям по загрузке вручную.

FeaturesDict({
    'coco_annotations': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'id': int64,
        'label': int64,
    }),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image/id': int64,
    'objects': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'gt_box_index': int64,
        'id': int64,
        'label': int64,
        'mask': Image(shape=(None, None, 3), dtype=uint8),
        'refexp': Sequence({
            'raw': Text(shape=(), dtype=string),
            'refexp_id': int64,
        }),
    }),
})
  • Функциональная документация :
Особенность Сорт Форма Дтип Описание
ВозможностиDict
coco_annotations Последовательность
coco_annotations/область Тензор int64
coco_annotations/bbox BBoxFeature (4,) поплавок32
coco_annotations/id Тензор int64
coco_annotations/метка Тензор int64
изображение Изображение (Нет, Нет, 3) uint8
изображение/идентификатор Тензор int64
объекты Последовательность
объекты/площадь Тензор int64
объекты/bbox BBoxFeature (4,) поплавок32
объекты/gt_box_index Тензор int64
объекты/идентификатор Тензор int64
объекты/метка Тензор int64
объекты/маска Изображение (Нет, Нет, 3) uint8
объекты/рефлексия Последовательность
объекты/refexp/raw Текст нить
объекты/refexp/refexp_id Тензор int64
@inproceedings{kazemzadeh2014referitgame,
  title={Referitgame: Referring to objects in photographs of natural scenes},
  author={Kazemzadeh, Sahar and Ordonez, Vicente and Matten, Mark and Berg, Tamara},
  booktitle={Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP)},
  pages={787--798},
  year={2014}
}
@inproceedings{yu2016modeling,
  title={Modeling context in referring expressions},
  author={Yu, Licheng and Poirson, Patrick and Yang, Shan and Berg, Alexander C and Berg, Tamara L},
  booktitle={European Conference on Computer Vision},
  pages={69--85},
  year={2016},
  organization={Springer}
}
@inproceedings{mao2016generation,
  title={Generation and Comprehension of Unambiguous Object Descriptions},
  author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
  booktitle={CVPR},
  year={2016}
}
@inproceedings{nagaraja2016modeling,
  title={Modeling context between objects for referring expression understanding},
  author={Nagaraja, Varun K and Morariu, Vlad I and Davis, Larry S},
  booktitle={European Conference on Computer Vision},
  pages={792--807},
  year={2016},
  organization={Springer}
}

ref_coco/refcoco_unc (конфигурация по умолчанию)

  • Размер набора данных : 3.29 GiB

  • Расколы :

Расколоть Примеры
'testA' 750
'testB' 750
'train' 16 994
'validation' 1500

Визуализация

ref_coco/refcoco_google

  • Размер набора данных : 4.65 GiB

  • Расколы :

Расколоть Примеры
'test' 4527
'train' 19 213
'validation' 4559

Визуализация

ref_coco/refcocoplus_unc

  • Размер набора данных : 3.29 GiB

  • Расколы :

Расколоть Примеры
'testA' 750
'testB' 750
'train' 16 992
'validation' 1500

Визуализация

ref_coco/refcocog_google

  • Размер набора данных : 4.64 GiB

  • Расколы :

Расколоть Примеры
'train' 24 698
'validation' 4650

Визуализация

ref_coco/refcocog_umd

  • Размер набора данных : 4.08 GiB

  • Расколы :

Расколоть Примеры
'test' 2600
'train' 21 899
'validation' 1300

Визуализация