- Описание :
Коллекция из трех наборов данных ссылающихся выражений, основанных на изображениях в наборе данных COCO. Ссылающееся выражение — это фрагмент текста, описывающий уникальный объект на изображении. Эти наборы данных собираются путем просьбы оценщиков устранить неоднозначность объектов, очерченных ограничивающими рамками в наборе данных COCO.
RefCoco и RefCoco+ предоставлены Каземзаде и др. 2014. Выражения RefCoco+ представляют собой описания, основанные исключительно на внешнем виде, которые они обеспечивают, не позволяя оценщикам использовать описания на основе местоположения (например, «человек справа» не является допустимым описанием для RefCoco+). RefCocoG от Mao et al. 2016 и имеет более подробное описание объектов по сравнению с RefCoco из-за различий в процессе аннотирования. В частности, RefCoco был собран в интерактивной игровой среде, а RefCocoG — в неинтерактивной. В среднем RefCocoG содержит 8,4 слова на выражение, а RefCoco — 3,5 слова.
Каждый набор данных имеет различные распределения, о которых обычно сообщается в документах. Наборы «testA» и «testB» в RefCoco и RefCoco+ содержат только людей и только нелюдей соответственно. Изображения разделены на различные части. При разделении «Google» объекты, а не изображения, распределяются между разделами «поезд» и «не-поезд». Это означает, что одно и то же изображение может появиться как в разделении поезда, так и в разделении проверки, но объекты, на которые ссылается изображение, в этих двух наборах будут разными. Напротив, «unc» и «umd» разделяют образы разделов между обучающим, проверочным и тестовым разделением. В RefCocoG разделение «google» не имеет канонического набора тестов, а набор проверки обычно обозначается в статьях как «val*».
Статистика для каждого набора данных и разделения («refs» — количество ссылающихся выражений, а «images» — количество изображений):
набор данных | раздел | расколоть | ссылки | изображений |
---|---|---|---|---|
рефкоко | тренироваться | 40000 | 19213 | |
рефкоко | вал | 5000 | 4559 | |
рефкоко | тест | 5000 | 4527 | |
рефкоко | дядя | тренироваться | 42404 | 16994 |
рефкоко | дядя | вал | 3811 | 1500 |
рефкоко | дядя | тестА | 1975 год | 750 |
рефкоко | дядя | тестБ | 1810 г. | 750 |
рефкоко+ | дядя | тренироваться | 42278 | 16992 |
рефкоко+ | дядя | вал | 3805 | 1500 |
рефкоко+ | дядя | тестА | 1975 год | 750 |
рефкоко+ | дядя | тестБ | 1798 г. | 750 |
рефкоког | тренироваться | 44822 | 24698 | |
рефкоког | вал | 5000 | 4650 | |
рефкоког | умд | тренироваться | 42226 | 21899 |
рефкоког | умд | вал | 2573 | 1300 |
рефкоког | умд | тест | 5023 | 2600 |
Дополнительная документация : Изучите статьи с кодом
Домашняя страница : https://github.com/lichengunc/refer .
Исходный код :
tfds.datasets.ref_coco.Builder
Версии :
-
1.0.0
: Начальная версия. -
1.1.0
(по умолчанию): Добавлены маски.
-
Размер загрузки :
Unknown size
Инструкции по загрузке вручную : этот набор данных требует, чтобы вы вручную загрузили исходные данные в
download_config.manual_dir
(по умолчанию~/tensorflow_datasets/downloads/manual/
):Следуйте инструкциям в https://github.com/lichengunc/refer и загрузите аннотации и изображения, соответствующие каталогу data/, указанному в репозитории.
Следуйте инструкциям PythonAPI в https://github.com/cocodataset/cocoapi , чтобы получить pycocotools и файл аннотаций instances_train2014 с https://cocodataset.org/#download.
Добавьте в свой PYTHONPATH оба файла Refer.py из (1) и pycocotools из (2).
Запустите файл manual_download_process.py, чтобы сгенерировать refcoco.json, заменив
ref_data_root
,coco_annotations_file
иout_file
значениями, соответствующими тому месту, где вы загрузили или хотите сохранить эти файлы. Обратите внимание, что файл manual_download_process.py можно найти в репозитории TFDS.Загрузите обучающий набор COCO с https://cocodataset.org/#download и вставьте его в папку
coco_train2014/
. Переместитеrefcoco.json
на тот же уровень, что иcoco_train2014
.Следуйте стандартным инструкциям по загрузке вручную.
Автокэширование ( документация ): Нет
Структура функции :
FeaturesDict({
'coco_annotations': Sequence({
'area': int64,
'bbox': BBoxFeature(shape=(4,), dtype=float32),
'id': int64,
'label': int64,
}),
'image': Image(shape=(None, None, 3), dtype=uint8),
'image/id': int64,
'objects': Sequence({
'area': int64,
'bbox': BBoxFeature(shape=(4,), dtype=float32),
'gt_box_index': int64,
'id': int64,
'label': int64,
'mask': Image(shape=(None, None, 3), dtype=uint8),
'refexp': Sequence({
'raw': Text(shape=(), dtype=string),
'refexp_id': int64,
}),
}),
})
- Функциональная документация :
Особенность | Сорт | Форма | Дтип | Описание |
---|---|---|---|---|
ВозможностиDict | ||||
coco_annotations | Последовательность | |||
coco_annotations/область | Тензор | int64 | ||
coco_annotations/bbox | BBoxFeature | (4,) | поплавок32 | |
coco_annotations/id | Тензор | int64 | ||
coco_annotations/метка | Тензор | int64 | ||
изображение | Изображение | (Нет, Нет, 3) | uint8 | |
изображение/идентификатор | Тензор | int64 | ||
объекты | Последовательность | |||
объекты/площадь | Тензор | int64 | ||
объекты/bbox | BBoxFeature | (4,) | поплавок32 | |
объекты/gt_box_index | Тензор | int64 | ||
объекты/идентификатор | Тензор | int64 | ||
объекты/метка | Тензор | int64 | ||
объекты/маска | Изображение | (Нет, Нет, 3) | uint8 | |
объекты/рефлексия | Последовательность | |||
объекты/refexp/raw | Текст | нить | ||
объекты/refexp/refexp_id | Тензор | int64 |
Контролируемые ключи (см. документ
as_supervised
):None
Цитата :
@inproceedings{kazemzadeh2014referitgame,
title={Referitgame: Referring to objects in photographs of natural scenes},
author={Kazemzadeh, Sahar and Ordonez, Vicente and Matten, Mark and Berg, Tamara},
booktitle={Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP)},
pages={787--798},
year={2014}
}
@inproceedings{yu2016modeling,
title={Modeling context in referring expressions},
author={Yu, Licheng and Poirson, Patrick and Yang, Shan and Berg, Alexander C and Berg, Tamara L},
booktitle={European Conference on Computer Vision},
pages={69--85},
year={2016},
organization={Springer}
}
@inproceedings{mao2016generation,
title={Generation and Comprehension of Unambiguous Object Descriptions},
author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
booktitle={CVPR},
year={2016}
}
@inproceedings{nagaraja2016modeling,
title={Modeling context between objects for referring expression understanding},
author={Nagaraja, Varun K and Morariu, Vlad I and Davis, Larry S},
booktitle={European Conference on Computer Vision},
pages={792--807},
year={2016},
organization={Springer}
}
ref_coco/refcoco_unc (конфигурация по умолчанию)
Размер набора данных :
3.29 GiB
Расколы :
Расколоть | Примеры |
---|---|
'testA' | 750 |
'testB' | 750 |
'train' | 16 994 |
'validation' | 1500 |
- Рисунок ( tfds.show_examples ):
- Примеры ( tfds.as_dataframe ):
ref_coco/refcoco_google
Размер набора данных :
4.65 GiB
Расколы :
Расколоть | Примеры |
---|---|
'test' | 4527 |
'train' | 19 213 |
'validation' | 4559 |
- Рисунок ( tfds.show_examples ):
- Примеры ( tfds.as_dataframe ):
ref_coco/refcocoplus_unc
Размер набора данных :
3.29 GiB
Расколы :
Расколоть | Примеры |
---|---|
'testA' | 750 |
'testB' | 750 |
'train' | 16 992 |
'validation' | 1500 |
- Рисунок ( tfds.show_examples ):
- Примеры ( tfds.as_dataframe ):
ref_coco/refcocog_google
Размер набора данных :
4.64 GiB
Расколы :
Расколоть | Примеры |
---|---|
'train' | 24 698 |
'validation' | 4650 |
- Рисунок ( tfds.show_examples ):
- Примеры ( tfds.as_dataframe ):
ref_coco/refcocog_umd
Размер набора данных :
4.08 GiB
Расколы :
Расколоть | Примеры |
---|---|
'test' | 2600 |
'train' | 21 899 |
'validation' | 1300 |
- Рисунок ( tfds.show_examples ):
- Примеры ( tfds.as_dataframe ):