- opis :
Zbiór danych Image Text (WIT) oparty na Wikipedii to duży, multimodalny, wielojęzyczny zbiór danych. WIT składa się z wyselekcjonowanego zestawu 37,6 miliona bogatych w jednostki przykładów obrazowo-tekstowych z 11,5 milionami unikalnych obrazów w 108 językach Wikipedii. Jego rozmiar umożliwia wykorzystanie WIT jako wstępnego zbioru danych dla multimodalnych modeli uczenia maszynowego.
Dodatkowa dokumentacja : Przeglądaj dokumenty z kodem na
Strona główna : https://github.com/google-research-datasets/wit/
Kod źródłowy :
tfds.vision_language.wit.Wit
Wersje :
-
1.0.0
: Pierwsza wersja. Ładuje zestaw danych WIT z https://storage.googleapis.com/gresearch/wit/ -
1.1.0
(domyślnie): Dodanoval
wartości itest
.
-
Rozmiar pliku do pobrania :
25.20 GiB
Rozmiar zestawu danych :
81.17 GiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 210166 |
'train' | 37 046 386 |
'val' | 261024 |
- Struktura funkcji :
FeaturesDict({
'attribution_passes_lang_id': bool,
'caption_alt_text_description': Text(shape=(), dtype=string),
'caption_attribution_description': Text(shape=(), dtype=string),
'caption_reference_description': Text(shape=(), dtype=string),
'context_page_description': Text(shape=(), dtype=string),
'context_section_description': Text(shape=(), dtype=string),
'hierarchical_section_title': Text(shape=(), dtype=string),
'image_url': Text(shape=(), dtype=string),
'is_main_image': bool,
'language': Text(shape=(), dtype=string),
'mime_type': Text(shape=(), dtype=string),
'original_height': int32,
'original_width': int32,
'page_changed_recently': bool,
'page_title': Text(shape=(), dtype=string),
'page_url': Text(shape=(), dtype=string),
'section_title': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
attribution_passes_lang_id | Napinacz | bool | ||
caption_alt_text_description | Tekst | strunowy | ||
caption_attribution_description | Tekst | strunowy | ||
caption_reference_description | Tekst | strunowy | ||
context_page_description | Tekst | strunowy | ||
opis_kontekstu_sekcji | Tekst | strunowy | ||
hierarchiczny_tytuł_sekcji | Tekst | strunowy | ||
obraz_url | Tekst | strunowy | ||
is_main_image | Napinacz | bool | ||
język | Tekst | strunowy | ||
typ_mima | Tekst | strunowy | ||
oryginalna_wysokość | Napinacz | int32 | ||
oryginalna_szerokość | Napinacz | int32 | ||
ostatnio zmieniona_strona | Napinacz | bool | ||
tytuł strony | Tekst | strunowy | ||
Strona URL | Tekst | strunowy | ||
Tytuł sekcji | Tekst | strunowy |
Klucze nadzorowane (Zobacz dokument
as_supervised
):None
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Przykłady ( tfds.as_dataframe ):
- Cytat :
@article{srinivasan2021wit,
title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
journal={arXiv preprint arXiv:2103.01913},
year={2021}
}