- opis :
Controlled Noisy Web Labels to zbiór ~212 000 adresów URL do obrazów, w których każdy obraz jest starannie opatrzony adnotacjami przez 3-5 specjalistów od etykietowania w usłudze Google Cloud Data Labeling Service. Korzystając z tych adnotacji, ustanawia pierwszy punkt odniesienia dla kontrolowanego rzeczywistego szumu etykiet z sieci.
Zapewniamy konfiguracje Red Mini-ImageNet (rzeczywisty szum sieciowy) i Blue Mini-ImageNet: - kontrolowane_noisy_web_labels/mini_imagenet_red - kontrolowane_noisy_web_labels/mini_imagenet_blue
Każda konfiguracja zawiera dziesięć wariantów z dziesięcioma poziomami hałasu p od 0% do 80%. Zestaw sprawdzania poprawności ma czyste etykiety i jest współużytkowany przez wszystkie hałaśliwe zestawy szkoleniowe. Dlatego każda konfiguracja ma następujące podziały:
- pociąg_00
- pociąg_05
- pociąg_10
- pociąg_15
- pociąg_20
- pociąg_30
- pociąg_40
- pociąg_50
- pociąg_60
- pociąg_80
- walidacja
Szczegóły dotyczące konstrukcji i analizy zbioru danych można znaleźć w artykule. Wszystkie obrazy są przeskalowane do rozdzielczości 84x84.
Strona główna : https://google.github.io/controled-noisy-web-labels/index.html
Kod źródłowy :
tfds.image_classification.controlled_noisy_web_labels.ControlledNoisyWebLabels
Wersje :
-
1.0.0
(domyślnie): Wersja początkowa.
-
Rozmiar pliku do pobrania :
1.83 MiB
Instrukcje ręcznego pobierania : ten zestaw danych wymaga ręcznego pobrania danych źródłowych do katalogu
download_config.manual_dir
(domyślnie~/tensorflow_datasets/downloads/manual/
):
W celu ręcznego pobrania tych danych użytkownik musi wykonać następujące czynności:
- Pobierz podziały i adnotacje tutaj
- Wyodrębnij dataset_no_images.zip do dataset_no_images/.
- Pobierz wszystkie obrazy w dataset_no_images/mini-imagenet-annotations.json do nowego folderu o nazwie dataset_no_images/noisy_images/. Nazwa pliku wyjściowego musi być zgodna z identyfikatorem obrazu podanym w pliku mini-imagenet-annotations.json. Na przykład, jeśli „image/id”: „5922767e5677aef4”, pobrany obraz powinien mieć postać dataset_no_images/noisy_images/5922767e5677aef4.jpg. 4. Zarejestruj się na https://image-net.org/download-images i pobierz ILSVRC2012_img_train.tar i ILSVRC2012_img_val.tar.
Powstała struktura katalogów może być następnie przetwarzana przez TFDS:
- dataset_no_images/
- mini-imagenet/
- nazwa_klasy.txt
- rozdzielać/
- blue_noise_nl_0.0
- blue_noise_nl_0.1
- ...
- red_noise_nl_0.0
- red_noise_nl_0.1
- ...
- czyste_walidacja
- mini-imagenet-annotations.json
- ILSVRC2012_img_train.tar
- ILSVRC2012_img_val.tar
hałaśliwe_obrazy/
- 5922767e5677aef4.jpg
Automatyczne buforowanie ( dokumentacja ): Nie
Struktura funkcji :
FeaturesDict({
'id': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'is_clean': bool,
'label': ClassLabel(shape=(), dtype=int64, num_classes=100),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
ID | Tekst | strunowy | ||
obraz | Obraz | (Brak, Brak, 3) | uint8 | |
to czyste | Napinacz | bool | ||
etykieta | Etykieta klasy | int64 |
Klucze nadzorowane (zobacz dokument
as_supervised
):('image', 'label')
Cytat :
@inproceedings{jiang2020beyond,
title={Beyond synthetic noise: Deep learning on controlled noisy labels},
author={Jiang, Lu and Huang, Di and Liu, Mason and Yang, Weilong},
booktitle={International Conference on Machine Learning},
pages={4804--4815},
year={2020},
organization={PMLR}
}
kontrolowane_noisy_web_labels/mini_imagenet_red (domyślna konfiguracja)
Rozmiar zestawu danych :
1.19 GiB
Podziały :
Rozdzielać | Przykłady |
---|---|
'train_00' | 50 000 |
'train_05' | 50 000 |
'train_10' | 50 000 |
'train_15' | 50 000 |
'train_20' | 50 000 |
'train_30' | 49 985 |
'train_40' | 50 010 |
'train_50' | 49962 |
'train_60' | 50 000 |
'train_80' | 50 008 |
'validation' | 5000 |
- Rysunek ( tfds.show_examples ):
- Przykłady ( tfds.as_dataframe ):
kontrolowane_noisy_web_labels/mini_imagenet_blue
Rozmiar zestawu danych :
1.39 GiB
Podziały :
Rozdzielać | Przykłady |
---|---|
'train_00' | 60 000 |
'train_05' | 60 000 |
'train_10' | 60 000 |
'train_15' | 60 000 |
'train_20' | 60 000 |
'train_30' | 60 000 |
'train_40' | 60 000 |
'train_50' | 60 000 |
'train_60' | 60 000 |
'train_80' | 60 000 |
'validation' | 5000 |
- Rysunek ( tfds.show_examples ):
- Przykłady ( tfds.as_dataframe ):