- opis :
Identyfikacja bakterii oparta na sekwencjach genomowych daje nadzieję na wczesne wykrywanie chorób, ale wymaga modelu, który może generować prognozy o niskiej pewności co do sekwencji genomowych poza dystrybucją (OOD) z nowych bakterii, które nie były obecne w danych treningowych.
Wprowadzamy zestaw danych genomicznych do wykrywania OOD, który pozwala innym badaczom porównywać postępy w tym ważnym problemie. Z biegiem lat stopniowo odkrywane są nowe klasy bakterii. Grupowanie klas według lat jest naturalnym sposobem naśladowania przykładów w dystrybucji i OOD.
Zbiór danych zawiera sekwencje genomowe pobrane z 10 klas bakterii, które zostały odkryte przed 2011 rokiem jako klasy w dystrybucji, 60 klas bakterii odkrytych w latach 2011-2016 jako OOD do walidacji oraz kolejnych 60 różnych klas bakterii odkrytych po 2016 roku jako OOD do testów, łącznie 130 klas bakterii. Należy zauważyć, że dane szkoleniowe, walidacyjne i testowe są dostępne dla klas w dystrybucji, a dane walidacyjne i testowe są dostarczane dla klas OOD. Z natury dane OOD nie są dostępne w czasie szkolenia.
Sekwencja genomowa ma długość 250 i składa się ze znaków {A, C, G, T}. Wielkość próby każdej klasy wynosi 100 000 w przypadku treningu i 10 000 w przypadku zestawów walidacyjnych i testowych.
Dla każdego przykładu cechy obejmują: seq: wejściowa sekwencja DNA złożona z {A, C, G, T}. etykieta: nazwa klasy bakterii. seq_info: źródło sekwencji DNA, tj. nazwa genomu, numer dostępu NCBI i pozycja, z której została pobrana. domena: jeśli bakteria jest w dystrybucji (w) lub OOD (ood)
Szczegóły zestawu danych można znaleźć w suplemencie do artykułu.
Dodatkowa dokumentacja : Przeglądaj dokumenty z kodem na
Strona główna : https://github.com/google-research/google-research/tree/master/genomics_ood
Kod źródłowy :
tfds.structured.GenomicsOod
Wersje :
-
0.0.1
(domyślnie): Brak informacji o wersji.
-
Rozmiar pliku do pobrania :
Unknown size
Rozmiar zbioru danych :
926.87 MiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 100 000 |
'test_ood' | 600 000 |
'train' | 1 000 000 |
'validation' | 100 000 |
'validation_ood' | 600 000 |
- Struktura funkcji :
FeaturesDict({
'domain': Text(shape=(), dtype=string),
'label': ClassLabel(shape=(), dtype=int64, num_classes=130),
'seq': Text(shape=(), dtype=string),
'seq_info': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
domena | Tekst | strunowy | ||
etykieta | Etykieta klasy | int64 | ||
nast | Tekst | strunowy | ||
seq_info | Tekst | strunowy |
Nadzorowane klucze (patrz
as_supervised
doc ):('seq', 'label')
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Przykłady ( tfds.as_dataframe ):
- Cytat :
@inproceedings{ren2019likelihood,
title={Likelihood ratios for out-of-distribution detection},
author={Ren, Jie and
Liu, Peter J and
Fertig, Emily and
Snoek, Jasper and
Poplin, Ryan and
Depristo, Mark and
Dillon, Joshua and
Lakshminarayanan, Balaji},
booktitle={Advances in Neural Information Processing Systems},
pages={14707--14718},
year={2019}
}