genomika_ood

opis :

Identyfikacja bakterii oparta na sekwencjach genomowych daje nadzieję na wczesne wykrywanie chorób, ale wymaga modelu, który może generować prognozy o niskiej pewności co do sekwencji genomowych poza dystrybucją (OOD) z nowych bakterii, które nie były obecne w danych treningowych.

Wprowadzamy zestaw danych genomicznych do wykrywania OOD, który pozwala innym badaczom porównywać postępy w tym ważnym problemie. Z biegiem lat stopniowo odkrywane są nowe klasy bakterii. Grupowanie klas według lat jest naturalnym sposobem naśladowania przykładów w dystrybucji i OOD.

Zbiór danych zawiera sekwencje genomowe pobrane z 10 klas bakterii, które zostały odkryte przed 2011 rokiem jako klasy w dystrybucji, 60 klas bakterii odkrytych w latach 2011-2016 jako OOD do walidacji oraz kolejnych 60 różnych klas bakterii odkrytych po 2016 roku jako OOD do testów, łącznie 130 klas bakterii. Należy zauważyć, że dane szkoleniowe, walidacyjne i testowe są dostępne dla klas w dystrybucji, a dane walidacyjne i testowe są dostarczane dla klas OOD. Z natury dane OOD nie są dostępne w czasie szkolenia.

Sekwencja genomowa ma długość 250 i składa się ze znaków {A, C, G, T}. Wielkość próby każdej klasy wynosi 100 000 w przypadku treningu i 10 000 w przypadku zestawów walidacyjnych i testowych.

Dla każdego przykładu cechy obejmują: seq: wejściowa sekwencja DNA złożona z {A, C, G, T}. etykieta: nazwa klasy bakterii. seq_info: źródło sekwencji DNA, tj. nazwa genomu, numer dostępu NCBI i pozycja, z której została pobrana. domena: jeśli bakteria jest w dystrybucji (w) lub OOD (ood)

Szczegóły zestawu danych można znaleźć w suplemencie do artykułu.

Dodatkowa dokumentacja : Przeglądaj dokumenty z kodem na
Strona główna : https://github.com/google-research/google-research/tree/master/genomics_ood
Kod źródłowy : tfds.structured.GenomicsOod
Wersje :
- 0.0.1 (domyślnie): Brak informacji o wersji.
Rozmiar pliku do pobrania : Unknown size
Rozmiar zbioru danych : 926.87 MiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :

Rozdzielać	Przykłady
`'test'`	100 000
`'test_ood'`	600 000
`'train'`	1 000 000
`'validation'`	100 000
`'validation_ood'`	600 000

Struktura funkcji :

FeaturesDict({
    'domain': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=130),
    'seq': Text(shape=(), dtype=string),
    'seq_info': Text(shape=(), dtype=string),
})

Dokumentacja funkcji :

Funkcja	Klasa	Typ D
	FunkcjeDict
domena	Tekst	strunowy
etykieta	Etykieta klasy	int64
nast	Tekst	strunowy
seq_info	Tekst	strunowy

Nadzorowane klucze (patrz as_supervised doc ): ('seq', 'label')
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Przykłady ( tfds.as_dataframe ):

Cytat :

@inproceedings{ren2019likelihood,
  title={Likelihood ratios for out-of-distribution detection},
  author={Ren, Jie and
  Liu, Peter J and
  Fertig, Emily and
  Snoek, Jasper and
  Poplin, Ryan and
  Depristo, Mark and
  Dillon, Joshua and
  Lakshminarayanan, Balaji},
  booktitle={Advances in Neural Information Processing Systems},
  pages={14707--14718},
  year={2019}
}

genomika_ood Zadbaj o dobrą organizację dzięki kolekcji Zapisuj i kategoryzuj treści zgodnie ze swoimi preferencjami.

genomika_ood