genomika_ood

  • opis :

Identyfikacja bakterii oparta na sekwencjach genomowych daje nadzieję na wczesne wykrywanie chorób, ale wymaga modelu, który może generować prognozy o niskiej pewności co do sekwencji genomowych poza dystrybucją (OOD) z nowych bakterii, które nie były obecne w danych treningowych.

Wprowadzamy zestaw danych genomicznych do wykrywania OOD, który pozwala innym badaczom porównywać postępy w tym ważnym problemie. Z biegiem lat stopniowo odkrywane są nowe klasy bakterii. Grupowanie klas według lat jest naturalnym sposobem naśladowania przykładów w dystrybucji i OOD.

Zbiór danych zawiera sekwencje genomowe pobrane z 10 klas bakterii, które zostały odkryte przed 2011 rokiem jako klasy w dystrybucji, 60 klas bakterii odkrytych w latach 2011-2016 jako OOD do walidacji oraz kolejnych 60 różnych klas bakterii odkrytych po 2016 roku jako OOD do testów, łącznie 130 klas bakterii. Należy zauważyć, że dane szkoleniowe, walidacyjne i testowe są dostępne dla klas w dystrybucji, a dane walidacyjne i testowe są dostarczane dla klas OOD. Z natury dane OOD nie są dostępne w czasie szkolenia.

Sekwencja genomowa ma długość 250 i składa się ze znaków {A, C, G, T}. Wielkość próby każdej klasy wynosi 100 000 w przypadku treningu i 10 000 w przypadku zestawów walidacyjnych i testowych.

Dla każdego przykładu cechy obejmują: seq: wejściowa sekwencja DNA złożona z {A, C, G, T}. etykieta: nazwa klasy bakterii. seq_info: źródło sekwencji DNA, tj. nazwa genomu, numer dostępu NCBI i pozycja, z której została pobrana. domena: jeśli bakteria jest w dystrybucji (w) lub OOD (ood)

Szczegóły zestawu danych można znaleźć w suplemencie do artykułu.

Rozdzielać Przykłady
'test' 100 000
'test_ood' 600 000
'train' 1 000 000
'validation' 100 000
'validation_ood' 600 000
  • Struktura funkcji :
FeaturesDict({
    'domain': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=130),
    'seq': Text(shape=(), dtype=string),
    'seq_info': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
domena Tekst strunowy
etykieta Etykieta klasy int64
nast Tekst strunowy
seq_info Tekst strunowy
  • Cytat :
@inproceedings{ren2019likelihood,
  title={Likelihood ratios for out-of-distribution detection},
  author={Ren, Jie and
  Liu, Peter J and
  Fertig, Emily and
  Snoek, Jasper and
  Poplin, Ryan and
  Depristo, Mark and
  Dillon, Joshua and
  Lakshminarayanan, Balaji},
  booktitle={Advances in Neural Information Processing Systems},
  pages={14707--14718},
  year={2019}
}