- opis :
Zbiór danych dotyczących kardiotoksyczności leku [1-2] to zadanie klasyfikacji cząsteczek w celu wykrycia kardiotoksyczności spowodowanej przez wiązanie docelowego hERG, białka związanego z rytmem serca. Dane obejmują ponad 9000 cząsteczek o aktywności hERG.
Dane są podzielone na cztery części: pociąg, test-iid, test-ood1, test-ood2.
Każda cząsteczka w zbiorze danych ma adnotacje grafów 2D, które mają ułatwić modelowanie grafów sieci neuronowych. Węzły to atomy cząsteczki, a krawędzie to wiązania. Każdy atom jest reprezentowany jako wektor kodujący podstawowe informacje o atomie, takie jak typ atomu. Podobna logika dotyczy obligacji.
Uwzględniamy odległość odcisków palców Tanimoto (do danych treningowych) dla każdej cząsteczki w zestawach testowych, aby ułatwić badania nad przesunięciem dystrybucji w domenie grafów.
Dla każdego przykładu cechy obejmują: atomy: tensor 2D o kształcie (60, 27) przechowujący cechy węzłów. Cząsteczki zawierające mniej niż 60 atomów są dopełniane zerami. Każdy atom ma 27 cech atomowych. pary: tensor 3D z kształtem (60, 60, 12) przechowujący cechy krawędzi. Każda krawędź ma 12 cech krawędzi. atom_mask: tensor 1D o kształcie (60, ) przechowujący maski węzłów. 1 wskazuje, że odpowiedni atom jest prawdziwy, w przeciwnym razie atom wypełniony. pair_mask: tensor 2D z kształtem (60, 60) przechowujący maski krawędzi. 1 wskazuje, że odpowiednia krawędź jest prawdziwa, w przeciwnym razie wyściełana. aktywny: jeden gorący wektor wskazujący, czy cząsteczka jest toksyczna, czy nie. [0, 1] wskazuje, że jest toksyczny, w przeciwnym razie [1, 0] nietoksyczny.
Bibliografia
[1]: VB Siramshetty i in. Krytyczna ocena metod sztucznej inteligencji do przewidywania hamowania kanału hERG w erze Big Data. JCIM, 2020. https://pubs.acs.org/doi/10.1021/acs.jcim.0c00884
[2]: K. Han i in. Niezawodne grafowe sieci neuronowe do wykrywania leków w warunkach zmiany dystrybucji. Warsztaty NeurIPS DistShift 2021. https://arxiv.org/abs/2111.12951
Strona główna : https://github.com/google/uncertainty-baselines/tree/main/baselines/drug_cardiotoxicity
Kod źródłowy :
tfds.graphs.cardiotox.Cardiotox
Wersje :
-
1.0.0
(domyślnie): Wersja początkowa.
-
Rozmiar pliku do pobrania :
Unknown size
Rozmiar zestawu danych :
1.66 GiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 839 |
'test2' | 177 |
'train' | 6523 |
'validation' | 1631 |
- Struktura funkcji :
FeaturesDict({
'active': Tensor(shape=(2,), dtype=int64),
'atom_mask': Tensor(shape=(60,), dtype=float32),
'atoms': Tensor(shape=(60, 27), dtype=float32),
'dist2topk_nbs': Tensor(shape=(1,), dtype=float32),
'molecule_id': string,
'pair_mask': Tensor(shape=(60, 60), dtype=float32),
'pairs': Tensor(shape=(60, 60, 12), dtype=float32),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
aktywny | Napinacz | (2,) | int64 | |
maska_atomu | Napinacz | (60,) | pływak32 | |
atomy | Napinacz | (60, 27) | pływak32 | |
dist2topk_nbs | Napinacz | (1,) | pływak32 | |
identyfikator_cząsteczki | Napinacz | strunowy | ||
maska_pary | Napinacz | (60, 60) | pływak32 | |
pary | Napinacz | (60, 60, 12) | pływak32 |
Klucze nadzorowane (Zobacz dokument
as_supervised
):None
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Przykłady ( tfds.as_dataframe ):
- Cytat :
@ARTICLE{Han2021-tu,
title = "Reliable Graph Neural Networks for Drug Discovery Under
Distributional Shift",
author = "Han, Kehang and Lakshminarayanan, Balaji and Liu, Jeremiah",
month = nov,
year = 2021,
archivePrefix = "arXiv",
primaryClass = "cs.LG",
eprint = "2111.12951"
}