kardiotoks

  • opis :

Zbiór danych dotyczących kardiotoksyczności leku [1-2] to zadanie klasyfikacji cząsteczek w celu wykrycia kardiotoksyczności spowodowanej przez wiązanie docelowego hERG, białka związanego z rytmem serca. Dane obejmują ponad 9000 cząsteczek o aktywności hERG.

  1. Dane są podzielone na cztery części: pociąg, test-iid, test-ood1, test-ood2.

  2. Każda cząsteczka w zbiorze danych ma adnotacje grafów 2D, które mają ułatwić modelowanie grafów sieci neuronowych. Węzły to atomy cząsteczki, a krawędzie to wiązania. Każdy atom jest reprezentowany jako wektor kodujący podstawowe informacje o atomie, takie jak typ atomu. Podobna logika dotyczy obligacji.

  3. Uwzględniamy odległość odcisków palców Tanimoto (do danych treningowych) dla każdej cząsteczki w zestawach testowych, aby ułatwić badania nad przesunięciem dystrybucji w domenie grafów.

Dla każdego przykładu cechy obejmują: atomy: tensor 2D o kształcie (60, 27) przechowujący cechy węzłów. Cząsteczki zawierające mniej niż 60 atomów są dopełniane zerami. Każdy atom ma 27 cech atomowych. pary: tensor 3D z kształtem (60, 60, 12) przechowujący cechy krawędzi. Każda krawędź ma 12 cech krawędzi. atom_mask: tensor 1D o kształcie (60, ) przechowujący maski węzłów. 1 wskazuje, że odpowiedni atom jest prawdziwy, w przeciwnym razie atom wypełniony. pair_mask: tensor 2D z kształtem (60, 60) przechowujący maski krawędzi. 1 wskazuje, że odpowiednia krawędź jest prawdziwa, w przeciwnym razie wyściełana. aktywny: jeden gorący wektor wskazujący, czy cząsteczka jest toksyczna, czy nie. [0, 1] wskazuje, że jest toksyczny, w przeciwnym razie [1, 0] nietoksyczny.

Bibliografia

[1]: VB Siramshetty i in. Krytyczna ocena metod sztucznej inteligencji do przewidywania hamowania kanału hERG w erze Big Data. JCIM, 2020. https://pubs.acs.org/doi/10.1021/acs.jcim.0c00884

[2]: K. Han i in. Niezawodne grafowe sieci neuronowe do wykrywania leków w warunkach zmiany dystrybucji. Warsztaty NeurIPS DistShift 2021. https://arxiv.org/abs/2111.12951

Rozdzielać Przykłady
'test' 839
'test2' 177
'train' 6523
'validation' 1631
  • Struktura funkcji :
FeaturesDict({
    'active': Tensor(shape=(2,), dtype=int64),
    'atom_mask': Tensor(shape=(60,), dtype=float32),
    'atoms': Tensor(shape=(60, 27), dtype=float32),
    'dist2topk_nbs': Tensor(shape=(1,), dtype=float32),
    'molecule_id': string,
    'pair_mask': Tensor(shape=(60, 60), dtype=float32),
    'pairs': Tensor(shape=(60, 60, 12), dtype=float32),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
aktywny Napinacz (2,) int64
maska_atomu Napinacz (60,) pływak32
atomy Napinacz (60, 27) pływak32
dist2topk_nbs Napinacz (1,) pływak32
identyfikator_cząsteczki Napinacz strunowy
maska_pary Napinacz (60, 60) pływak32
pary Napinacz (60, 60, 12) pływak32
  • Cytat :
@ARTICLE{Han2021-tu,
  title         = "Reliable Graph Neural Networks for Drug Discovery Under
                   Distributional Shift",
  author        = "Han, Kehang and Lakshminarayanan, Balaji and Liu, Jeremiah",
  month         =  nov,
  year          =  2021,
  archivePrefix = "arXiv",
  primaryClass  = "cs.LG",
  eprint        = "2111.12951"
}