- Описание :
Набор данных по кардиотоксичности лекарств [1-2] представляет собой задачу классификации молекул для выявления кардиотоксичности, вызванной связыванием мишени hERG, белка, связанного с сердечным ритмом. Данные охватывают более 9000 молекул с активностью hERG.
Данные разбиты на четыре группы: train, test-iid, test-ood1, test-ood2.
Каждая молекула в наборе данных имеет аннотации 2D-графика, которые предназначены для облегчения моделирования графовой нейронной сети. Узлы — это атомы молекулы, а ребра — это связи. Каждый атом представлен в виде вектора, кодирующего основную информацию об атоме, такую как тип атома. Аналогичная логика применима и к облигациям.
Мы включаем расстояние отпечатка пальца Танимото (до обучающих данных) для каждой молекулы в тестовых наборах, чтобы облегчить исследование сдвига распределения в графовой области.
Для каждого примера функции включают в себя: атомы: двумерный тензор с формой (60, 27), хранящий функции узлов. Молекулы, содержащие менее 60 атомов, дополняются нулями. Каждый атом имеет 27 атомных свойств. пары: трехмерный тензор с формой (60, 60, 12), хранящий краевые функции. Каждое ребро имеет 12 краевых элементов. atom_mask: одномерный тензор формы (60, ), хранящий маски узлов. 1 указывает, что соответствующий атом является реальным, в противном случае он является дополненным. пара_маска: двумерный тензор формы (60, 60), хранящий маски краев. 1 указывает, что соответствующее ребро является реальным, в противном случае оно дополнено. активный: однократный вектор, указывающий, является ли молекула токсичной или нет. [0, 1] указывает на то, что он токсичен, в противном случае [1, 0] не токсичен.
использованная литература
[1]: В.Б. Сирамшетти и соавт. Критическая оценка методов искусственного интеллекта для прогнозирования ингибирования канала hERG в эпоху больших данных. JCIM, 2020 г. https://pubs.acs.org/doi/10.1021/acs.jcim.0c00884
[2]: К. Хан и др. Надежные графовые нейронные сети для обнаружения лекарств в условиях распределительного сдвига. Семинар NeurIPS DistShift 2021. https://arxiv.org/abs/2111.12951
Домашняя страница : https://github.com/google/uncertainty-baselines/tree/main/baselines/drug_cardiotoxicity
Исходный код :
tfds.graphs.cardiotox.Cardiotox
Версии :
-
1.0.0
(по умолчанию): Первоначальный выпуск.
-
Размер загрузки :
Unknown size
Размер набора данных :
1.66 GiB
Автоматическое кэширование ( документация ): Нет
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 839 |
'test2' | 177 |
'train' | 6523 |
'validation' | 1631 |
- Структура функции :
FeaturesDict({
'active': Tensor(shape=(2,), dtype=int64),
'atom_mask': Tensor(shape=(60,), dtype=float32),
'atoms': Tensor(shape=(60, 27), dtype=float32),
'dist2topk_nbs': Tensor(shape=(1,), dtype=float32),
'molecule_id': string,
'pair_mask': Tensor(shape=(60, 60), dtype=float32),
'pairs': Tensor(shape=(60, 60, 12), dtype=float32),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
активный | Тензор | (2,) | int64 | |
атом_маска | Тензор | (60,) | поплавок32 | |
атомы | Тензор | (60, 27) | поплавок32 | |
dist2topk_nbs | Тензор | (1,) | поплавок32 | |
идентификатор_молекулы | Тензор | нить | ||
пара_маска | Тензор | (60, 60) | поплавок32 | |
пары | Тензор | (60, 60, 12) | поплавок32 |
Ключи под наблюдением (см. документ
as_supervised
):None
Рисунок ( tfds.show_examples ): не поддерживается.
Примеры ( tfds.as_dataframe ):
- Цитата :
@ARTICLE{Han2021-tu,
title = "Reliable Graph Neural Networks for Drug Discovery Under
Distributional Shift",
author = "Han, Kehang and Lakshminarayanan, Balaji and Liu, Jeremiah",
month = nov,
year = 2021,
archivePrefix = "arXiv",
primaryClass = "cs.LG",
eprint = "2111.12951"
}