- Описание :
ProteinNet — это стандартизированный набор данных для машинного обучения структуры белка. Он предоставляет белковые последовательности, структуры (вторичные и третичные), множественные выравнивания последовательностей (MSA), позиционно-специфические оценочные матрицы (PSSM) и стандартизированные разделения обучения/валидации/тестирования. ProteinNet основывается на проводимых раз в два года оценках CASP, которые выполняют слепые прогнозы недавно решенных, но общедоступных белковых структур, чтобы предоставить тестовые наборы, которые раздвигают границы вычислительной методологии. Он организован в виде серии наборов данных, охватывающих CASP с 7 по 12 (охватывающих десятилетний период), чтобы обеспечить диапазон размеров наборов данных, которые позволяют оценивать новые методы в режимах с относительно бедными и богатыми данными.
Домашняя страница : https://github.com/aqlaboratory/proteinnet
Исходный код :
tfds.datasets.protein_net.Builder
Версии :
-
1.0.0
(по умолчанию): Первоначальный выпуск.
-
Автоматическое кэширование ( документация ): Нет
Структура функции :
FeaturesDict({
'evolutionary': Tensor(shape=(None, 21), dtype=float32),
'id': Text(shape=(), dtype=string),
'length': int32,
'mask': Tensor(shape=(None,), dtype=bool),
'primary': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=20)),
'tertiary': Tensor(shape=(None, 3), dtype=float32),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
эволюционный | Тензор | (Нет, 21) | поплавок32 | |
я бы | Текст | нить | ||
длина | Тензор | int32 | ||
маска | Тензор | (Никто,) | логический | |
начальный | Последовательность (метка класса) | (Никто,) | int64 | |
третичный | Тензор | (Нет, 3) | поплавок32 |
Контролируемые ключи (см . документ
as_supervised
):('primary', 'tertiary')
Рисунок ( tfds.show_examples ): не поддерживается.
Цитата :
@article{ProteinNet19,
title = { {ProteinNet}: a standardized data set for machine learning of protein structure},
author = {AlQuraishi, Mohammed},
journal = {BMC bioinformatics},
volume = {20},
number = {1},
pages = {1--10},
year = {2019},
publisher = {BioMed Central}
}
белок_net/casp7 (конфигурация по умолчанию)
Размер загрузки :
3.18 GiB
Размер набора данных :
2.53 GiB
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 93 |
'train_100' | 34 557 |
'train_30' | 10 333 |
'train_50' | 13 024 |
'train_70' | 15 207 |
'train_90' | 17 611 |
'train_95' | 17 938 |
'validation' | 224 |
- Примеры ( tfds.as_dataframe ):
протеин_нет/касп8
Размер загрузки :
4.96 GiB
Размер набора данных :
3.55 GiB
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 120 |
'train_100' | 48 087 |
'train_30' | 13 881 |
'train_50' | 17 970 |
'train_70' | 21 191 |
'train_90' | 24 556 |
'train_95' | 25 035 |
'validation' | 224 |
- Примеры ( tfds.as_dataframe ):
протеин_нет/касп9
Размер загрузки :
6.65 GiB
Размер набора данных :
4.54 GiB
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 116 |
'train_100' | 60 350 |
'train_30' | 16 973 |
'train_50' | 22 172 |
'train_70' | 26 263 |
'train_90' | 30 513 |
'train_95' | 31 128 |
'validation' | 224 |
- Примеры ( tfds.as_dataframe ):
протеин_нет/касп10
Размер загрузки :
8.65 GiB
Размер набора данных :
5.57 GiB
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 95 |
'train_100' | 73 116 |
'train_30' | 19 495 |
'train_50' | 25 897 |
'train_70' | 31 001 |
'train_90' | 36 258 |
'train_95' | 37 033 |
'validation' | 224 |
- Примеры ( tfds.as_dataframe ):
протеин_нет/касп11
Размер загрузки :
10.81 GiB
Размер набора данных :
6.72 GiB
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 81 |
'train_100' | 87 573 |
'train_30' | 22 344 |
'train_50' | 29 936 |
'train_70' | 36 005 |
'train_90' | 42 507 |
'train_95' | 43 544 |
'validation' | 224 |
- Примеры ( tfds.as_dataframe ):
протеин_нет/касп12
Размер загрузки :
13.18 GiB
Размер набора данных :
8.05 GiB
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 40 |
'train_100' | 104 059 |
'train_30' | 25 299 |
'train_50' | 34 039 |
'train_70' | 41 522 |
'train_90' | 49 600 |
'train_95' | 50 914 |
'validation' | 224 |
- Примеры ( tfds.as_dataframe ):