протеин_нет

  • Описание :

ProteinNet — это стандартизированный набор данных для машинного обучения структуры белка. Он предоставляет белковые последовательности, структуры (вторичные и третичные), множественные выравнивания последовательностей (MSA), позиционно-специфические оценочные матрицы (PSSM) и стандартизированные разделения обучения/валидации/тестирования. ProteinNet основывается на проводимых раз в два года оценках CASP, которые выполняют слепые прогнозы недавно решенных, но общедоступных белковых структур, чтобы предоставить тестовые наборы, которые раздвигают границы вычислительной методологии. Он организован в виде серии наборов данных, охватывающих CASP с 7 по 12 (охватывающих десятилетний период), чтобы обеспечить диапазон размеров наборов данных, которые позволяют оценивать новые методы в режимах с относительно бедными и богатыми данными.

FeaturesDict({
    'evolutionary': Tensor(shape=(None, 21), dtype=float32),
    'id': Text(shape=(), dtype=string),
    'length': int32,
    'mask': Tensor(shape=(None,), dtype=bool),
    'primary': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=20)),
    'tertiary': Tensor(shape=(None, 3), dtype=float32),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
эволюционный Тензор (Нет, 21) поплавок32
я бы Текст нить
длина Тензор int32
маска Тензор (Никто,) логический
начальный Последовательность (метка класса) (Никто,) int64
третичный Тензор (Нет, 3) поплавок32
@article{ProteinNet19,
title = { {ProteinNet}: a standardized data set for machine learning of protein structure},
author = {AlQuraishi, Mohammed},
journal = {BMC bioinformatics},
volume = {20},
number = {1},
pages = {1--10},
year = {2019},
publisher = {BioMed Central}
}

белок_net/casp7 (конфигурация по умолчанию)

  • Размер загрузки : 3.18 GiB

  • Размер набора данных : 2.53 GiB

  • Сплиты :

Расколоть Примеры
'test' 93
'train_100' 34 557
'train_30' 10 333
'train_50' 13 024
'train_70' 15 207
'train_90' 17 611
'train_95' 17 938
'validation' 224

протеин_нет/касп8

  • Размер загрузки : 4.96 GiB

  • Размер набора данных : 3.55 GiB

  • Сплиты :

Расколоть Примеры
'test' 120
'train_100' 48 087
'train_30' 13 881
'train_50' 17 970
'train_70' 21 191
'train_90' 24 556
'train_95' 25 035
'validation' 224

протеин_нет/касп9

  • Размер загрузки : 6.65 GiB

  • Размер набора данных : 4.54 GiB

  • Сплиты :

Расколоть Примеры
'test' 116
'train_100' 60 350
'train_30' 16 973
'train_50' 22 172
'train_70' 26 263
'train_90' 30 513
'train_95' 31 128
'validation' 224

протеин_нет/касп10

  • Размер загрузки : 8.65 GiB

  • Размер набора данных : 5.57 GiB

  • Сплиты :

Расколоть Примеры
'test' 95
'train_100' 73 116
'train_30' 19 495
'train_50' 25 897
'train_70' 31 001
'train_90' 36 258
'train_95' 37 033
'validation' 224

протеин_нет/касп11

  • Размер загрузки : 10.81 GiB

  • Размер набора данных : 6.72 GiB

  • Сплиты :

Расколоть Примеры
'test' 81
'train_100' 87 573
'train_30' 22 344
'train_50' 29 936
'train_70' 36 005
'train_90' 42 507
'train_95' 43 544
'validation' 224

протеин_нет/касп12

  • Размер загрузки : 13.18 GiB

  • Размер набора данных : 8.05 GiB

  • Сплиты :

Расколоть Примеры
'test' 40
'train_100' 104 059
'train_30' 25 299
'train_50' 34 039
'train_70' 41 522
'train_90' 49 600
'train_95' 50 914
'validation' 224