- opis :
ProteinNet to znormalizowany zestaw danych do uczenia maszynowego struktury białek. Zapewnia sekwencje białek, struktury (drugorzędowe i trzeciorzędowe), dopasowania wielu sekwencji (MSA), macierze punktacji specyficzne dla pozycji (PSSM) oraz standaryzowane podziały treningu / walidacji / testu. ProteinNet opiera się na przeprowadzanych co dwa lata ocenach CASP, które przeprowadzają ślepe prognozy niedawno rozwiązanych, ale publicznie niedostępnych struktur białek, aby zapewnić zestawy testów, które przesuwają granice metodologii obliczeniowej. Jest zorganizowana jako seria zestawów danych, obejmująca CASP 7 do 12 (obejmujących okres dziesięciu lat), aby zapewnić zakres rozmiarów zestawów danych, które umożliwiają ocenę nowych metod w systemach stosunkowo ubogich w dane i bogatych w dane.
Strona główna : https://github.com/aqlaboratory/proteinnet
Kod źródłowy :
tfds.datasets.protein_net.Builder
Wersje :
-
1.0.0
(domyślnie): Wersja początkowa.
-
Automatyczne buforowanie ( dokumentacja ): Nie
Struktura funkcji :
FeaturesDict({
'evolutionary': Tensor(shape=(None, 21), dtype=float32),
'id': Text(shape=(), dtype=string),
'length': int32,
'mask': Tensor(shape=(None,), dtype=bool),
'primary': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=20)),
'tertiary': Tensor(shape=(None, 3), dtype=float32),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
ewolucyjny | Napinacz | (Brak, 21) | pływak32 | |
ID | Tekst | strunowy | ||
długość | Napinacz | int32 | ||
maska | Napinacz | (Nic,) | bool | |
podstawowy | Sekwencja (etykieta klasy) | (Nic,) | int64 | |
trzeciorzędowy | Napinacz | (Brak, 3) | pływak32 |
Klucze nadzorowane (zobacz dokument
as_supervised
):('primary', 'tertiary')
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Cytat :
@article{ProteinNet19,
title = { {ProteinNet}: a standardized data set for machine learning of protein structure},
author = {AlQuraishi, Mohammed},
journal = {BMC bioinformatics},
volume = {20},
number = {1},
pages = {1--10},
year = {2019},
publisher = {BioMed Central}
}
protein_net/casp7 (domyślna konfiguracja)
Rozmiar pliku do pobrania :
3.18 GiB
Rozmiar zestawu danych :
2.53 GiB
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 93 |
'train_100' | 34557 |
'train_30' | 10333 |
'train_50' | 13024 |
'train_70' | 15207 |
'train_90' | 17611 |
'train_95' | 17 938 |
'validation' | 224 |
- Przykłady ( tfds.as_dataframe ):
protein_net/casp8
Rozmiar pliku do pobrania :
4.96 GiB
Rozmiar zestawu danych :
3.55 GiB
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 120 |
'train_100' | 48087 |
'train_30' | 13881 |
'train_50' | 17 970 |
'train_70' | 21191 |
'train_90' | 24556 |
'train_95' | 25035 |
'validation' | 224 |
- Przykłady ( tfds.as_dataframe ):
protein_net/casp9
Rozmiar pliku do pobrania :
6.65 GiB
Rozmiar zestawu danych :
4.54 GiB
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 116 |
'train_100' | 60350 |
'train_30' | 16973 |
'train_50' | 22172 |
'train_70' | 26263 |
'train_90' | 30513 |
'train_95' | 31128 |
'validation' | 224 |
- Przykłady ( tfds.as_dataframe ):
protein_net/casp10
Rozmiar pliku do pobrania :
8.65 GiB
Rozmiar zestawu danych :
5.57 GiB
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 95 |
'train_100' | 73116 |
'train_30' | 19495 |
'train_50' | 25 897 |
'train_70' | 31 001 |
'train_90' | 36258 |
'train_95' | 37033 |
'validation' | 224 |
- Przykłady ( tfds.as_dataframe ):
protein_net/casp11
Rozmiar pliku do pobrania :
10.81 GiB
Rozmiar zestawu danych :
6.72 GiB
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 81 |
'train_100' | 87573 |
'train_30' | 22344 |
'train_50' | 29 936 |
'train_70' | 36 005 |
'train_90' | 42507 |
'train_95' | 43544 |
'validation' | 224 |
- Przykłady ( tfds.as_dataframe ):
protein_net/casp12
Rozmiar pliku do pobrania :
13.18 GiB
Rozmiar zestawu danych :
8.05 GiB
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 40 |
'train_100' | 104 059 |
'train_30' | 25299 |
'train_50' | 34039 |
'train_70' | 41522 |
'train_90' | 49600 |
'train_95' | 50 914 |
'validation' | 224 |
- Przykłady ( tfds.as_dataframe ):