- opis :
Duży zbiór danych recenzji filmów. Jest to zestaw danych do binarnej klasyfikacji nastrojów, zawierający znacznie więcej danych niż poprzednie zestawy danych testów porównawczych. Zapewniamy zestaw 25 000 bardzo polarnych recenzji filmów do celów szkoleniowych i 25 000 do testów. Istnieją również dodatkowe nieoznakowane dane do wykorzystania.
Dodatkowa dokumentacja : Przeglądaj dokumenty z kodem
Strona główna : http://ai.stanford.edu/~amaas/data/sentiment/
Kod źródłowy :
tfds.datasets.imdb_reviews.Builder
Wersje :
-
1.0.0
(domyślnie): nowy podzielony interfejs API ( https://tensorflow.org/datasets/splits )
-
Rozmiar pliku do pobrania :
80.23 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 25 000 |
'train' | 25 000 |
'unsupervised' | 50 000 |
Nadzorowane klucze (Zobacz
as_supervised
doc ):('text', 'label')
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Cytat :
@InProceedings{maas-EtAl:2011:ACL-HLT2011,
author = {Maas, Andrew L. and Daly, Raymond E. and Pham, Peter T. and Huang, Dan and Ng, Andrew Y. and Potts, Christopher},
title = {Learning Word Vectors for Sentiment Analysis},
booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies},
month = {June},
year = {2011},
address = {Portland, Oregon, USA},
publisher = {Association for Computational Linguistics},
pages = {142--150},
url = {http://www.aclweb.org/anthology/P11-1015}
}
imdb_reviews/plain_text (domyślna konfiguracja)
Opis konfiguracji : zwykły tekst
Rozmiar zestawu danych :
129.83 MiB
Struktura funkcji :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
etykieta | Etykieta klasy | int64 | ||
tekst | Tekst | strunowy |
- Przykłady ( tfds.as_dataframe ):
imdb_reviews/bytes
Opis konfiguracji : używa kodowania tekstu na poziomie bajtów za pomocą
tfds.deprecated.text.ByteTextEncoder
Rozmiar zestawu danych :
129.88 MiB
Struktura funkcji :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(None,), dtype=int64, encoder=<ByteTextEncoder vocab_size=257>),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
etykieta | Etykieta klasy | int64 | ||
tekst | Tekst | (Nic,) | int64 |
- Przykłady ( tfds.as_dataframe ):
imdb_reviews/subwords8k
Opis konfiguracji : Używa
tfds.deprecated.text.SubwordTextEncoder
o rozmiarze vocab 8kRozmiar zestawu danych :
54.72 MiB
Struktura funkcji :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=8185>),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
etykieta | Etykieta klasy | int64 | ||
tekst | Tekst | (Nic,) | int64 |
- Przykłady ( tfds.as_dataframe ):
imdb_reviews/subwords32k
Opis konfiguracji : używa
tfds.deprecated.text.SubwordTextEncoder
o rozmiarze vocab 32kRozmiar zestawu danych :
50.33 MiB
Struktura funkcji :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=32650>),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
etykieta | Etykieta klasy | int64 | ||
tekst | Tekst | (Nic,) | int64 |
- Przykłady ( tfds.as_dataframe ):