- opis :
Sentiment140 pozwala odkryć sentyment marki, produktu lub tematu na Twitterze.
Dane to plik CSV z usuniętymi emotikonami. Format pliku danych ma 6 pól:
- polaryzacja tweeta (0 = negatywna, 2 = neutralna, 4 = pozytywna)
- identyfikator tweeta (2087)
- data tweeta (sobota 16 maja 23:58:44 UTC 2009)
- zapytanie (lyx). Jeśli nie ma zapytania, ta wartość to NO_QUERY.
- użytkownik, który tweetował (robotickilldozr)
- tekst tweeta (Lyx jest fajny)
Aby uzyskać więcej informacji, zapoznaj się z artykułem Twitter Sentiment Classification with Distant Supervision pod adresem https://cs.stanford.edu/people/alecmgo/papers/TwitterDistantSupervision09.pdf
Dodatkowa dokumentacja : Przeglądaj dokumenty z kodem na
Strona główna : http://help.sentiment140.com/home
Kod źródłowy :
tfds.datasets.sentiment140.Builder
Wersje :
-
1.0.0
(domyślnie): Brak informacji o wersji.
-
Rozmiar pliku do pobrania :
77.59 MiB
Rozmiar zestawu danych :
305.13 MiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Podział | Przykłady |
---|---|
'test' | 498 |
'train' | 1 600 000 |
- Struktura funkcji :
FeaturesDict({
'date': Text(shape=(), dtype=string),
'polarity': int32,
'query': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'user': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształtować się | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
data | Tekst | strunowy | ||
biegunowość | Napinacz | int32 | ||
zapytanie | Tekst | strunowy | ||
tekst | Tekst | strunowy | ||
użytkownik | Tekst | strunowy |
Nadzorowane klucze (Patrz
as_supervised
doc ):('text', 'polarity')
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Przykłady ( tfds.as_dataframe ):
- Cytat :
@ONLINE {Sentiment140,
author = "Go, Alec and Bhayani, Richa and Huang, Lei",
title = "Twitter Sentiment Classification using Distant Supervision",
year = "2009",
url = "http://help.sentiment140.com/home"
}