ag_news_subset

  • opis :

AG to zbiór ponad 1 miliona artykułów prasowych. Artykuły informacyjne zostały zebrane przez ComeToMyHead z ponad 2000 źródeł wiadomości w ciągu ponad 1 roku działalności. ComeToMyHead to wyszukiwarka wiadomości akademickich działająca od lipca 2004 r. Zbiór danych jest dostarczany przez społeczność akademicką do celów badawczych w eksploracji danych (grupowanie, klasyfikacja itp.), wyszukiwaniu informacji (ranking, wyszukiwanie itp.), xml, kompresja danych, strumieniowe przesyłanie danych i wszelkie inne działania niekomercyjne. Więcej informacji można znaleźć pod linkiem http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html .

Zbiór danych klasyfikacji tematów wiadomości AG jest tworzony przez Xiang Zhanga (xiang.zhang@nyu.edu) na podstawie powyższego zbioru danych. Jest używany jako wzorzec klasyfikacji tekstu w następującym artykule: Xiang Zhang, Junbo Zhao, Yann LeCun. Sieci konwolucyjne na poziomie znaków do klasyfikacji tekstu. Postępy w neuronowych systemach przetwarzania informacji 28 (NIPS 2015).

Zbiór danych klasyfikacji tematów wiadomości AG jest tworzony poprzez wybranie 4 największych klas z oryginalnego korpusu. Każda klasa zawiera 30 000 próbek treningowych i 1900 próbek testowych. Łączna liczba próbek treningowych wynosi 120 000, a testowych 7600.

Rozdzielać Przykłady
'test' 7600
'train' 120 000
  • Struktura funkcji :
FeaturesDict({
    'description': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'title': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
opis Tekst strunowy
etykieta Etykieta klasy int64
tytuł Tekst strunowy
  • Cytat :
@misc{zhang2015characterlevel,
    title={Character-level Convolutional Networks for Text Classification},
    author={Xiang Zhang and Junbo Zhao and Yann LeCun},
    year={2015},
    eprint={1509.01626},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}