- opis :
AG to zbiór ponad 1 miliona artykułów prasowych. Artykuły informacyjne zostały zebrane przez ComeToMyHead z ponad 2000 źródeł wiadomości w ciągu ponad 1 roku działalności. ComeToMyHead to wyszukiwarka wiadomości akademickich działająca od lipca 2004 r. Zbiór danych jest dostarczany przez społeczność akademicką do celów badawczych w eksploracji danych (grupowanie, klasyfikacja itp.), wyszukiwaniu informacji (ranking, wyszukiwanie itp.), xml, kompresja danych, strumieniowe przesyłanie danych i wszelkie inne działania niekomercyjne. Więcej informacji można znaleźć pod linkiem http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html .
Zbiór danych klasyfikacji tematów wiadomości AG jest tworzony przez Xiang Zhanga (xiang.zhang@nyu.edu) na podstawie powyższego zbioru danych. Jest używany jako wzorzec klasyfikacji tekstu w następującym artykule: Xiang Zhang, Junbo Zhao, Yann LeCun. Sieci konwolucyjne na poziomie znaków do klasyfikacji tekstu. Postępy w neuronowych systemach przetwarzania informacji 28 (NIPS 2015).
Zbiór danych klasyfikacji tematów wiadomości AG jest tworzony poprzez wybranie 4 największych klas z oryginalnego korpusu. Każda klasa zawiera 30 000 próbek treningowych i 1900 próbek testowych. Łączna liczba próbek treningowych wynosi 120 000, a testowych 7600.
Dodatkowa dokumentacja : Przeglądaj dokumenty z kodem na
Strona główna : https://arxiv.org/abs/1509.01626
Kod źródłowy :
tfds.datasets.ag_news_subset.Builder
Wersje :
-
1.0.0
(domyślnie): Brak informacji o wersji.
-
Rozmiar pliku do pobrania :
11.24 MiB
Rozmiar zestawu danych :
35.79 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 7600 |
'train' | 120 000 |
- Struktura funkcji :
FeaturesDict({
'description': Text(shape=(), dtype=string),
'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
'title': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
opis | Tekst | strunowy | ||
etykieta | Etykieta klasy | int64 | ||
tytuł | Tekst | strunowy |
Klucze nadzorowane (zobacz dokument
as_supervised
):('description', 'label')
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Przykłady ( tfds.as_dataframe ):
- Cytat :
@misc{zhang2015characterlevel,
title={Character-level Convolutional Networks for Text Classification},
author={Xiang Zhang and Junbo Zhao and Yann LeCun},
year={2015},
eprint={1509.01626},
archivePrefix={arXiv},
primaryClass={cs.LG}
}