- opis :
Zbiór danych ekstremalnego podsumowania (XSum).
Dostępne są dwie funkcje: - dokument: artykuł z wiadomościami wejściowymi. - streszczenie: jednozdaniowe streszczenie artykułu.
Dane te należy ręcznie pobrać i wyodrębnić zgodnie z opisem w https://github.com/EdinburghNLP/XSum/blob/master/XSum-Dataset/README.md Folder „xsum-extracts-from-downloads” należy skompresować jako „xsum-extracts-from-downloads.tar.gz” i umieść w ręcznie pobranym folderze.
Dodatkowa dokumentacja : Przeglądaj dokumenty z kodem na
Strona główna : https://github.com/EdinburghNLP/XSum/tree/master/XSum-Dataset
Kod źródłowy :
tfds.summarization.Xsum
Wersje :
-
1.0.0
: Zestaw danych bez czyszczenia. -
1.1.0
(domyślnie): Usuwa zawartość sieci.
-
Rozmiar pliku do pobrania :
2.59 MiB
Rozmiar zestawu danych :
512.03 MiB
Instrukcje ręcznego pobierania : ten zestaw danych wymaga ręcznego pobrania danych źródłowych do katalogu
download_config.manual_dir
(domyślnie~/tensorflow_datasets/downloads/manual/
):
Szczegółowe instrukcje pobierania (które wymagają uruchomienia niestandardowego skryptu) są tutaj: https://github.com/EdinburghNLP/XSum/blob/master/XSum-Dataset/README.md#running-the-download-and-extraction-scripts Później , umieść plik xsum-extracts-from-downloads.tar.gz w katalogu manual_dir.Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 11301 |
'train' | 203577 |
'validation' | 11305 |
- Struktura funkcji :
FeaturesDict({
'document': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
dokument | Tekst | strunowy | ||
streszczenie | Tekst | strunowy |
Klucze nadzorowane (Patrz
as_supervised
doc ):('document', 'summary')
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Przykłady ( tfds.as_dataframe ):
- Cytat :
@article{Narayan2018DontGM,
title={Don't Give Me the Details, Just the Summary! Topic-Aware Convolutional Neural Networks for Extreme Summarization},
author={Shashi Narayan and Shay B. Cohen and Mirella Lapata},
journal={ArXiv},
year={2018},
volume={abs/1808.08745}
}