- opis :
NEWSROOM to duży zbiór danych do szkolenia i oceny systemów podsumowujących. Zawiera 1,3 miliona artykułów i streszczeń napisanych przez autorów i redaktorów w redakcjach 38 głównych publikacji.
Funkcje zestawu danych obejmują:
- tekst: Wprowadź tekst wiadomości.
- podsumowanie: Podsumowanie wiadomości.
Oraz dodatkowe funkcje:
- tytuł: tytuł wiadomości.
- url: adres URL wiadomości.
- data: data artykułu.
- gęstość: gęstość ekstrakcyjna.
- zasięg: zasięg ekstrakcyjny.
- kompresja: współczynnik kompresji.
- gęstość_bin: niska, średnia, wysoka.
- pokrycie_bin: ekstrakcyjne, abstrakcyjne.
- kompresja_bin: niska, średnia, wysoka.
Ten zestaw danych można pobrać na żądanie. Rozpakuj całą zawartość „train.jsonl, dev.jsonl, test.jsonl” do folderu tfds.
Dodatkowa dokumentacja : Przeglądaj dokumenty z kodem na
Strona główna : https://summari.es
Kod źródłowy :
tfds.datasets.newsroom.Builder
Wersje :
-
1.0.0
(domyślnie): Brak informacji o wersji.
-
Rozmiar pliku do pobrania :
Unknown size
Rozmiar zestawu danych :
5.13 GiB
Instrukcje ręcznego pobierania : ten zestaw danych wymaga ręcznego pobrania danych źródłowych do katalogu
download_config.manual_dir
(domyślnie~/tensorflow_datasets/downloads/manual/
):
Zestaw danych należy pobrać ze strony https://summari.es/download/ Strona wymaga rejestracji. Po pobraniu umieść pliki dev.jsonl, test.jsonl i train.jsonl w katalogu manual_dir.Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Podział | Przykłady |
---|---|
'test' | 108862 |
'train' | 995,041 |
'validation' | 108837 |
- Struktura funkcji :
FeaturesDict({
'compression': float32,
'compression_bin': Text(shape=(), dtype=string),
'coverage': float32,
'coverage_bin': Text(shape=(), dtype=string),
'date': Text(shape=(), dtype=string),
'density': float32,
'density_bin': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
kompresja | Napinacz | pływak32 | ||
kompresja_bin | Tekst | strunowy | ||
zasięg | Napinacz | pływak32 | ||
zasięg_bin | Tekst | strunowy | ||
data | Tekst | strunowy | ||
gęstość | Napinacz | pływak32 | ||
gęstość_bin | Tekst | strunowy | ||
streszczenie | Tekst | strunowy | ||
tekst | Tekst | strunowy | ||
tytuł | Tekst | strunowy | ||
adres URL | Tekst | strunowy |
Nadzorowane klucze (Zobacz
as_supervised
doc ):('text', 'summary')
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Przykłady ( tfds.as_dataframe ):
- Cytat :
@article{Grusky_2018,
title={Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies},
url={http://dx.doi.org/10.18653/v1/n18-1065},
DOI={10.18653/v1/n18-1065},
journal={Proceedings of the 2018 Conference of the North American Chapter of
the Association for Computational Linguistics: Human Language
Technologies, Volume 1 (Long Papers)},
publisher={Association for Computational Linguistics},
author={Grusky, Max and Naaman, Mor and Artzi, Yoav},
year={2018}
}