redakcja

  • opis :

NEWSROOM to duży zbiór danych do szkolenia i oceny systemów podsumowujących. Zawiera 1,3 miliona artykułów i streszczeń napisanych przez autorów i redaktorów w redakcjach 38 głównych publikacji.

Funkcje zestawu danych obejmują:

  • tekst: Wprowadź tekst wiadomości.
  • podsumowanie: Podsumowanie wiadomości.

Oraz dodatkowe funkcje:

  • tytuł: tytuł wiadomości.
  • url: adres URL wiadomości.
  • data: data artykułu.
  • gęstość: gęstość ekstrakcyjna.
  • zasięg: zasięg ekstrakcyjny.
  • kompresja: współczynnik kompresji.
  • gęstość_bin: niska, średnia, wysoka.
  • pokrycie_bin: ekstrakcyjne, abstrakcyjne.
  • kompresja_bin: niska, średnia, wysoka.

Ten zestaw danych można pobrać na żądanie. Rozpakuj całą zawartość „train.jsonl, dev.jsonl, test.jsonl” do folderu tfds.

  • Dodatkowa dokumentacja : Przeglądaj dokumenty z kodem na

  • Strona główna : https://summari.es

  • Kod źródłowy : tfds.datasets.newsroom.Builder

  • Wersje :

    • 1.0.0 (domyślnie): Brak informacji o wersji.
  • Rozmiar pliku do pobrania : Unknown size

  • Rozmiar zestawu danych : 5.13 GiB

  • Instrukcje ręcznego pobierania : ten zestaw danych wymaga ręcznego pobrania danych źródłowych do katalogu download_config.manual_dir (domyślnie ~/tensorflow_datasets/downloads/manual/ ):
    Zestaw danych należy pobrać ze strony https://summari.es/download/ Strona wymaga rejestracji. Po pobraniu umieść pliki dev.jsonl, test.jsonl i train.jsonl w katalogu manual_dir.

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Podziały :

Podział Przykłady
'test' 108862
'train' 995,041
'validation' 108837
  • Struktura funkcji :
FeaturesDict({
    'compression': float32,
    'compression_bin': Text(shape=(), dtype=string),
    'coverage': float32,
    'coverage_bin': Text(shape=(), dtype=string),
    'date': Text(shape=(), dtype=string),
    'density': float32,
    'density_bin': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
kompresja Napinacz pływak32
kompresja_bin Tekst strunowy
zasięg Napinacz pływak32
zasięg_bin Tekst strunowy
data Tekst strunowy
gęstość Napinacz pływak32
gęstość_bin Tekst strunowy
streszczenie Tekst strunowy
tekst Tekst strunowy
tytuł Tekst strunowy
adres URL Tekst strunowy
  • Cytat :
@article{Grusky_2018,
   title={Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies},
   url={http://dx.doi.org/10.18653/v1/n18-1065},
   DOI={10.18653/v1/n18-1065},
   journal={Proceedings of the 2018 Conference of the North American Chapter of
          the Association for Computational Linguistics: Human Language
          Technologies, Volume 1 (Long Papers)},
   publisher={Association for Computational Linguistics},
   author={Grusky, Max and Naaman, Mor and Artzi, Yoav},
   year={2018}
}