- opis :
SummScreen Zbiór danych podsumowania, wersja bez anonimizacji, bez tokenizacji.
Podziały Train/val/test i filtrowanie są oparte na końcowym ztokenizowanym zbiorze danych, ale dostarczone transkrypty i podsumowania są oparte na nietokenizowanym tekście.
Istnieją dwie funkcje:
- transkrypt: pełne transkrypcje odcinków, każda linia dialogu oddzielona znakami nowej linii
Recap: Podsumowania lub streszczenia odcinków
Strona główna : https://github.com/mingdachen/SummScreen
Kod źródłowy :
tfds.datasets.summscreen.Builder
Wersje :
-
1.0.0
(domyślnie): Wersja początkowa.
-
Rozmiar pliku do pobrania :
841.27 MiB
Nadzorowane klucze (zobacz
as_supervised
doc ):('transcript', 'recap')
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Cytat :
@article{DBLP:journals/corr/abs-2104-07091,
author = {Mingda Chen and
Zewei Chu and
Sam Wiseman and
Kevin Gimpel},
title = {SummScreen: {A} Dataset for Abstractive Screenplay Summarization},
journal = {CoRR},
volume = {abs/2104.07091},
year = {2021},
url = {https://arxiv.org/abs/2104.07091},
archivePrefix = {arXiv},
eprint = {2104.07091},
timestamp = {Mon, 19 Apr 2021 16:45:47 +0200},
biburl = {https://dblp.org/rec/journals/corr/abs-2104-07091.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
summscreen/fd (domyślna konfiguracja)
Opis konfiguracji: ForeverDreaming
Rozmiar zestawu danych :
132.99 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :
Podział | Przykłady |
---|---|
'test' | 337 |
'train' | 3673 |
'validation' | 338 |
- Struktura funkcji :
FeaturesDict({
'episode_number': Text(shape=(), dtype=string),
'episode_title': Text(shape=(), dtype=string),
'recap': Text(shape=(), dtype=string),
'show_title': Text(shape=(), dtype=string),
'transcript': Text(shape=(), dtype=string),
'transcript_author': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
numer_odcinka | Tekst | strunowy | ||
tytuł_odcinka | Tekst | strunowy | ||
podsumowanie | Tekst | strunowy | ||
Pokaż Tytuł | Tekst | strunowy | ||
transkrypcja | Tekst | strunowy | ||
autor_transkrypcji | Tekst | strunowy |
- Przykłady ( tfds.as_dataframe ):
ekran sumaryczny/tms
Opis konfiguracji: TVMegaSite
Rozmiar zbioru danych :
592.53 MiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Podział | Przykłady |
---|---|
'test' | 1793 |
'train' | 18915 |
'validation' | 1795 |
- Struktura funkcji :
FeaturesDict({
'episode_summary': Text(shape=(), dtype=string),
'recap': Text(shape=(), dtype=string),
'recap_author': Text(shape=(), dtype=string),
'show_title': Text(shape=(), dtype=string),
'transcript': Text(shape=(), dtype=string),
'transcript_author': Tensor(shape=(None,), dtype=string),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
podsumowanie_odcinka | Tekst | strunowy | ||
podsumowanie | Tekst | strunowy | ||
recap_author | Tekst | strunowy | ||
Pokaż Tytuł | Tekst | strunowy | ||
transkrypcja | Tekst | strunowy | ||
autor_transkrypcji | Napinacz | (Nic,) | strunowy |
- Przykłady ( tfds.as_dataframe ):