media_sum

opis :

Ten wielkoskalowy zbiór danych wywiadów medialnych zawiera 463,6 tys. transkryptów z abstrakcyjnymi podsumowaniami, zebranymi z transkrypcji wywiadów oraz przeglądów/opisów tematów z NPR i CNN.

Ogranicz wykorzystanie tego zestawu danych wyłącznie do celów badawczych.

I proszę zacytować nasz artykuł: MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization

Etyka

Użyliśmy tylko publicznie dostępnych transkrypcji danych ze źródeł medialnych i przestrzegamy ich wytycznych wyłącznie do celów badawczych.

Ponieważ media i goście mogą mieć stronnicze poglądy, transkrypcje i streszczenia prawdopodobnie będą je zawierać. Treść stenogramów i streszczeń odzwierciedla wyłącznie poglądy mediów i gości i powinna być traktowana z rozwagą.

Strona główna : https://github.com/zcgzcgzcg1/MediaSum
Kod źródłowy : tfds.datasets.media_sum.Builder
Wersje :
- 1.0.0 (domyślnie): Wersja początkowa.
Rozmiar pliku do pobrania : Unknown size
Rozmiar zestawu danych : 4.11 GiB
Instrukcje ręcznego pobierania : ten zestaw danych wymaga ręcznego pobrania danych źródłowych do katalogu download_config.manual_dir (domyślnie ~/tensorflow_datasets/downloads/manual/ ):
katalog_ręczny powinien zawierać pliki:
- news_dialog.json
- train_val_test_split.json

Pliki można pobrać i wyodrębnić ze strony GitHub zestawu danych: https://github.com/zcgzcgzcg1/MediaSum/tree/main/data

Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :

Podział	Przykłady
`'test'`	10 000
`'train'`	443 596
`'val'`	10 000

Struktura funkcji :

FeaturesDict({
    'date': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'program': Text(shape=(), dtype=string),
    'speaker': Sequence(Text(shape=(), dtype=string)),
    'summary': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
    'utt': Sequence(Text(shape=(), dtype=string)),
})

Dokumentacja funkcji :

Funkcja	Klasa	Kształt	Typ D
	FunkcjeDict
data	Tekst		strunowy
ID	Tekst		strunowy
program	Tekst		strunowy
głośnik	Sekwencja (tekst)	(Nic,)	strunowy
streszczenie	Tekst		strunowy
adres URL	Tekst		strunowy
utt	Sekwencja (tekst)	(Nic,)	strunowy

Klucze nadzorowane (zobacz dokument as_supervised ): ('utt', 'summary')
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Przykłady ( tfds.as_dataframe ):

Cytat :

@article{zhu2021mediasum,
  title={MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization},
  author={Zhu, Chenguang and Liu, Yang and Mei, Jie and Zeng, Michael},
  journal={arXiv preprint arXiv:2103.06410},
  year={2021}
}

media_sum Zadbaj o dobrą organizację dzięki kolekcji Zapisuj i kategoryzuj treści zgodnie ze swoimi preferencjami.

Etyka

media_sum