- opis :
Ten wielkoskalowy zbiór danych wywiadów medialnych zawiera 463,6 tys. transkryptów z abstrakcyjnymi podsumowaniami, zebranymi z transkrypcji wywiadów oraz przeglądów/opisów tematów z NPR i CNN.
Ogranicz wykorzystanie tego zestawu danych wyłącznie do celów badawczych.
I proszę zacytować nasz artykuł: MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization
Etyka
Użyliśmy tylko publicznie dostępnych transkrypcji danych ze źródeł medialnych i przestrzegamy ich wytycznych wyłącznie do celów badawczych.
Ponieważ media i goście mogą mieć stronnicze poglądy, transkrypcje i streszczenia prawdopodobnie będą je zawierać. Treść stenogramów i streszczeń odzwierciedla wyłącznie poglądy mediów i gości i powinna być traktowana z rozwagą.
Strona główna : https://github.com/zcgzcgzcg1/MediaSum
Kod źródłowy :
tfds.datasets.media_sum.Builder
Wersje :
-
1.0.0
(domyślnie): Wersja początkowa.
-
Rozmiar pliku do pobrania :
Unknown size
Rozmiar zestawu danych :
4.11 GiB
Instrukcje ręcznego pobierania : ten zestaw danych wymaga ręcznego pobrania danych źródłowych do katalogu
download_config.manual_dir
(domyślnie~/tensorflow_datasets/downloads/manual/
):
katalog_ręczny powinien zawierać pliki:- news_dialog.json
- train_val_test_split.json
Pliki można pobrać i wyodrębnić ze strony GitHub zestawu danych: https://github.com/zcgzcgzcg1/MediaSum/tree/main/data
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Podział | Przykłady |
---|---|
'test' | 10 000 |
'train' | 443 596 |
'val' | 10 000 |
- Struktura funkcji :
FeaturesDict({
'date': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'program': Text(shape=(), dtype=string),
'speaker': Sequence(Text(shape=(), dtype=string)),
'summary': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
'utt': Sequence(Text(shape=(), dtype=string)),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
data | Tekst | strunowy | ||
ID | Tekst | strunowy | ||
program | Tekst | strunowy | ||
głośnik | Sekwencja (tekst) | (Nic,) | strunowy | |
streszczenie | Tekst | strunowy | ||
adres URL | Tekst | strunowy | ||
utt | Sekwencja (tekst) | (Nic,) | strunowy |
Klucze nadzorowane (zobacz dokument
as_supervised
):('utt', 'summary')
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Przykłady ( tfds.as_dataframe ):
- Cytat :
@article{zhu2021mediasum,
title={MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization},
author={Zhu, Chenguang and Liu, Yang and Mei, Jie and Zeng, Michael},
journal={arXiv preprint arXiv:2103.06410},
year={2021}
}