- Описание :
NEWSROOM — это большой набор данных для обучения и оценки систем обобщения. Он содержит 1,3 миллиона статей и резюме, написанных авторами и редакторами в отделах новостей 38 крупных изданий.
Функции набора данных включают в себя:
- текст: введите текст новости.
- Сводка: Сводка к новостям.
И дополнительные возможности:
- заголовок: заголовок новости.
- url: адрес новости.
- дата: дата статьи.
- плотность: экстрактивная плотность.
- покрытие: экстрактивное покрытие.
- сжатие: степень сжатия.
- Density_bin: низкая, средняя, высокая.
- coverage_bin: извлекающий, абстрактный.
- сжатие_bin: низкое, среднее, высокое.
Этот набор данных можно загрузить по запросу. Разархивируйте все содержимое «train.jsonl, dev.jsonl, test.jsonl» в папку tfds.
Дополнительная документация : изучить документы с кодом
Домашняя страница : https://summari.es
Исходный код :
tfds.datasets.newsroom.Builder
Версии :
-
1.0.0
(по умолчанию): нет примечаний к выпуску.
-
Размер загрузки :
Unknown size
Размер набора данных :
5.13 GiB
Инструкции по ручной загрузке : этот набор данных требует, чтобы вы загружали исходные данные вручную в
download_config.manual_dir
(по умолчанию~/tensorflow_datasets/downloads/manual/
):
Вы должны загрузить набор данных с https://summari.es/download/ . Веб-страница требует регистрации. После загрузки поместите файлы dev.jsonl, test.jsonl и train.jsonl в manual_dir.Автоматическое кэширование ( документация ): Нет
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 108 862 |
'train' | 995 041 |
'validation' | 108 837 |
- Структура функции :
FeaturesDict({
'compression': float32,
'compression_bin': Text(shape=(), dtype=string),
'coverage': float32,
'coverage_bin': Text(shape=(), dtype=string),
'date': Text(shape=(), dtype=string),
'density': float32,
'density_bin': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Сорт | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
компрессия | Тензор | поплавок32 | ||
сжатие_bin | Текст | нить | ||
покрытие | Тензор | поплавок32 | ||
покрытие_bin | Текст | нить | ||
дата | Текст | нить | ||
плотность | Тензор | поплавок32 | ||
плотность_bin | Текст | нить | ||
резюме | Текст | нить | ||
текст | Текст | нить | ||
заголовок | Текст | нить | ||
URL | Текст | нить |
Контролируемые ключи (см.
as_supervised
doc ):('text', 'summary')
Рисунок ( tfds.show_examples ): не поддерживается.
Примеры ( tfds.as_dataframe ):
- Цитата :
@article{Grusky_2018,
title={Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies},
url={http://dx.doi.org/10.18653/v1/n18-1065},
DOI={10.18653/v1/n18-1065},
journal={Proceedings of the 2018 Conference of the North American Chapter of
the Association for Computational Linguistics: Human Language
Technologies, Volume 1 (Long Papers)},
publisher={Association for Computational Linguistics},
author={Grusky, Max and Naaman, Mor and Artzi, Yoav},
year={2018}
}