reddit_tifu

  • Описание :

Набор данных Reddit, где TIFU обозначает название суббреддита /r/tifu. Как определено в публикации, «короткий» стиль использует заголовок в качестве сводки, а «длинный» использует tldr в качестве сводки.

Особенности включают в себя:

  • документ: опубликовать текст без tldr.
  • TLDR: строка TLDR.
  • title: обрезанный заголовок без tldr.
  • плюсы: плюсы.
  • оценка: оценка.
  • num_comments: количество комментариев.
  • upvote_ratio: соотношение голосов.

  • Дополнительная документация : изучить документы с кодом

  • Домашняя страница : https://github.com/ctr4si/MMN

  • Исходный код : tfds.datasets.reddit_tifu.Builder

  • Версии :

    • 1.1.0 : удалить пустой документ и сводные строки.
    • 1.1.1 : Добавьте сплиты train, dev и test (80/10/10), которые используются в PEGASUS ( https://arxiv.org/abs/1912.08777 ) в отдельной конфигурации. Они были созданы случайным образом с использованием функции разделения tfds и выпускаются, чтобы гарантировать воспроизводимость и сопоставимость результатов на Reddit Tifu Long. Также добавьте id к точкам данных.
    • 1.1.2 (по умолчанию): загружены исправленные сплиты.
  • Структура функции :

FeaturesDict({
    'documents': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'num_comments': float32,
    'score': float32,
    'title': Text(shape=(), dtype=string),
    'tldr': Text(shape=(), dtype=string),
    'ups': float32,
    'upvote_ratio': float32,
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
документы Текст нить
я бы Текст нить
num_comments Тензор поплавок32
счет Тензор поплавок32
заглавие Текст нить
tldr Текст нить
UPS Тензор поплавок32
upvote_ratio Тензор поплавок32
@misc{kim2018abstractive,
    title={Abstractive Summarization of Reddit Posts with Multi-level Memory Networks},
    author={Byeongchang Kim and Hyunwoo Kim and Gunhee Kim},
    year={2018},
    eprint={1811.00783},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

reddit_tifu/short (конфигурация по умолчанию)

  • Описание конфигурации : использование заголовка в качестве сводки.

  • Размер загрузки : 639.54 MiB

  • Размер набора данных : 141.46 MiB .

  • Автокэширование ( документация ): только когда shuffle_files=False (поезд)

  • Сплиты :

Расколоть Примеры
'train' 79 740

reddit_tifu/длинный

  • Описание конфигурации : Использование TLDR в качестве сводки.

  • Размер загрузки : 639.54 MiB

  • Размер набора данных : 93.10 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'train' 42 139

reddit_tifu/long_split

  • Описание конфигурации : использование TLDR в качестве сводки и возврата для разделения поезд/тест/разработка.

  • Размер загрузки : 639.94 MiB

  • Размер набора данных : 93.10 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'test' 4214
'train' 33 711
'validation' 4214