- Описание :
Этот набор данных содержит около 3 млн сообщений с Reddit. Каждое сообщение помечено метаданными. Задача состоит в том, чтобы предсказать идентификатор своего родительского сообщения в соответствующем потоке. Каждая запись содержит список сообщений из одного потока. Дублированные и неработающие записи удаляются из набора данных.
Особенности:
- id - идентификатор сообщения
- текст - текст сообщения
- автор - автор сообщения
- created_utc - временная метка сообщения в формате UTC
- link_id - id поста, к которому относится комментарий
Цель:
parent_id - id родительского сообщения в текущем треде
Домашняя страница : https://github.com/henghuiz/MaskedHierarchicalTransformer
Исходный код :
tfds.datasets.reddit_disentanglement.Builder
Версии :
-
2.0.0
(по умолчанию): нет примечаний к выпуску.
-
Размер загрузки :
Unknown size
Размер набора данных :
Unknown size
Инструкции по ручной загрузке : этот набор данных требует, чтобы вы загружали исходные данные вручную в
download_config.manual_dir
(по умолчанию~/tensorflow_datasets/downloads/manual/
):
Загрузите https://github.com/henghuiz/MaskedHierarchicalTransformer, распакуйте файл raw_data.zip и запустите generate_dataset.py с вашими учетными данными Reddit API. Затем поместите train.csv, val.csv и test.csv из выходного каталога в папку руководства.Автокэширование ( документация ): неизвестно
Сплиты :
Расколоть | Примеры |
---|
- Структура функции :
FeaturesDict({
'thread': Sequence({
'author': Text(shape=(), dtype=string),
'created_utc': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'link_id': Text(shape=(), dtype=string),
'parent_id': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
}),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
нить | Последовательность | |||
тема/автор | Текст | нить | ||
поток / created_utc | Текст | нить | ||
поток/идентификатор | Текст | нить | ||
поток/link_id | Текст | нить | ||
поток/parent_id | Текст | нить | ||
нить/текст | Текст | нить |
Ключи под наблюдением (см . документ
as_supervised
):None
Рисунок ( tfds.show_examples ): не поддерживается.
Примеры ( tfds.as_dataframe ): отсутствует.
Цитата :
@article{zhu2019did,
title={Who did They Respond to? Conversation Structure Modeling using Masked Hierarchical Transformer},
author={Zhu, Henghui and Nan, Feng and Wang, Zhiguo and Nallapati, Ramesh and Xiang, Bing},
journal={arXiv preprint arXiv:1911.10666},
year={2019}
}