- Описание :
Набор данных IRC Disentanglement содержит более 77 563 сообщений из IRC-канала Ubuntu.
Особенности включают идентификатор сообщения, текст сообщения и метку времени. Цель — это список сообщений, на которые отвечает текущее сообщение. Каждая запись содержит список сообщений за один день IRC-чата.
Дополнительная документация : изучить документы с кодом
Домашняя страница : https://jkk.name/irc-disentanglement
Исходный код :
tfds.datasets.irc_disentanglement.Builder
Версии :
-
2.0.0
(по умолчанию): нет примечаний к выпуску.
-
Размер загрузки :
113.53 MiB
Размер набора данных :
26.59 MiB
Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 10 |
'train' | 153 |
'validation' | 10 |
- Структура функции :
FeaturesDict({
'day': Sequence({
'id': Text(shape=(), dtype=string),
'parents': Sequence(Text(shape=(), dtype=string)),
'text': Text(shape=(), dtype=string),
'timestamp': Text(shape=(), dtype=string),
}),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
день | Последовательность | |||
день/идентификатор | Текст | нить | ||
день/родители | Последовательность (текст) | (Никто,) | нить | |
день/текст | Текст | нить | ||
день/отметка времени | Текст | нить |
Ключи под наблюдением (см. документ
as_supervised
):None
Рисунок ( tfds.show_examples ): не поддерживается.
Примеры ( tfds.as_dataframe ):
- Цитата :
@InProceedings{acl19disentangle,
author = {Jonathan K. Kummerfeld and Sai R. Gouravajhala and Joseph Peper and Vignesh Athreya and Chulaka Gunasekara and Jatin Ganhotra and Siva Sankalp Patel and Lazaros Polymenakos and Walter S. Lasecki},
title = {A Large-Scale Corpus for Conversation Disentanglement},
booktitle = {Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics},
location = {Florence, Italy},
month = {July},
year = {2019},
doi = {10.18653/v1/P19-1374},
pages = {3846--3856},
url = {https://aclweb.org/anthology/papers/P/P19/P19-1374/},
arxiv = {https://arxiv.org/abs/1810.11118},
software = {https://jkk.name/irc-disentanglement},
data = {https://jkk.name/irc-disentanglement},
}