- opis :
Zbiór danych IRC Disentanglement zawiera ponad 77 563 wiadomości z kanału Ubuntu IRC.
Funkcje obejmują identyfikator wiadomości, tekst wiadomości i znacznik czasu. Cel to lista wiadomości, na które odpowiada bieżąca wiadomość. Każdy rekord zawiera listę wiadomości z jednego dnia czatu IRC.
Dodatkowa dokumentacja : Przeglądaj dokumenty z kodem
Strona główna : https://jkk.name/irc-disentanglement
Kod źródłowy :
tfds.datasets.irc_disentanglement.Builder
Wersje :
-
2.0.0
(domyślnie): Brak informacji o wersji.
-
Rozmiar pliku do pobrania :
113.53 MiB
Rozmiar zestawu danych :
26.59 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 10 |
'train' | 153 |
'validation' | 10 |
- Struktura funkcji :
FeaturesDict({
'day': Sequence({
'id': Text(shape=(), dtype=string),
'parents': Sequence(Text(shape=(), dtype=string)),
'text': Text(shape=(), dtype=string),
'timestamp': Text(shape=(), dtype=string),
}),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
dzień | Sekwencja | |||
dzień/id | Tekst | strunowy | ||
dzień/rodzice | Sekwencja (tekst) | (Nic,) | strunowy | |
dzień/tekst | Tekst | strunowy | ||
znacznik dnia/czasu | Tekst | strunowy |
Klucze nadzorowane (Zobacz dokument
as_supervised
):None
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Przykłady ( tfds.as_dataframe ):
- Cytat :
@InProceedings{acl19disentangle,
author = {Jonathan K. Kummerfeld and Sai R. Gouravajhala and Joseph Peper and Vignesh Athreya and Chulaka Gunasekara and Jatin Ganhotra and Siva Sankalp Patel and Lazaros Polymenakos and Walter S. Lasecki},
title = {A Large-Scale Corpus for Conversation Disentanglement},
booktitle = {Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics},
location = {Florence, Italy},
month = {July},
year = {2019},
doi = {10.18653/v1/P19-1374},
pages = {3846--3856},
url = {https://aclweb.org/anthology/papers/P/P19/P19-1374/},
arxiv = {https://arxiv.org/abs/1810.11118},
software = {https://jkk.name/irc-disentanglement},
data = {https://jkk.name/irc-disentanglement},
}