
  • opis :

Zbiór danych IRC Disentanglement zawiera ponad 77 563 wiadomości z kanału Ubuntu IRC.

Funkcje obejmują identyfikator wiadomości, tekst wiadomości i znacznik czasu. Cel to lista wiadomości, na które odpowiada bieżąca wiadomość. Każdy rekord zawiera listę wiadomości z jednego dnia czatu IRC.

Rozdzielać Przykłady
'test' 10
'train' 153
'validation' 10
  • Struktura funkcji :
    'day': Sequence({
        'id': Text(shape=(), dtype=string),
        'parents': Sequence(Text(shape=(), dtype=string)),
        'text': Text(shape=(), dtype=string),
        'timestamp': Text(shape=(), dtype=string),
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
dzień Sekwencja
dzień/id Tekst strunowy
dzień/rodzice Sekwencja (tekst) (Nic,) strunowy
dzień/tekst Tekst strunowy
znacznik dnia/czasu Tekst strunowy
  • Cytat :
  author    = {Jonathan K. Kummerfeld and Sai R. Gouravajhala and Joseph Peper and Vignesh Athreya and Chulaka Gunasekara and Jatin Ganhotra and Siva Sankalp Patel and Lazaros Polymenakos and Walter S. Lasecki},
  title     = {A Large-Scale Corpus for Conversation Disentanglement},
  booktitle = {Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics},
  location  = {Florence, Italy},
  month     = {July},
  year      = {2019},
  doi       = {10.18653/v1/P19-1374},
  pages     = {3846--3856},
  url       = {},
  arxiv     = {},
  software  = {},
  data      = {},