ljspeech

  • opis :

Jest to zbiór danych mowy należący do domeny publicznej, składający się z 13 100 krótkich klipów audio jednego mówcy czytającego fragmenty z 7 książek non-fiction. Do każdego klipu dołączona jest transkrypcja. Klipy mają różną długość od 1 do 10 sekund i mają łączną długość około 24 godzin.

Teksty zostały opublikowane w latach 1884-1964 i znajdują się w domenie publicznej. Dźwięk został nagrany w latach 2016-17 przez projekt LibriVox i również znajduje się w domenie publicznej.

Rozdzielać Przykłady
'train' 13100
  • Struktura funkcji :
FeaturesDict({
    'id': string,
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
    'text_normalized': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
ID Napinacz strunowy
przemówienie Audio (Nic,) int16
tekst Tekst strunowy
tekst_znormalizowany Tekst strunowy
  • Cytat :
@misc{ljspeech17,
  author       = {Keith Ito},
  title        = {The LJ Speech Dataset},
  howpublished = {\url{https://keithito.com/LJ-Speech-Dataset/} },
  year         = 2017
}