ljspeech

opis :

Jest to zbiór danych mowy należący do domeny publicznej, składający się z 13 100 krótkich klipów audio jednego mówcy czytającego fragmenty z 7 książek non-fiction. Do każdego klipu dołączona jest transkrypcja. Klipy mają różną długość od 1 do 10 sekund i mają łączną długość około 24 godzin.

Teksty zostały opublikowane w latach 1884-1964 i znajdują się w domenie publicznej. Dźwięk został nagrany w latach 2016-17 przez projekt LibriVox i również znajduje się w domenie publicznej.

Dodatkowa dokumentacja : Przeglądaj dokumenty z kodem
Strona główna : https://keithito.com/LJ-Speech-Dataset/
Kod źródłowy : tfds.datasets.ljspeech.Builder
Wersje :
- 1.1.1 (domyślnie): Napraw typ danych mowy za pomocą dtype=tf.int16.
Rozmiar pliku do pobrania : 2.56 GiB
Rozmiar zestawu danych : 10.73 GiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :

Rozdzielać	Przykłady
`'train'`	13100

Struktura funkcji :

FeaturesDict({
    'id': string,
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
    'text_normalized': Text(shape=(), dtype=string),
})

Dokumentacja funkcji :

Funkcja	Klasa	Kształt	Typ D
	FunkcjeDict
ID	Napinacz		strunowy
przemówienie	Audio	(Nic,)	int16
tekst	Tekst		strunowy
tekst_znormalizowany	Tekst		strunowy

Klucze nadzorowane (zobacz dokument as_supervised ): ('text_normalized', 'speech')
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Przykłady ( tfds.as_dataframe ):

Cytat :

@misc{ljspeech17,
  author       = {Keith Ito},
  title        = {The LJ Speech Dataset},
  howpublished = {\url{https://keithito.com/LJ-Speech-Dataset/} },
  year         = 2017
}

ljspeech Zadbaj o dobrą organizację dzięki kolekcji Zapisuj i kategoryzuj treści zgodnie ze swoimi preferencjami.

ljspeech