- opis :
Jest to zbiór danych mowy należący do domeny publicznej, składający się z 13 100 krótkich klipów audio jednego mówcy czytającego fragmenty z 7 książek non-fiction. Do każdego klipu dołączona jest transkrypcja. Klipy mają różną długość od 1 do 10 sekund i mają łączną długość około 24 godzin.
Teksty zostały opublikowane w latach 1884-1964 i znajdują się w domenie publicznej. Dźwięk został nagrany w latach 2016-17 przez projekt LibriVox i również znajduje się w domenie publicznej.
Dodatkowa dokumentacja : Przeglądaj dokumenty z kodem
Strona główna : https://keithito.com/LJ-Speech-Dataset/
Kod źródłowy :
tfds.datasets.ljspeech.Builder
Wersje :
-
1.1.1
(domyślnie): Napraw typ danych mowy za pomocą dtype=tf.int16.
-
Rozmiar pliku do pobrania :
2.56 GiB
Rozmiar zestawu danych :
10.73 GiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Rozdzielać | Przykłady |
---|---|
'train' | 13100 |
- Struktura funkcji :
FeaturesDict({
'id': string,
'speech': Audio(shape=(None,), dtype=int16),
'text': Text(shape=(), dtype=string),
'text_normalized': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
ID | Napinacz | strunowy | ||
przemówienie | Audio | (Nic,) | int16 | |
tekst | Tekst | strunowy | ||
tekst_znormalizowany | Tekst | strunowy |
Klucze nadzorowane (zobacz dokument
as_supervised
):('text_normalized', 'speech')
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Przykłady ( tfds.as_dataframe ):
- Cytat :
@misc{ljspeech17,
author = {Keith Ito},
title = {The LJ Speech Dataset},
howpublished = {\url{https://keithito.com/LJ-Speech-Dataset/} },
year = 2017
}