- opis :
LibriSpeech to zbiór około 1000 godzin czytanej mowy angielskiej z częstotliwością próbkowania 16 kHz, przygotowany przez Vassila Panayotova z pomocą Daniela Poveya. Dane pochodzą z przeczytanych audiobooków z projektu LibriVox i zostały starannie podzielone i wyrównane.
Zaleca się użycie leniwego dekodowania dźwięku w celu szybszego odczytu i mniejszego rozmiaru zestawu danych: - zainstaluj bibliotekę tensorflow_io
: pip install tensorflow-io
- włącz leniwe dekodowanie: tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})
Dodatkowa dokumentacja : Przeglądaj dokumenty z kodem na
Strona główna : http://www.openslr.org/12
Kod źródłowy :
tfds.datasets.librispeech.Builder
Rozmiar pliku do pobrania :
57.14 GiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Podział | Przykłady |
---|---|
'dev_clean' | 2703 |
'dev_other' | 2864 |
'test_clean' | 2620 |
'test_other' | 2939 |
'train_clean100' | 28539 |
'train_clean360' | 104 014 |
'train_other500' | 148688 |
- Struktura funkcji :
FeaturesDict({
'chapter_id': int64,
'id': string,
'speaker_id': int64,
'speech': Audio(shape=(None,), dtype=int16),
'text': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształtować się | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
identyfikator_rozdziału | Napinacz | int64 | ||
ID | Napinacz | strunowy | ||
identyfikator_mówcy | Napinacz | int64 | ||
przemówienie | Audio | (Nic,) | int16 | |
tekst | Tekst | strunowy |
Nadzorowane klucze (Zobacz
as_supervised
doc ):('speech', 'text')
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Cytat :
@inproceedings{panayotov2015librispeech,
title={Librispeech: an ASR corpus based on public domain audio books},
author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
pages={5206--5210},
year={2015},
organization={IEEE}
}
librispeech/default (domyślna konfiguracja)
Opis konfiguracji : domyślny zestaw danych.
Wersje :
-
2.1.1
(domyślnie): Napraw typ danych mowy za pomocą dtype=tf.int16. -
2.1.2
: Dodaj konfigurację „lazy_decode”.
-
Rozmiar zestawu danych :
304.47 GiB
Przykłady ( tfds.as_dataframe ):
librispeech/lazy_decode
Opis konfiguracji : nieprzetworzony zestaw danych audio.
Wersje :
-
2.1.1
: Napraw typ danych mowy za pomocą dtype=tf.int16. -
2.1.2
(domyślnie): Dodaj konfigurację „lazy_decode”.
-
Rozmiar zestawu danych :
59.37 GiB
Przykłady ( tfds.as_dataframe ): Brak.
- opis :
LibriSpeech to zbiór około 1000 godzin czytanej mowy angielskiej z częstotliwością próbkowania 16 kHz, przygotowany przez Vassila Panayotova z pomocą Daniela Poveya. Dane pochodzą z przeczytanych audiobooków z projektu LibriVox i zostały starannie podzielone i wyrównane.
Zaleca się użycie leniwego dekodowania dźwięku w celu szybszego odczytu i mniejszego rozmiaru zestawu danych: - zainstaluj bibliotekę tensorflow_io
: pip install tensorflow-io
- włącz leniwe dekodowanie: tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})
Dodatkowa dokumentacja : Przeglądaj dokumenty z kodem na
Strona główna : http://www.openslr.org/12
Kod źródłowy :
tfds.datasets.librispeech.Builder
Rozmiar pliku do pobrania :
57.14 GiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :
Podział | Przykłady |
---|---|
'dev_clean' | 2703 |
'dev_other' | 2864 |
'test_clean' | 2620 |
'test_other' | 2939 |
'train_clean100' | 28539 |
'train_clean360' | 104 014 |
'train_other500' | 148688 |
- Struktura funkcji :
FeaturesDict({
'chapter_id': int64,
'id': string,
'speaker_id': int64,
'speech': Audio(shape=(None,), dtype=int16),
'text': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształtować się | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
identyfikator_rozdziału | Napinacz | int64 | ||
ID | Napinacz | strunowy | ||
identyfikator_mówcy | Napinacz | int64 | ||
przemówienie | Audio | (Nic,) | int16 | |
tekst | Tekst | strunowy |
Nadzorowane klucze (Zobacz
as_supervised
doc ):('speech', 'text')
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Cytat :
@inproceedings{panayotov2015librispeech,
title={Librispeech: an ASR corpus based on public domain audio books},
author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
pages={5206--5210},
year={2015},
organization={IEEE}
}
librispeech/default (domyślna konfiguracja)
Opis konfiguracji : domyślny zestaw danych.
Wersje :
-
2.1.1
(domyślnie): Napraw typ danych mowy za pomocą dtype=tf.int16. -
2.1.2
: Dodaj konfigurację „lazy_decode”.
-
Rozmiar zestawu danych :
304.47 GiB
Przykłady ( tfds.as_dataframe ):
librispeech/lazy_decode
Opis konfiguracji : nieprzetworzony zestaw danych audio.
Wersje :
-
2.1.1
: Napraw typ danych mowy za pomocą dtype=tf.int16. -
2.1.2
(domyślnie): Dodaj konfigurację „lazy_decode”.
-
Rozmiar zestawu danych :
59.37 GiB
Przykłady ( tfds.as_dataframe ): Brak.