librispeech

  • opis :

LibriSpeech to zbiór około 1000 godzin czytanej mowy angielskiej z częstotliwością próbkowania 16 kHz, przygotowany przez Vassila Panayotova z pomocą Daniela Poveya. Dane pochodzą z przeczytanych audiobooków z projektu LibriVox i zostały starannie podzielone i wyrównane.

Zaleca się użycie leniwego dekodowania dźwięku w celu szybszego odczytu i mniejszego rozmiaru zestawu danych: - zainstaluj bibliotekę tensorflow_io : pip install tensorflow-io - włącz leniwe dekodowanie: tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})

Podział Przykłady
'dev_clean' 2703
'dev_other' 2864
'test_clean' 2620
'test_other' 2939
'train_clean100' 28539
'train_clean360' 104 014
'train_other500' 148688
  • Struktura funkcji :
FeaturesDict({
    'chapter_id': int64,
    'id': string,
    'speaker_id': int64,
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształtować się Typ D Opis
FunkcjeDict
identyfikator_rozdziału Napinacz int64
ID Napinacz strunowy
identyfikator_mówcy Napinacz int64
przemówienie Audio (Nic,) int16
tekst Tekst strunowy
@inproceedings{panayotov2015librispeech,
  title={Librispeech: an ASR corpus based on public domain audio books},
  author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
  booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
  pages={5206--5210},
  year={2015},
  organization={IEEE}
}

librispeech/default (domyślna konfiguracja)

  • Opis konfiguracji : domyślny zestaw danych.

  • Wersje :

    • 2.1.1 (domyślnie): Napraw typ danych mowy za pomocą dtype=tf.int16.
    • 2.1.2 : Dodaj konfigurację „lazy_decode”.
  • Rozmiar zestawu danych : 304.47 GiB

  • Przykłady ( tfds.as_dataframe ):

librispeech/lazy_decode

  • Opis konfiguracji : nieprzetworzony zestaw danych audio.

  • Wersje :

    • 2.1.1 : Napraw typ danych mowy za pomocą dtype=tf.int16.
    • 2.1.2 (domyślnie): Dodaj konfigurację „lazy_decode”.
  • Rozmiar zestawu danych : 59.37 GiB

  • Przykłady ( tfds.as_dataframe ): Brak.

,

  • opis :

LibriSpeech to zbiór około 1000 godzin czytanej mowy angielskiej z częstotliwością próbkowania 16 kHz, przygotowany przez Vassila Panayotova z pomocą Daniela Poveya. Dane pochodzą z przeczytanych audiobooków z projektu LibriVox i zostały starannie podzielone i wyrównane.

Zaleca się użycie leniwego dekodowania dźwięku w celu szybszego odczytu i mniejszego rozmiaru zestawu danych: - zainstaluj bibliotekę tensorflow_io : pip install tensorflow-io - włącz leniwe dekodowanie: tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})

Podział Przykłady
'dev_clean' 2703
'dev_other' 2864
'test_clean' 2620
'test_other' 2939
'train_clean100' 28539
'train_clean360' 104 014
'train_other500' 148688
  • Struktura funkcji :
FeaturesDict({
    'chapter_id': int64,
    'id': string,
    'speaker_id': int64,
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształtować się Typ D Opis
FunkcjeDict
identyfikator_rozdziału Napinacz int64
ID Napinacz strunowy
identyfikator_mówcy Napinacz int64
przemówienie Audio (Nic,) int16
tekst Tekst strunowy
@inproceedings{panayotov2015librispeech,
  title={Librispeech: an ASR corpus based on public domain audio books},
  author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
  booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
  pages={5206--5210},
  year={2015},
  organization={IEEE}
}

librispeech/default (domyślna konfiguracja)

  • Opis konfiguracji : domyślny zestaw danych.

  • Wersje :

    • 2.1.1 (domyślnie): Napraw typ danych mowy za pomocą dtype=tf.int16.
    • 2.1.2 : Dodaj konfigurację „lazy_decode”.
  • Rozmiar zestawu danych : 304.47 GiB

  • Przykłady ( tfds.as_dataframe ):

librispeech/lazy_decode

  • Opis konfiguracji : nieprzetworzony zestaw danych audio.

  • Wersje :

    • 2.1.1 : Napraw typ danych mowy za pomocą dtype=tf.int16.
    • 2.1.2 (domyślnie): Dodaj konfigurację „lazy_decode”.
  • Rozmiar zestawu danych : 59.37 GiB

  • Przykłady ( tfds.as_dataframe ): Brak.