libritts

  • opis :

LibriTTS to wielojęzyczny zbiór około 585 godzin angielskiej mowy czytanej z częstotliwością próbkowania 24 kHz, przygotowany przez Heiga Zen z pomocą członków zespołu Google Speech i Google Brain. Korpus LibriTTS jest przeznaczony do badań TTS. Pochodzi z oryginalnych materiałów (plików audio mp3 z LibriVox i plików tekstowych z Project Gutenberg) z korpusu LibriSpeech. Główne różnice w stosunku do korpusu LibriSpeech są wymienione poniżej:

  1. Pliki audio mają częstotliwość próbkowania 24 kHz.
  2. Mowa jest podzielona na przerwy w zdaniach.
  3. Uwzględniono zarówno teksty oryginalne, jak i znormalizowane.
  4. Można wyodrębnić informacje kontekstowe (np. sąsiednie zdania).
  5. Wypowiedzi ze znacznym hałasem w tle są wykluczone.
Rozdzielać Przykłady
'dev_clean' 5736
'dev_other' 4613
'test_clean' 4837
'test_other' 5120
'train_clean100' 33236
'train_clean360' 116 500
'train_other500' 205044
  • Struktura funkcji :
FeaturesDict({
    'chapter_id': int64,
    'id': string,
    'speaker_id': int64,
    'speech': Audio(shape=(None,), dtype=int64),
    'text_normalized': Text(shape=(), dtype=string),
    'text_original': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
identyfikator_rozdziału Napinacz int64
ID Napinacz strunowy
identyfikator_mówcy Napinacz int64
przemówienie Audio (Nic,) int64
tekst_znormalizowany Tekst strunowy
tekst_oryginał Tekst strunowy
  • Cytat :
@inproceedings{zen2019libritts,
  title = {LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech},
  author = {H. Zen and V. Dang and R. Clark and Y. Zhang and R. J. Weiss and Y. Jia and Z. Chen and Y. Wu},
  booktitle = {Proc. Interspeech},
  month = sep,
  year = {2019},
  doi = {10.21437/Interspeech.2019-2441},
}