- Описание :
Это общедоступный набор речевых данных, состоящий из 13 100 коротких аудиоклипов, в которых один спикер читает отрывки из 7 научно-популярных книг. Транскрипция предоставляется для каждого клипа. Клипы различаются по длине от 1 до 10 секунд и имеют общую продолжительность примерно 24 часа.
Тексты были опубликованы между 1884 и 1964 годами и находятся в общественном достоянии. Аудио было записано в 2016-17 годах проектом LibriVox и также находится в открытом доступе.
Дополнительная документация : изучить документы с кодом
Домашняя страница : https://keithito.com/LJ-Speech-Dataset/
Исходный код :
tfds.datasets.ljspeech.Builder
Версии :
-
1.1.1
(по умолчанию): исправлен тип речевых данных с dtype=tf.int16.
-
Размер загрузки :
2.56 GiB
Размер набора данных :
10.73 GiB
Автоматическое кэширование ( документация ): Нет
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 13 100 |
- Структура функции :
FeaturesDict({
'id': string,
'speech': Audio(shape=(None,), dtype=int16),
'text': Text(shape=(), dtype=string),
'text_normalized': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
я бы | Тензор | нить | ||
речь | Аудио | (Никто,) | int16 | |
текст | Текст | нить | ||
text_normalized | Текст | нить |
Контролируемые ключи (см. документ
as_supervised
):('text_normalized', 'speech')
Рисунок ( tfds.show_examples ): не поддерживается.
Примеры ( tfds.as_dataframe ):
- Цитата :
@misc{ljspeech17,
author = {Keith Ito},
title = {The LJ Speech Dataset},
howpublished = {\url{https://keithito.com/LJ-Speech-Dataset/} },
year = 2017
}