- Описание :
Набор звуковых данных произносимых слов, предназначенный для обучения и оценки систем определения ключевых слов. Его основная цель — предоставить способ создания и тестирования небольших моделей, которые определяют, когда произносится одно слово из набора из десяти целевых слов, с минимальным количеством ложных срабатываний из-за фонового шума или несвязанной речи. Обратите внимание, что в наборе поезда и проверки метка «неизвестно» гораздо более распространена, чем метки целевых слов или фонового шума. Одним из отличий от версии выпуска является обработка сегментов молчания. В то время как в тестовом наборе сегменты тишины представляют собой обычные 1-секундные файлы, в обучении они представлены в виде длинных сегментов в папке «background_noise». Здесь мы разбиваем этот фоновый шум на 1-секундные клипы, а также сохраняем один из файлов для проверочного набора.
Дополнительная документация : изучить документы с кодом
Домашняя страница : https://arxiv.org/abs/1804.03209
Исходный код :
tfds.datasets.speech_commands.Builder
Версии :
-
0.0.3
(по умолчанию): Исправлен тип аудиоданных с dtype=tf.int16.
-
Размер загрузки :
2.37 GiB
Размер набора данных :
8.17 GiB
Автоматическое кэширование ( документация ): Нет
Сплиты :
Расколоть | Примеры |
---|---|
'test' | 4890 |
'train' | 85 511 |
'validation' | 10 102 |
- Структура функции :
FeaturesDict({
'audio': Audio(shape=(None,), dtype=int16),
'label': ClassLabel(shape=(), dtype=int64, num_classes=12),
})
- Документация по функциям :
Характерная черта | Класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
аудио | Аудио | (Никто,) | int16 | |
этикетка | Метка класса | int64 |
Контролируемые ключи (см . документ
as_supervised
):('audio', 'label')
Рисунок ( tfds.show_examples ): не поддерживается.
Примеры ( tfds.as_dataframe ):
- Цитата :
@article{speechcommandsv2,
author = { {Warden}, P.},
title = "{Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition}",
journal = {ArXiv e-prints},
archivePrefix = "arXiv",
eprint = {1804.03209},
primaryClass = "cs.CL",
keywords = {Computer Science - Computation and Language, Computer Science - Human-Computer Interaction},
year = 2018,
month = apr,
url = {https://arxiv.org/abs/1804.03209},
}