Обзор методов обработки речевых сигналов в системах


Download 48.23 Kb.
Pdf ko'rish
bet1/2
Sana19.06.2023
Hajmi48.23 Kb.
#1604782
  1   2
Bog'liq
4-Кабаков



УДК 004.934.2
 
ОБЗОР МЕТОДОВ ОБРАБОТКИ РЕЧЕВЫХ СИГНАЛОВ В СИСТЕМАХ 
РАСПОЗНАВАНИЯ РЕЧИ 
 
И.А. Кабаков, 
студент 2 курса, напр. «Теоретическая радиотехника», 
ИСОиП ДГТУ (филиал), 
С.В. Маков,
доцент, 
ИСОиП ДГТУ (филиал), 
г. Шахты 
 
Аннотация: В статье описывается работа методов используемых в 
системах распознавания речи. Один из ключевых этапов проектирования 
автоматических систем распознавания речи - это выбор метода извлечения 
речевых признаков. В статье речь идет об акустических параметрах, которые 
определяются физиологическими свойствами речевого тракта человека. Они 
включают в себя такие параметры, как частота основной тона, огибающая 
спектра и форманты. Особое внимание уделяется алгоритмам линейного 
предсказания, 
кепстрального 
анализа 
и 
вейвлет-преобразования. 
Параметризация речевых характеристик является неотъемлемой частью 
процесса распознавания речи, эмоций, определения языка и гендера. 
Проведенный обзор может быть полезен для предварительной оценки и выборе 
метода для проектирования автоматических голосовых систем. 
Ключевые слова: анализ речи, кепстральные коэффициенты, линейное 
предсказание, преобразование Фурье, вейвлет-анализ 


Системы распознавания речи, которые используются в настоящее время 
для распознавания лексических элементов, собирают даже избыточную 
информацию. Распознавание речи — это сложная процедура, которая 
происходит в несколько этапов и требует распознавания образов, при этом 
речевые данные анализируются и классифицируются согласно заданной 
иерархии. Классифицированные образы могут быть представлены различными 
структурными элементами, например, отрезками речевых данных определенной 
длительности, такими как фонемы, слоги или слова. Чем больше 
предварительной информации доступно о входном сигнале, тем более точно его 
можно обработать и распознать. 
Есть несколько методов анализа на основе которых работает большинство 
систем распознавания речи: 
Мел-частотные 
кепстральные 
коэффициенты 
(MFCC) 
—мера 
спектральных характеристик голоса, которые используются для создания 
"отпечатка" голоса для последующего распознавания речи. Они изучают 
акустические свойства фонем, такие как форманты, амплитуда и длительность. 
Линейные предсказания (LPC) — это статистические методы, основанные 
на предположении, что основной сигнал речи может быть моделирован как 
комбинация краткосрочных звуковых элементов. Они используются для 
определения параметров голосового сигнала, таких как форманты и амплитуда. 
Коэффициенты вейвлет-преобразования (WTC) - это спектральные 
коэффициенты, полученные из разложения речевого сигнала на вейвлеты. 
Коэффициенты WTC используются для выявления особенностей речи, таких как 
форманты, которые могут использоваться для распознавания фонем. 
Марковские модели в системах распознавания речи используются для 
определения наиболее вероятного слова или фразы, соответствующих входному 
звуковому сигналу, основываясь на вероятностях, вычисленных на основе 
обученной модели и звукового сигнала. Чем точнее модель отображает 
зависимости между звуками и словами, тем выше точность распознавания речи 
[1-3]. 


Преобразование Фурье (ПФ) является одним из первых этапов 
большинства методов распознавания речи. Оно используется для 
преобразования сигнала из временной в частотную область и разложения его на 
частотные составляющие – получить спектр сигнала [4]: 
S(𝜔) =
1
2𝜋
∫ 𝑠(𝑡)𝑒
−𝑗𝜔𝑡
𝑑𝑡,

−∞
 
где 𝑠(𝑡) – массив временных значений речевого сигнала;
𝜔 =
2𝜋
𝑇
𝑐
= 2𝜋𝑓
0
– круговая частота; 
𝑡 – время. 
Использование преобразования Фурье предоставляет возможность 
представить информацию о речевом сигнале наглядно и компактно, но в то же 
время невозможно анализировать в спектральном виде кратковременные 
локальные особенности, что является серьезным недостатком ПФ. 
Анализ с использованием линейного предсказания. Метод LPC 
анализирует дискретный сигнал, содержащий речь, в кадрах по 20-30 
миллисекунд и моделирует его как линейную комбинацию предыдущих 
значений. Это позволяет определить параметры речи, такие как форманты, 
которые являются резонансными частотами ротовой полости во время 
произнесения звука. 
Линейное предсказание может быть использовано для определения 
различных аспектов речи: 
• 
Выявление формант (резонансных пиков в спектре звука). Форманты 
определяются как пики в спектре голосового сигнала, которые являются 
результатом резонанса внутри губ, языка и гортани. 
• 
Определение частоты основного тона голоса. Определяется частотой, на 
которой происходит вибрация голосовых связок. Частота основного тона может 
быть использована для определения высоты голоса. 
• 
Определение длительности звуковых сегментов. Может быть 
использовано, чтобы определить, сколько времени длится звуковой сигнал. 


Метод LPC используется для построения модели звуковых шаблонов
используемых для распознавания слов и фраз. Данный метод обеспечивает 
хорошую точность и скорость распознавания речи, поскольку он способен 
извлекать и использовать характеристики речи с высокой точностью и 
эффективностью, но очень чувствителен к шуму и искажениям в речевом 
сигнале [5]. 
Метод с использованием мел-частотных кепстральных коэффициентов 
(MFCC). MFCC - это параметры звукового сигнала, используемые для 
распознавания речи, анализа музыки и других цифровых обработок сигналов. 
Они рассчитываются следующим образом: 
1. Преобразование Фурье: сигнал преобразуется из временной области в 
частотную. 
2. Перевод в мел-частотный спектр: частоты переводятся в мел-частоты, 
которые лучше соответствуют восприятию человека, перевод частоты 
осуществляется по формуле:
𝑀𝑒𝑙(𝑓) = 2595𝑙𝑜𝑔
10
(1 +
𝑓
700
), 
где 𝑓 – частота в герцах, 𝑀𝑒𝑙 – частота в мелах. 
3. Кепстральное преобразование: преобразование логарифма мел-спектра 
в кепстральный коэффициент, который содержит информацию о формантах 
звука. 
𝐶
𝑠
(𝑞) =
1
2𝜋
∫ ln(𝑆(𝜔))
2
𝑒
𝑗𝜔

−∞
𝑑𝜔, 
где 𝑆(𝜔) – амплитудный спектр сигнала 𝑠(𝑡). 
4. Нормализация 
кепстральных 
коэффициентов: 
коэффициенты 
нормируются, чтобы уменьшить влияние шума [5]. 
Принципы работы MFCC основаны на биологической акустике и 
восприятии звука человеком. Они позволяют извлекать наиболее важные 
характеристики звукового сигнала и рассчитывать их в виде числовых значений, 
которые можно использовать для дальнейшей обработки и анализа. Важными 
принципами работы MFCC являются точность, надежность и эффективность 


вычислений, что делает их незаменимым инструментом в обработке 
аудиосигналов [6]. 
Метод на основе вейвлет-преобразования — это математический метод для 
анализа сигналов, который позволяет разложить сигнал на составляющие с 
различными частотами и амплитудами. Рассмотрим основные принципы расчета 
коэффициентов вейвлет-преобразования: 
1. Выбор вейвлета: выбирается базовая функция, называемая вейвлетом, 
которая является маленькой, периодической и ортогональной функцией. 
2. Разложение (Сдвиг): сигнал разбивается на составляющие с помощью 
вейвлета. Это достигается путем прохода вейвлета по сигналу и вычисления 
коэффициентов разложения на каждой итерации. 
3. Прореживание: 
после каждого шага разложения, полученные 
коэффициенты уменьшаются в два раза (прореживание). 
4. Обратное преобразование: мы можем получить оригинальный сигнал из 
его разложения, пройдя обратный путь: сначала восстанавливаем 
коэффициенты, затем склеиваем компоненты при помощи функции 
восстановления [7]. 
Основные принципы вейвлет-преобразования — это вычисление 
сигнальных коэффициентов, что происходит после применения вейвлета к 
исходному сигналу. При помощи понижения частоты дискретизации и 
наложения вейвлета на сигнал на каждом шаге (вейвлет-разложение) 
последовательно 
получаются 
низкочастотные 
и 
высокочастотные 
коэффициенты на всех уровнях. Важными свойствами вейвлет-преобразования 
являются хорошее разрешение по времени и частоте, быстродействие и 
сверхбыстрое преобразование. 
Правильный выбор метода извлечения речевых признаков существенно 
влияет на точность распознавания речи. Например, использование 
кепстрального анализа и вейвлет-преобразования может быть более эффективно 
для распознавания речи в шумных условиях, в то время как линейное 
предсказание может быть более точным при распознавании речи на фоне 


тишины. Кроме того, использование различных комбинаций методов может 
улучшить точность распознавания. Например, использование кепстрального 
анализа и вейвлет-преобразования вместе может дать лучший результат, чем 
использование только одного метода. Таким образом данный обзор, может 
упростить выбор метода для разработки системы распознавания речи. 

Download 48.23 Kb.

Do'stlaringiz bilan baham:
  1   2




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling