«Цифровое представление речевых сигналов»


Параметры речевого сигнала


Download 97.05 Kb.
bet2/5
Sana24.12.2022
Hajmi97.05 Kb.
#1062677
TuriСамостоятельная работа
1   2   3   4   5
Bog'liq
М4-21 Абдусалямов Фаррух

Параметры речевого сигнала


При распознавании речевых сигналов, как правило, оперируют не с исходным речевым сигналом, а с его параметрами, вычисленными на кадре. Длина кадра обычно выбирается такой, чтобы длительность кадра по времени T=N/ν (сек.) составляла 10-20 мс. Пусть на текущем кадре длины N наблюдается последовательность отсчетов s1,...,sk,...,sN . Рассмотрим основные параметры речевого сигнала, используемые ниже.

  1. Кратковременная энергия речевого сигнала

.

  1. Число нулей интенсивности Z

,
где  .

  1. Коэффициенты разложения в ряд Фурье c0,c1,...,cN/2

Кадр определяет периодическую функцию с периодом 1, заданную на сетке из точек вида xl=l/N:
fl=f(xl)=sk+1, если l=Nt+k, где 0≤kN-1, t - целое.
Такую функцию можно разложить в ряд Фурье, т.е. представить в виде
.
Скалярное произведение для функций на сетке определяется сдедующим образом:
.
Функции gq(xl)=exp{2πiqxl} при 0≤q<N образуют ортонормированную систему относительно так введенного скалярного произведения. Коэффициенты Фурье можно найти по формуле
(*)
Непосредственное осуществление этих преобразований требует O(N2) арифметических операций. Для сокращения этого числа применяется алгоритм быстрого преобразования Фурье. Алгоритм основан на том, что при N=2m в слагаемых правой части выражений (*) можно выделить группы, входящие в выражения различных коэффициентов Aq. Вычисляя каждую группу только один раз можно сократить число операций до O(N×log2N). Если N≠2m, то в нашем случае можно добавить нулевые отсчеты. Разложение в ряд Фурье дает представление речевого сигнала в виде суммы гармонических колебаний с частотами ν(q). Запишем соотношение между частотой ν(q) и индексом q:
ν(q) = qνD/N = 2-mqνD при q=0,1,...,N/2.
Здесь νD - частота дискретизации.
Значения спектра от q = N/2 + 1 до N-1 не содержат новой информации, т.к. значения fl действительны. Более точно
при q=0,1,...,N/2.
Удвоенное значение Aq - это комплексная амплитуда. Вещественные амплитуды получаются из них по формулам:
c0=A0cq=2|Aq| при q=1,...,N/2.

  1. Распределение энергии сигнала по частотным группам p1,...,p20

Одним из важнейших свойств слуха является разделение спектра звука на частотные группы. Слух может образовывать частотные группы на любом участке шкалы частот. В области частот ниже 500 Гц ширина частотных групп почти не зависит от средней частоты групп и составляет примерно 100 Гц. В области выше 500 Гц она увеличивается пропорционально средней частоте. Если частотные группы совместить в один ряд, то в диапазоне от 70 Гц до 7 кГц разместятся 20 частотных групп. Распределение энергии по частотным группам можно найти либо непосредственно с помощью гребенки соответствующих фильтров, либо с помощью коэффициентов разложения в ряд Фурье. Значение pi для частотной группы от частоты νi-1 до νi с шириной Hiii-1 определяется по формуле:
.

Download 97.05 Kb.

Do'stlaringiz bilan baham:
1   2   3   4   5




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2025
ma'muriyatiga murojaat qiling