«Цифровое представление речевых сигналов»
Параметры речевого сигнала
Download 97.05 Kb.
|
М4-21 Абдусалямов Фаррух
Параметры речевого сигналаПри распознавании речевых сигналов, как правило, оперируют не с исходным речевым сигналом, а с его параметрами, вычисленными на кадре. Длина кадра обычно выбирается такой, чтобы длительность кадра по времени T=N/ν (сек.) составляла 10-20 мс. Пусть на текущем кадре длины N наблюдается последовательность отсчетов s1,...,sk,...,sN . Рассмотрим основные параметры речевого сигнала, используемые ниже. Кратковременная энергия речевого сигнала . Число нулей интенсивности Z , где . Коэффициенты разложения в ряд Фурье c0,c1,...,cN/2 Кадр определяет периодическую функцию с периодом 1, заданную на сетке из точек вида xl=l/N: fl=f(xl)=sk+1, если l=Nt+k, где 0≤k≤N-1, t - целое. Такую функцию можно разложить в ряд Фурье, т.е. представить в виде . Скалярное произведение для функций на сетке определяется сдедующим образом: . Функции gq(xl)=exp{2πiqxl} при 0≤q<N образуют ортонормированную систему относительно так введенного скалярного произведения. Коэффициенты Фурье можно найти по формуле (*) Непосредственное осуществление этих преобразований требует O(N2) арифметических операций. Для сокращения этого числа применяется алгоритм быстрого преобразования Фурье. Алгоритм основан на том, что при N=2m в слагаемых правой части выражений (*) можно выделить группы, входящие в выражения различных коэффициентов Aq. Вычисляя каждую группу только один раз можно сократить число операций до O(N×log2N). Если N≠2m, то в нашем случае можно добавить нулевые отсчеты. Разложение в ряд Фурье дает представление речевого сигнала в виде суммы гармонических колебаний с частотами ν(q). Запишем соотношение между частотой ν(q) и индексом q: ν(q) = qνD/N = 2-mqνD при q=0,1,...,N/2. Здесь νD - частота дискретизации. Значения спектра от q = N/2 + 1 до N-1 не содержат новой информации, т.к. значения fl действительны. Более точно при q=0,1,...,N/2. Удвоенное значение Aq - это комплексная амплитуда. Вещественные амплитуды получаются из них по формулам: c0=A0, cq=2|Aq| при q=1,...,N/2. Распределение энергии сигнала по частотным группам p1,...,p20 Одним из важнейших свойств слуха является разделение спектра звука на частотные группы. Слух может образовывать частотные группы на любом участке шкалы частот. В области частот ниже 500 Гц ширина частотных групп почти не зависит от средней частоты групп и составляет примерно 100 Гц. В области выше 500 Гц она увеличивается пропорционально средней частоте. Если частотные группы совместить в один ряд, то в диапазоне от 70 Гц до 7 кГц разместятся 20 частотных групп. Распределение энергии по частотным группам можно найти либо непосредственно с помощью гребенки соответствующих фильтров, либо с помощью коэффициентов разложения в ряд Фурье. Значение pi для частотной группы от частоты νi-1 до νi с шириной Hi=νi-νi-1 определяется по формуле: . Download 97.05 Kb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2025
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling