Векторное квантование параметров модели речеобразования вокодера на базе линейного предсказания

Download 83.15 Kb.

bet	1/2
Sana	28.01.2023
Hajmi	83.15 Kb.
	#1136329
Turi	Практическая работа

1 2

Bog'liq
4-ПРАКТИЧЕСКАЯ РАБОТА

Практическая работа № 4
Тема: Векторное квантование параметров модели речеобразования вокодера на базе линейного предсказания

Кодирование речи на основе метода линейного предсказания заключается в том, что по линии связи передаются не параметры речевого сигнала (РС), как такового, а параметры некоторого фильтра, в известном смысле эквивалентного голосовому тракту, и параметры сигнала возбуждения этого фильтра. В качестве такого фильтра используется фильтр линейного предсказания (ФЛП), названный ранее фильтром-анализатором с передаточной функцией A(z). При кодировании (на передаче) производится оценка параметров ФЛП и параметров сигнала возбуждения, а при декодировании (на приеме) - сигнал возбуждения пропускается через фильтр-синтезатор, на выходе которого получается восстановленный сигнал речи. Различные варианты алгоритмов кодирования отличаются набором передаваемых параметров фильтра, методом формирования сигнала возбуждения и рядом других деталей, а процедура кодирования речи сводится к следующему (рис. 4.1):

оцифрованный сигнал речи "нарезается" на сегменты длительностью 20 мс;
для каждого сегмента оцениваются параметры ФЛП и параметры сигнала возбуждения; в качестве сигнала возбуждения в простейшем (по идее) случае может выступать остаток предсказания, получаемый при пропускании сегмента речи через фильтр A(z) с параметрами, полученными из оценки для данного сегмента;
параметры фильтра и параметры сигнала возбуждения кодируются по определенному закону и передаются в канал связи.

Рис. 4.1. Кодирование речи на основе метода линейного предсказания
Процедура декодирования речи заключается в пропускании принятого сигнала возбуждения через синтезирующий фильтр известной структуры, параметры которого переданы одновременно с сигналом возбуждения. Сигнал на вход анализирующего фильтра поступает непосредственно с выхода АЦП, а выходной сигнал синтезирующего фильтра попадает на вход ЦАП. Приведенное описание процессов кодирования и декодирования речи не является исчерпывающим, оно объясняет лишь принцип действия кодека. Практические схемы заметно сложнее, и это связано в основном со следующими двумя моментами.
Во-первых, речевой сигнал обладает двумя видами внутренних корреляционных связей, кратковременной и долговременной избыточностью, поэтому в подавляющем большинстве современных речевых кодеков используется два предсказателя: кратковременный (SHORT-TERM) и долговременный (LONG-TERM). Первый предсказатель (STP), учитывающий кратковременную избыточность РС, связан с корреляциями между близко расположенными отсчетами сигнала и определяет огибающую спектра. Его порядок обычно бывает 6÷10. Второй, долговременный, предсказатель (LTP) определяет тонкую структуру РС и связан с корреляцией двух отрезков сигнала между собой, реально - двух соседних периодов основного тона (ОТ). Период основного тона речи изменяется в широких пределах. На практике обеспечивается формирование частоты ОТ в пределах 57 ё 500 Гц , что соответствует изменению периода от 2 до 17,5 мс.
Сочетание двух предсказателей с разными характеристиками позволяет в значительной мере устранить остаточную избыточность и приблизить остаток предсказания по своим статистическим характеристикам к белому шуму. При этом на приемную сторону передаются остаток предсказания и коэффициенты обоих (STP и LTP) предсказаний.
Во-вторых, использование остатка предсказания в качестве сигнала возбуждения оказывается недостаточно эффективным, так как требует для кодирования слишком большого числа бит. Поэтому практическое применение находят более экономичные (по загрузке канала связи, но отнюдь не по вычислительным затратам) методы формирования сигнала возбуждения.
Рассмотрим структурную схему вокодера с линейным предсказанием более подробно (рис. 4.2). На подготовительном этапе выполняют аналого-цифровое преобразование РС и сегментацию цифрового потока: для последующей обработки выбирают отсчеты сигнала на интервале длительностью 20 мс, что при F_д= 8 кГц обеспечивает число обрабатываемых отсчетов равное 160. После сегментации отсчетов РС в кодере последовательно выполняются следующие три процедуры:

Download 83.15 Kb.

Do'stlaringiz bilan baham:

1 2