Ю. Л. Комаров, О. Г. Морозов, А. Н. Пикулев


Принципы сжатия видеоинформации


Download 1.43 Mb.
bet43/75
Sana28.12.2022
Hajmi1.43 Mb.
#1023000
TuriУчебное пособие
1   ...   39   40   41   42   43   44   45   46   ...   75
Bog'liq
n1

4.2.2. Принципы сжатия видеоинформации. Руководствуясь подобными ориентирами, группа специали­стов международной организации по стандартизации (ISO) в 1988 г. приступила к разработке стандартов кодирования и сжатия видео- и аудиоинформации. Официальное наимено­вание этой группе было дано ISO/IECJTC1 SC29WG11. Впоследствии она стала известна как «Экспертная группа по кинематографии» (Moving Picture Expert Group), а аббревиатура MPEG, образованная от англий­ского варианта обиходного названия этой группы, давно уже используется как обозначение разработанных ею норм и стандартов.
В основу правил сжатия видеоданных была заложена идея поиска и устранения избыточной информации, не влияющей на конечное восприятие качества изображения. В первую очередь, был учтен «человеческий фактор»  пси­хофизиологическая модель восприятия человеком видео­изображений (HVS  Human Visual Sense); в частности, тот факт, что градации яркости воспринимаются зрительным аппаратом человека значительно тоньше, чем градации цве­та. Это означает, что цветовую информацию можно загрубить по сравнению с яркостной, при этом в субъективном восприятии качество изображения не ухудшится. То есть первоочередным направлением в построении алгоритмов всех стандартов MPEG становится отыскание и устранение информации, избыточной с точки зрения субъективного восприятия.
Как известно, компонентный телевизи­онный сигнал для переноса через эфир из исходного RGB преобразуется в со­вокупность сигнала яркости Y и двух цветоразностных сигналов, назовем их условно U (синий) и V (красный). При преобразовании в цифро­вую форму диапазон изменения их значений допускает 256 градаций (от 0 до 255 для Y, и от -128 до 127 для U и V), что в двоичном исчислении описывается восьмиразрядным «словом». Теоретически каждый элемент кадра имеет собственные значения Y, U и V, т.e. требует для описания 3 байт. Такое представление, когда как яркость, так и сигналы цветности имеют равное чис­ло независимых значений, условно обозначают как 4:4:4
Однако, как уже отмечено выше, зрительная си­стема человека менее чувствительна к цветовым изменениям, чем к яркостным. И без видимой потери качества число цветовых отсчетов в каждой строке можно уменьшить вдвое. Имен­но такое представление, обозначаемое как 4:2:2, было принято в профессио­нальном цифровом телевидении (фор­маты Betacam SX, Digital Betacam и DVCPro5O). При этом U- и V-матрицы уменьшаются до 360576, а для пере­дачи полного значения телевизионно­го сигнала в каждом отсчете кадра до­статочно 2 байт (чередуя через отсчет независимые значения U и V). Для це­лей полупрофессионального и потре­бительского видео уменьшили вдвое и вертикальное цветовое разрешение, т.е. перешли к представлению 4:2:0. Это уменьшает цветовые матрицы до 360288 отсчетов, а приведенное число байт на отсчет  до 1,5. Последний ва­риант, в частности, использован в фор­матах DV и DVCam.
Собствен­но, пониженную чувствительность че­ловеческого глаза к градациям цветно­сти по сравнению с градациями яркости уже давно используют в привыч­ном аналоговом телевидении  цветоразностные компоненты передаются с уменьшенным вдвое разрешением. Да и в декодерах цветности телевизи­онных приемников также производит­ся «удвоение рядов»  в PAL усредне­ние сигналов двух строк, а в SECAM повторение строк.
Следующим шагом по устранению из­быточности стало отыскание инфор­мации, повторяющейся хотя бы в тече­ние какого-то отрезка времени, и при­нятие мер к избежанию дублирования этой информации. В подавляющем большинстве фрагментов фон изобра­жения остается довольно долго неиз­менным, а действие происходит в ос­новном на переднем плане. То есть большинство кадров в последователь­ности несет, как правило, довольно много повторяющейся информации. Меняющаяся от кадра к кадру часть видеоинформации обусловлена дви­жением любых объектов. Отсюда и основная идея схемы сжатия — предска­зывать движение от кадра к кадру и передавать по возможности только часть информации, связанную с этим движением. В соответствии с этой иде­ей определены три типа кадров в пос­ледовательности: Intra (исходные), Predicted (предсказуемые) и Bi-direc­tional Interpolated (двунаправленной интерполяции)  см. схему рис. 2.10.

И
з самих терминов понятно, что ис­ходные (или I) кадры являются базовы­ми, опорными в последовательности в течение определенного отрезка вре­мени (в соответствии со стандартом I-кадры должны появляться 1-2 раза в секунду). К этим кадрам применяется только внутрикадровое сжатие по ал­горитмам, аналогичным используе­мым в стандарте JPEG для компрессии неподвижных изображений (как упо­миналось выше, телевизионный кадр в цифровой форме  это картинка, со­стоящая из точек  пикселей).


Кадр разбивается на блоки 88 пикселей (размер квадрата регламентирован од­нозначно). Над каждым блоком произ­водится дискретно-косинусное преоб­разование Фурье с последующим квантованием (преобразованием дан­ных из непрерывной формы в дискрет­ную) полученных коэффициентов (ам­плитуд гармоник). Обычно пиксели в блоке и сами блоки изображения ка­ким-то образом связаны между со­бой  например, однотонный фон, равномерный градиент освещения, по­вторяющийся узор и т.д. (принято го­ворить, что они пространственно коррелированы), так что основная инфор­мационная нагрузка ложится на гар­моники низших порядков.
В процессе квантования учитывается, что человек более чувствителен к дискретизации низких частот, нежели высоких (вновь «человеческий фактор»). Так как в про­цессе квантования многие коэффици­енты Фурье (высших порядков) приоб­ретают нулевые значения, при кодиро­вании (можно назвать это упаковкой) применяется специальный алгоритм зигзаг (Zigzag) для получения длинных последовательностей нулей. Количество предсказуемых (Р) кадров задано стандартом еще жестче  каж­дый третий кадр в последовательно­сти должен быть Р-типа. Обработка Р-кадров производится с использова­нием предсказания движения по пред­шествующим исходным или предска­зуемым кадрам.
Кадр разбивается на макроблоки 1616 пикселей, каждому макроблоку ставится в соответствие наиболее сходный участок изображе­ния из опорного кадра, сдвинутый на вектор перемещения. Следовательно, информация о конкретном блоке Р-кадра состоит из вектора смещения (век­тора движения) блока относительно опорного и разницы между блоками, которая затем и кодируется. Этот про­цесс и называется анализом и компен­сацией движения. Благодаря этому до­пустимая степень сжатия для Р-кадров получается в 3 раза выше, чем для I.
В зависимости от характера видеоизо­бражения, кадры двунаправленной ин­терполяции (В-типа) кодируются од­ним из четырёх способов: предсказа­ние вперёд, обратное предсказание с компенсацией движения (использует­ся, если в кодируемом кадре появля­ются новые объекты изображения), двунаправленное предсказание с ком­пенсацией движения, внутрикадровое предсказание (при резкой смене сюже­та или при высокой скорости переме­щения элементов изображения). В дву­направленных кадрах достигается наиболее глубокое сжатие видеодан­ных. Но зато прежде, чем декодиро­вать кадр В-типа, требуется декодиро­вать как минимум два I- или Р-кадра. Если бы коэффициенты Фурье переда­вались точно, восстановленное изо­бражение полностью совпадало бы с исходным. Однако ошибки восстанов­ления коэффициентов, обусловленные квантованием, приводят к искажениям изображения. Чем грубее производит­ся квантование, тем меньший объем занимают коэффициенты и тем силь­нее сжатие сигнала, но и тем больше вероятность визуальных искажений в восстановленном изображении.
Итак, кадры разбиты на блоки (или ма­кроблоки), блоки, в свою очередь, представлены числовыми матрицами. Теперь упакованные матрицы блоков с характеристиками квантования, векто­рами движения и т.д. объединяются в слои, слои в кадры, а кадры в группы (см. схему рис. 2.11).

Так формируется ви­деопоток (Video Stream), который за­тем «вливается» в общий системный MPEG-поток (System Stream). В этот системный поток, кроме видео, входят поток аудио и служебная информа­ция, которая, в первую очередь, обес­печивает при декодировании синхро­низацию видео и звука (Timing Infor­mation).


Фактически а системный поток встраивается таймер, работающий на частоте 90 кГц. Метка, по которой происходит перевод вре­менного счетчика в декодере SCR (Sys­tem Clock Reference), и метка начала воспроизведения PDS (Presentation Data Stamp) вставляются в картинку или в звуковой кадр, чтобы объяснить декодеру, когда их воспроизводить. Размер PDS составляет 33 бита, что обеспечивает возможность представ­ления любого временного цикла дли­тельностью до 24 часов.
Давно из­вестный фор­мат цифровой видеозаписи DV (в том числе и MiniDV), в сущности, представ­ляет собой как бы предельный случай MPEG-компрессии  это поток, состо­ящий только из I-кадров (его еще ино­гда называют M-JPEG  Motion JPEG). То есть оцифрованные кадры подвер­гаются только внутрикадровой JPEG компрессии, без использования межкадрового сжатия. Цифровой потоr DV-видео при формате представления 4:2:0 может достигать 25 Мбит/с.



Download 1.43 Mb.

Do'stlaringiz bilan baham:
1   ...   39   40   41   42   43   44   45   46   ...   75




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling