Ю. Л. Комаров, О. Г. Морозов, А. Н. Пикулев
Принципы сжатия видеоинформации
Download 1.43 Mb.
|
n1
4.2.2. Принципы сжатия видеоинформации. Руководствуясь подобными ориентирами, группа специалистов международной организации по стандартизации (ISO) в 1988 г. приступила к разработке стандартов кодирования и сжатия видео- и аудиоинформации. Официальное наименование этой группе было дано ISO/IECJTC1 SC29WG11. Впоследствии она стала известна как «Экспертная группа по кинематографии» (Moving Picture Expert Group), а аббревиатура MPEG, образованная от английского варианта обиходного названия этой группы, давно уже используется как обозначение разработанных ею норм и стандартов.
В основу правил сжатия видеоданных была заложена идея поиска и устранения избыточной информации, не влияющей на конечное восприятие качества изображения. В первую очередь, был учтен «человеческий фактор» психофизиологическая модель восприятия человеком видеоизображений (HVS Human Visual Sense); в частности, тот факт, что градации яркости воспринимаются зрительным аппаратом человека значительно тоньше, чем градации цвета. Это означает, что цветовую информацию можно загрубить по сравнению с яркостной, при этом в субъективном восприятии качество изображения не ухудшится. То есть первоочередным направлением в построении алгоритмов всех стандартов MPEG становится отыскание и устранение информации, избыточной с точки зрения субъективного восприятия. Как известно, компонентный телевизионный сигнал для переноса через эфир из исходного RGB преобразуется в совокупность сигнала яркости Y и двух цветоразностных сигналов, назовем их условно U (синий) и V (красный). При преобразовании в цифровую форму диапазон изменения их значений допускает 256 градаций (от 0 до 255 для Y, и от -128 до 127 для U и V), что в двоичном исчислении описывается восьмиразрядным «словом». Теоретически каждый элемент кадра имеет собственные значения Y, U и V, т.e. требует для описания 3 байт. Такое представление, когда как яркость, так и сигналы цветности имеют равное число независимых значений, условно обозначают как 4:4:4 Однако, как уже отмечено выше, зрительная система человека менее чувствительна к цветовым изменениям, чем к яркостным. И без видимой потери качества число цветовых отсчетов в каждой строке можно уменьшить вдвое. Именно такое представление, обозначаемое как 4:2:2, было принято в профессиональном цифровом телевидении (форматы Betacam SX, Digital Betacam и DVCPro5O). При этом U- и V-матрицы уменьшаются до 360576, а для передачи полного значения телевизионного сигнала в каждом отсчете кадра достаточно 2 байт (чередуя через отсчет независимые значения U и V). Для целей полупрофессионального и потребительского видео уменьшили вдвое и вертикальное цветовое разрешение, т.е. перешли к представлению 4:2:0. Это уменьшает цветовые матрицы до 360288 отсчетов, а приведенное число байт на отсчет до 1,5. Последний вариант, в частности, использован в форматах DV и DVCam. Собственно, пониженную чувствительность человеческого глаза к градациям цветности по сравнению с градациями яркости уже давно используют в привычном аналоговом телевидении цветоразностные компоненты передаются с уменьшенным вдвое разрешением. Да и в декодерах цветности телевизионных приемников также производится «удвоение рядов» в PAL усреднение сигналов двух строк, а в SECAM повторение строк. Следующим шагом по устранению избыточности стало отыскание информации, повторяющейся хотя бы в течение какого-то отрезка времени, и принятие мер к избежанию дублирования этой информации. В подавляющем большинстве фрагментов фон изображения остается довольно долго неизменным, а действие происходит в основном на переднем плане. То есть большинство кадров в последовательности несет, как правило, довольно много повторяющейся информации. Меняющаяся от кадра к кадру часть видеоинформации обусловлена движением любых объектов. Отсюда и основная идея схемы сжатия — предсказывать движение от кадра к кадру и передавать по возможности только часть информации, связанную с этим движением. В соответствии с этой идеей определены три типа кадров в последовательности: Intra (исходные), Predicted (предсказуемые) и Bi-directional Interpolated (двунаправленной интерполяции) см. схему рис. 2.10. И Кадр разбивается на блоки 88 пикселей (размер квадрата регламентирован однозначно). Над каждым блоком производится дискретно-косинусное преобразование Фурье с последующим квантованием (преобразованием данных из непрерывной формы в дискретную) полученных коэффициентов (амплитуд гармоник). Обычно пиксели в блоке и сами блоки изображения каким-то образом связаны между собой например, однотонный фон, равномерный градиент освещения, повторяющийся узор и т.д. (принято говорить, что они пространственно коррелированы), так что основная информационная нагрузка ложится на гармоники низших порядков. В процессе квантования учитывается, что человек более чувствителен к дискретизации низких частот, нежели высоких (вновь «человеческий фактор»). Так как в процессе квантования многие коэффициенты Фурье (высших порядков) приобретают нулевые значения, при кодировании (можно назвать это упаковкой) применяется специальный алгоритм зигзаг (Zigzag) для получения длинных последовательностей нулей. Количество предсказуемых (Р) кадров задано стандартом еще жестче каждый третий кадр в последовательности должен быть Р-типа. Обработка Р-кадров производится с использованием предсказания движения по предшествующим исходным или предсказуемым кадрам. Кадр разбивается на макроблоки 1616 пикселей, каждому макроблоку ставится в соответствие наиболее сходный участок изображения из опорного кадра, сдвинутый на вектор перемещения. Следовательно, информация о конкретном блоке Р-кадра состоит из вектора смещения (вектора движения) блока относительно опорного и разницы между блоками, которая затем и кодируется. Этот процесс и называется анализом и компенсацией движения. Благодаря этому допустимая степень сжатия для Р-кадров получается в 3 раза выше, чем для I. В зависимости от характера видеоизображения, кадры двунаправленной интерполяции (В-типа) кодируются одним из четырёх способов: предсказание вперёд, обратное предсказание с компенсацией движения (используется, если в кодируемом кадре появляются новые объекты изображения), двунаправленное предсказание с компенсацией движения, внутрикадровое предсказание (при резкой смене сюжета или при высокой скорости перемещения элементов изображения). В двунаправленных кадрах достигается наиболее глубокое сжатие видеоданных. Но зато прежде, чем декодировать кадр В-типа, требуется декодировать как минимум два I- или Р-кадра. Если бы коэффициенты Фурье передавались точно, восстановленное изображение полностью совпадало бы с исходным. Однако ошибки восстановления коэффициентов, обусловленные квантованием, приводят к искажениям изображения. Чем грубее производится квантование, тем меньший объем занимают коэффициенты и тем сильнее сжатие сигнала, но и тем больше вероятность визуальных искажений в восстановленном изображении. Итак, кадры разбиты на блоки (или макроблоки), блоки, в свою очередь, представлены числовыми матрицами. Теперь упакованные матрицы блоков с характеристиками квантования, векторами движения и т.д. объединяются в слои, слои в кадры, а кадры в группы (см. схему рис. 2.11). Так формируется видеопоток (Video Stream), который затем «вливается» в общий системный MPEG-поток (System Stream). В этот системный поток, кроме видео, входят поток аудио и служебная информация, которая, в первую очередь, обеспечивает при декодировании синхронизацию видео и звука (Timing Information). Фактически а системный поток встраивается таймер, работающий на частоте 90 кГц. Метка, по которой происходит перевод временного счетчика в декодере SCR (System Clock Reference), и метка начала воспроизведения PDS (Presentation Data Stamp) вставляются в картинку или в звуковой кадр, чтобы объяснить декодеру, когда их воспроизводить. Размер PDS составляет 33 бита, что обеспечивает возможность представления любого временного цикла длительностью до 24 часов. Давно известный формат цифровой видеозаписи DV (в том числе и MiniDV), в сущности, представляет собой как бы предельный случай MPEG-компрессии это поток, состоящий только из I-кадров (его еще иногда называют M-JPEG Motion JPEG). То есть оцифрованные кадры подвергаются только внутрикадровой JPEG компрессии, без использования межкадрового сжатия. Цифровой потоr DV-видео при формате представления 4:2:0 может достигать 25 Мбит/с. Download 1.43 Mb. Do'stlaringiz bilan baham: |
ma'muriyatiga murojaat qiling