15-ma'ruza. Audio ma’lumotlarni kodlash uchun samarador neyro-tarmoq texnologiyalarini tahlil qilish


Download 203.97 Kb.
Sana14.12.2022
Hajmi203.97 Kb.
#1007117
Bog'liq
15-ma\'ruza


15-ma'ruza.
Audio ma’lumotlarni kodlash uchun samarador neyro-tarmoq texnologiyalarini tahlil qilish

Reja:


  1. Audio ma’lumotlarni siqishda neyroprocessor va neyrokompyuterlarni tutgan o’rni.

  2. Ovozli ma’lumotlarni siqishda samaradorlikni baholash.

Audio ma’lumotlarni siqishda neyroprocessor va neyrokompyuterlarni tutgan o’rni. O'zgartirilgan diskret kosinus transformatsiyasi (MDCT) Furye konvertatsiyasining o'zgarishi bo'lib, diskret kosinus transformatsiyasiga (DCT-IV) asoslanadi. Bu bir-biriga o'xshash transformatsiya. U hajmli ma'lumotlar to'plamlarining ketma-ket bloklarida amalga oshiriladi, keyingi bloklarning har biri bir-birining ustiga chiqadi. Bu shunday ishlaydi: oldingi blokning ikkinchi yarmi keyingi blokning birinchi yarmi bilan bir xil. Ushbu o'zaro bog'liqlik, DCT funktsiyalariga qo'shimcha ravishda, MDCTni odatda blok chegaralaridan tashqariga chiqadigan artefaktlardan qochish kerak bo'lgan ilovalarda signalni siqish uchun ayniqsa foydali qiladi. Shunday qilib, MDCT, masalan, audio siqish uchun MP3, AC-3, Vorbis va AAC formatlarida ishlaydi.


MDCT 1987 yilda Princeon, Jonson va Bredley tomonidan ishlab chiqilgan.
, (15.1)
bu yerda k va n mos ravishda spektral komponentning indekslari va ovozli signalning diskret namunasi ;
 signalni tahlil qilish filtri impuls javobi , past o'tkazuvchanlik filtri xususiyatlariga yoki asosiy vektor komponentlariga ega ; 2М – kadrlar uzunligi. ;
Qo'shilish bilan bir-biriga o'xshash tahlil va qo'shilgan sintez 15.1-rasmda ko'rsatilgan.

а)

b)
15.1-rasm. MDKP konvertatsiyasi:
a) bir-biriga o'xshash oldinga o'tkazish (tahlil), 2M namunalarni M spektral koeffitsientlarda ko'rsatish, lekin tahlil bosqichi (oyna siljishi qiymati) va ruxsat berish vaqti M namunaga teng; b) M spektral koeffitsientlarni 2M namunalar vektoriga teskari konvertatsiya qilish, u M namunalar bilan bir-biriga mos tushadi va oldingi ramkaning 2M namunalari vektoriga qo'shiladi.
Ko'rsatkichlar bloklari konvertorning kirish qismida qabul qilinadi. Oldingi bloklar bilan birgalikda N=ML namunalari hosil bo'ladi. Bu blok birinchi navbatda uzunlik ketma-ketligiga (tahlil oynalari) komponentlar bo'yicha ko'paytiriladi. Olingan raqamlarga transformatsiya qo'llaniladi, bu uzunlik vektorini o'lchamlar matritsasiga ko'paytirish sifatida tavsiflanishi mumkin. Olingan raqamlar konversiya omillari hisoblanadi.
Qayta tiklangan tanlovlar uchun teskari MDCT transformatsiyasidan hisoblanadi:
, (15.2)
bu yerda – MDCT koeffitsientlarining oldingi kadri.
(15.2) dan ko'rinib turibdiki, uchun k-chi bazis vektorining birinchi M namunalari joriy kadrining k-koeffitsienti yordamida tortiladi. Bir vaqtning o'zida uchun k-chi asosli vektorining ikkinchi M namunalari oldingi kadrining k-koeffitsienti yordamida tortiladi. Keyin vaznli bazaviy vektorlar bir-birining ustiga qo'yiladi va har bir lahzada n indeksi bilan qo'shiladi.
Ovozli ma’lumotlarni siqishda samaradorlikni baholash. Oyna funksiyalari. Amaliy nuqtai nazardan, signallar ham, amalga oshiriladigan tor polosali filtrlar ham qat'iy cheklangan tarmoqli kengligiga ega emas. Binobarin, har doim qo'shni chastota diapazonlarining bir-birining ustiga chiqishi mavjud bo'lib, bu uzluksiz signalni tiklashda muqarrar buzilishlarga olib keladi. Keraksiz vaqtinchalik taxallus effektini yo'q qilish uchun "aliasing" (namuna olish chastotasining etarli emasligi natijasida kelib chiqadigan va noto'g'ri chastotalar paydo bo'lishi bilan birga keladigan hodisa) tahlil oynalari ifoda bilan beriladi.
. (15.3)
Signalni siqishning odatiy usullarida konvertatsiya parametrlari toʻgʻridan-toʻgʻri va teskari oʻzgartirish formulalarida va ga koʻpaytiriladigan wk (k = 0, ..., 2n-1) oynalash funksiyasidan foydalangan holda yaxshilanadi, k = 0 и k=2n nuqtalarida (kadrlar chegaralari) tegishli ravishda uzilishlar oldini oladi. , bu nuqtalarda funktsiyani bir xilda nolga yaqinlashtirish. Asosan, x va X turli xil oyna funktsiyalariga ega bo'lishi mumkin va oyna funktsiyasi ramkadan romga farq qilishi mumkin (ayniqsa, turli o'lchamdagi ramkalar birlashtirilganda), lekin soddaligi uchun bir xil oyna funktsiyasi bir xil uchun ko'rib chiqiladi. ramka o'lchamlari. Har xil oyna funksiyalaridan foydalaniladi, masalan mp3 formatida va Vorbisda MPEG-2 AAC, ishlatiladi.
E'tibor bering, MDCT da qo'llaniladigan oyna funktsiyalari boshqa turdagi signallarni parchalashda qo'llaniladigan oyna funktsiyalaridan farq qiladi, chunki ular Peirce-Bradley shartini qondirishi kerak. Bu farqning sabablaridan biri shundaki, MDCT uchun oynalash funktsiyalari ikki marta qo'llaniladi: MDCT (parchalanish) va OMDKT (sintez).
MDCT ikkinchi konvertatsiya bosqichida MPEG-1 (MP-3) standartining 3-qavatida qo'llaniladi. Bundan tashqari, u katta mustaqil ahamiyatga ega, xususan, MDCT kodlash transformatsiyasi koeffitsientlari asosida audio signallarni siqish tizimlarida mustaqil ravishda ishlatilishi mumkin.

15.2-rasm. MP3 kodlovchining umumiy stukturaviy sxemasi.
Namuna olish tezligi 48 kHz bo'lgan audio signalning (AS) 16 bitli kirish namunalari audio kodekning kirishiga beriladi, u yerda u 32 ta pastki tarmoqli komponentlarga bo'linadi va qayta ishlash audio ramkalar bilan amalga oshiriladi. 1152 audio signal namunalari. Har bir audio kadrning uzunligi 24 ms. Barcha 32 ta pastki diapazonning doimiy kengligi F=fд /(2n) ga ega, bu yerda fд - (AS)ning namuna olish chastotasi, п - 750 Hz ga teng pastki diapazonlar soni.
Filtrlangandan so'ng, har bir kichik banddagi ST namunalari bloklarga to'planadi, so'ngra o'lchovli (normallashtiriladi) va o'zgartirilgan diskret kosinus konvertatsiyasi (MDCT) bilan qayta ishlanadi, bu esa signal energiyasini uning bo'ylab taqsimlanishini tavsiflovchi MDCT koeffitsientlarini shakllantirishga olib keladi. spektral komponentlar. MDCT spektrining o'ziga xos xususiyati shundaki, uning energiyasi kichik past chastotali mintaqada guruhlangan va qolgan koeffitsientlar nuqta yoki 0 ga teng. Keyin bu koeffitsientlar kodekning siqilish nisbatini oshirish uchun kvantlanadi (ma'lum raqamlarga bo'linish. Keyingi yaxlitlash bilan eng yaqin butun songa) va keyin kodlanadi. Har bir kichik tarmoqli kanaldagi masshtablash maksimal qiymatdagi 18 ta (AS) namunalaridan iborat bo‘lib, u (AS) kichik tarmoqli namunasining SCF (Scale Factor) deb ataladi. Kodekda bizda 32 ta o'lchov omili mavjud va 36 ta (AS) namunalarining har bir bloki granulalar deb ataladigan uchta kichik blokga bo'lingan. 18 (AS) hisobini o'z ichiga olgan har bir granula, shuningdek, granulaning SCF miqyosi omili bo'lgan maksimal raqamga ega. Hammasi bo'lib 32 ta subband mavjud, shuning uchun Layer-2 uchun SCFlarning umumiy soni 3х32=96 ni tashkil qiladi. Dekoderga uzatiladigan SCF qiymatlari jadvalda standartda ko'rsatilgan. Shuning uchun granuladagi maksimal hisoblash qiymati jadval SCF qiymatlari to'plami bilan taqqoslanadi. Eng yaqin kattasi ikkinchisining to'plamidan tanlanadi. SCF granulalari uchun olinadi.
Kvantlash va kodlash o'zgartirilgan Psixoakustik Model tomonidan nazorat qilinadi. Ushbu kvantlash nazoratini amalga oshirish uchun maskelash chegaralari (chegara qiymatlari) baholari qo'llaniladi. Subbandlardagi bitlarni taqsimlash barcha pastki tarmoqlilarning signal / niqob nisbatlari asosida hisoblab chiqiladi, bu niqob (shovqin) hali ham foydali signal bilan maskalanadi. Maksimal signal darajasi va minimal niqoblash chegarasi namunaviy kirish signalining tez Furye (FFT transform) konvertatsiyasidan olingan.
Har bir uzatish tezligi (yoki tariflar guruhi) o'z jadvaliga ega. fд qiymatlari va v raqamli ma'lumotlarni uzatish tezligi, shuningdek, (AS) namunalari hali ham kodlangan va tizimning qabul qiluvchi tomoniga uzatiladigan n pastki bandining maksimal sonini aniqlaydi.
Natijada, "Raqamli oqimlarni formatlash va xatolarni kodlash" blokining chiqishida ko'plab hisob-kitoblardan so'ng audio kadr hosil bo'ladi. Bundan tashqari, audio oqimning siqilishini ta'minlash uchun kodlash koeffitsientlari uzoq muddatli (RLE) kodlovchi tomonidan ta'minlanadi, unda takrorlanuvchi kod so'zlari ularning takroriy soni bilan almashtiriladi va Hoffman jadvallari asosidagi entropiya koderi tomonidan siqiladi. Entropiyani kodlash ESning statistik xususiyatlarini hisobga oladi va eng tez-tez takrorlanadigan kod so'zlari qisqa kodli so'zlar bilan uzatiladi va kamdan-kam hollarda uzun. Ushbu kodlash usuli kodekning siqish samaradorligini 20-25% ga oshiradi.
Siqilgan (AS)ni dekodlash psixoakustikani hisobga olmagan holda barcha rekonstruksiya qilingan pastki tarmoqli komponentlarning yig'indisi bilan teskari yo'nalishda amalga oshiriladi.

Nazorat uchun savollar

  1. Audio siqishda qaysi formatlar ko’p ishlatiladi?

  2. Audio ma’lumotlarda oyna funksiyalari tutgan o’rni.

  3. MP3 kodlovchining umumiy stukturasin qanday tushunasiz?

Download 203.97 Kb.

Do'stlaringiz bilan baham:




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling