Deepn-jpeg: jpeg-ga asoslangan rasmlarni siqish uchun qulay bo'lgan chuqur neyron tarmoq

Download 438.56 Kb.

bet	2/4
Sana	07.09.2020
Hajmi	438.56 Kb.
	#128826

1 2 3 4

Bog'liq
DeepN maqola 2020

DeepN-JPEG" doirasida bizning birinchi qadamimiz yanada batafsil tahlil qilish uchun etiketli malumotlar bazasidagi barcha sinflarni tanlab olishdir.

2.3 ChNT-larining samarasizligi

Ma'lumotni yuklash va saqlash uchun kirish rasmlarini agressiv ravishda siqish uchun mavjud HVS-ga asoslangan siqish texnikasidan foydalanganda aniq aniqlik yo'qoladi: Mavjud kompressiyalar ChNT -ning aniqligiga qanday ta'sir qilishi mumkinligini o'rganish uchun biz ikkita tajriba to'plamini o'tkazdik: CASE1: ChNT modelini yuqori sifatli JPEG rasmlariga o'rgatish (QF = 100), lekin uni turli xil CR yoki QF-larda (masalan, QF = 100, 50, 20) tasvirlar bilan sinash; Case 2: ChNT modelini turli xil siqilgan tasvirlar bilan o'rgatish (QF = 100,50,20), lekin uni faqat yuqori sifatli original rasmlar (QF = 100) bilan sinab ko'rish. Ikkala holatda ham, namoyish etuvchi ChNT misoli - 5 ta konversion qatlam, 3 ta to'liq ulangan qatlam va 60 M og'irlik parametrlariga ega bo'lgan "AlexNet" [11], keng ko'lamli vizual aniqlash uchun ImageNet ma'lumotlari to'plamida o'qitiladi. 2-rasm (a) dan ko'rinib turibdiki, ikkala holatda ham tavsiflangan "top-1" sinov aniqligi sezilarli darajada pasayadi, chunki CR 1 dan 5 gacha (yoki QF 100 dan 20 gacha) ko'tariladi. CR = 5), CASE 1 (CASE 2) aniqligi avvalgisiga nisbatan (QF = 100, CR = 1) ko'ra 9% (∼5%) ga kamayishi mumkin. "AlexNet" dan "GoogLeNet" ga o'tish darajasi 9% ni tashkil qiladi, (8v.s.22) va ko'p qatlamli va to'plangan (724Mv.s.1.43G) soniga qaramay. "kanal usullari CR = 3 dan CR = 5 gacha bo'lgan barcha CR-larda" CASE 1 "ga qaraganda kichikroq aniqlik pasayishiga olib keladi. Bu ChNT-ni siqilgan JPEG tasvirlari (sinov usullari bilan taqqoslaganda) bilan o'qitish aniqlikni pasaytirishni biroz engillashtirishi mumkinligini ko'rsatadi, ammo bu muammoni to'liq hal qila olmaydi. Rasm-2 (b) ko'rsatadiki, CASE 2 uchun yuqori CR (yoki past QF, ya'ni i.e.QF = 20) va aniq (CR = 1) o'rtasidagi aniqlik oralig'i oxirgi sinov davrida maksimal darajada oshirilgan. Ko'rinishidan, inson atrofidagi vizual tizimning markazida joylashgan JPEG kabi mavjud kompresslar ChNT uchun optimallashtirilgan echimlar emas, ayniqsa yuqori siqish nisbati.

3. BIZNING YONDASHUV.

Rivojlanayotgan samarali siqishni ramkalari tasvir va videoni qayta ishlash kabi amaliy dasturlarda keng o'rganilgan, ammo bu tadqiqotlarning barchasi chuqur neyron tarmoqlarining o'ziga xos xususiyatlaridan ko'ra, aniqlik, chuqur kaskadli ma'lumotlarni qayta ishlash kabi muhim emas, balki odam tomonidan qabul qilingan buzilishlarni birinchi o'ringa qo'yadi. va hokazo. Ushbu bo'limda biz birinchi navbatda insonning vizual tizimi va tasvirni qayta ishlashda chuqur neyron tarmoqlarining turli xil qarashlarini bilib olamiz, so'ngra ChNT-ga asoslangan JPEG-ga asoslangan rasmlarni siqishni doirasini - "DeepN-JPEG" ni taklif qilamiz.

3.1. IKT va ChNT farqlarini modellashtirish.

Biz qiziqarli muammo bo'yicha tadqiqotlarimizni boshladik: inson ko'rish tizimi (IKT) va chuqur neyron tarmog'i o'rtasidagi tasvirni qayta ishlashning asosiy farqlari qanday? Bu yuqorida aytib o'tilgan aniqlikni kamaytirish masalasini tushuntirishga yordam beradi va shu bilan DNN uchun qulay siqishni ramkasini ishlab chiqishga yordam beradi. Bizning kuzatuvimiz shundan iboratki, ChNT-lar har qanday muhim chastota tarkibiy qismiga aniq javob berishi mumkin, ammo insonning ko'rish tizimi yuqori chastotali ma'lumotlarga qaraganda past chastotali ma'lumotlarga ko'proq e'tibor qaratadi, bu esa ChNT-lar tomonidan HVS-ilhomlantirilgan siqilishdan keyin o'rganiladigan kam xususiyatlarni anglatadi. Xk, X xom rasmining bitta pikselini olaylik, xk esa JPEG siqilishida 8 × 8 DCT bilan ifodalanishi mumkin:

Bu yerda c

(k, i, j) va b (i, j) mos ravishda 64 ta turli chastotalarda DCT koeffitsienti va tegishli asos funktsiyasi. Insonning ko'rish tizimi yuqori chastotali qismlarga nisbatan kam sezgir bo'lganligi sababli, yuqori chastotali qismlarni ataylab tashlab, ya'ni kengaytirilgan kvantlash orqali bog'langan DCT koeffitsientini (k, i, j) nolga aylantirish orqali JPEG siqilishida yuqori CR ga erishish mumkin. Aksincha, ChNT seksamin chastota to'g'risidagi ma'lumotlarning ahamiyatini mutlaqo boshqacha tarzda ta'kidlaydi. B (i, j) asosiy funktsiyaga nisbatan ChNT F funktsiyasining gradientini quyidagicha hisoblash mumkin:

2-tenglama shundan dalolat beradiki, bitta pikselli xk chastotasi komponentining (bi, j) DNN-ni o'rganishga qo'shgan hissasi asosan uning bog'liq bo'lgan DCT koeffitsienti (c (k, i, j)) va

pikselining ahamiyati bilan belgilanadi. Bu erda X ChNT mashg'ulotidan so'ng olinadi, shu bilan birga c (k, i, j) mashg'ulotdan oldin tasvirni siqish (ya'ni, kvantlash) bilan buziladi. Agar c (k, i, j) = 0 bo'lsa, ChNT xususiyat xaritasini ajratib olish uchun muhim tafsilotlarni o'z ichiga olishi mumkin bo'lgan chastota xususiyati (bi, j) og'irliklarni yangilash uchun ChNT tomonidan o'rganib olinmaydi, bu esa pastroq aniqlikka olib keladi. Tez-tez yuqori siqilgan JPEG tasvirida, agar siqilishning yuqori tezligini ta'minlash uchun yuqori chastotali qismlar (odatda tabiat rasmlarida kichik bo'lsa) nolga tenglashtirilganligi hisobga olinadi. Natijada, agar ChNT-lar, agar ularning asl versiyalarida muhim yuqori chastotali xususiyatlarga ega bo'lsa, agressiv siqilgan tasvirlarni osonlikcha tasniflashi mumkin. CASE 1-da (qarangFigure-2 (a)), asl tasvirlar bilan tayyorlangan ChNT modeli keng qamrovli xususiyatlarni, ayniqsa ba'zi bir tasvirlarda muhim bo'lgan yuqori chastotalarni o'rganadi. Shu bilan birga, bunday xususiyatlar ba'zi bir siqilgan sinov rasmlarida yo'qoladi, bu esa noto'g'ri tasniflash tezligini sezilarli darajada oshiradi. 3-rasm bunday misolni namoyish etadi - yuqori oltita yuqori chastotali tarkibiy qismlarni olib tashlaganimizdan so'ng, "junco" noto'g'ri bashorat qilingan "robin", garchi farqlar deyarli odamning ko'zlari bilan tushunib bo'lmaydigan bo'lsa. CASE 2-da (Qarang: 2-rasm (b)), model faqat siqilgan o'quv rasmlaridan o'rganilgan cheklangan sonlar asosida qaror qabul qilishga o'rgatilgan va yuqori sifatli sinov rasmlaridagi qo'shimcha funktsiyalar aniqlikni oshirish uchun ChNT tomonidan aniqlanmaydi.

3.2 ChNT yo'naltirilgan DeepN-JPEG SIQISH USLUBI

"DeepN-JEPG" ramkasini ishlab chiqish uchun ChNT uchun eng muhim bo'lgan chastota xususiyatlarining buzilishlarini minimallashtirish, shu bilan iloji boricha aniqlikni saqlash juda muhimdir, chunki kvantlash muhim xususiyat yo'qotilishiga olib keladigan asosiy omil hisoblanadi, ya'ni JPEG-da kattaroq kvantlash bosqichi yordamida kam ahamiyatli yuqori chastotali qismlarni olib tashlash, "DeepN-JEPG" ning asosiy bosqichi IKT-ilhomlantirgan miqdoriy jadvalni ChNT yoqimli bo'lishi uchun qayta loyihalashtirishdir, ya'ni yo'qotishsiz JPEG ga qaraganda yaxshi siqishni tezligiga zarur xususiyatlarni yoqotmasdan erishish. Hisoblash jadvalini qayta tuzish turli xil amaliy dasturlarda, masalan, xususiyatlarni aniqlash [21], vizual qidirish [22], echim topilishi mumkinligi isbotlangan bo'lsa-da, parametrlarni qidirishning murakkabligi sababli bu "DeepN-JPEG" uchun echimsiz optimallashtirish muammosidir. [23] va DNN-ga mos keladigan miqdoriy o'lchashning qiyinligi. Masalan, tasvir xususiyati (yoki kvantlash) xatolari va DNN aniqligini yo'qotish o'rtasidagi aniq bog'liqlikni tavsiflash oddiy emas. Bundan tashqari, tavsiflangan natijalar qarab farq qilishi mumkin. DNN tuzilishi. Shuning uchun umumiy DNN-qulay siqishni ramkasini yaratish juda qiyin va 3.1-bo'limda bizning tahlilimiz shuni ko'rsatdiki, chastota diapazonining DNN o'rganishga qo'shgan hissasi diapazon koeffitsientining kattaligiga juda bog'liq. kalitlarni kuzatish, bizning "DeepN-JEPG" dizaynimiz evristik dizayn asosida ishlab chiqilgan (4-rasmga qarang): 1) har bir sinfdan namunaviy namunaviy rasmlar va undan keyin saralangan ma'lumotlar bazasida chastotani tahlil qilish orqali har bir chastota komponentining ahamiyatini tavsiflash; 2) Har bir xususiyatning statistik ma'lumotlarini taklif etilayotgan "Parchaga asoslangan chiziqli xaritalar" orqali kvantlash jadvalining kvantlash bosqichi bilan bog'lang.

3.2.1 Tasvirlarni tanlash va chastota tarkibiy qismlarini tahlil qilish.

"DeepN-JPEG" doirasida bizning birinchi qadamimiz yanada batafsil tahlil qilish uchun etiketli ma'lumotlar bazasidagi barcha sinflarni tanlab olishdir.

Butun ma'lumotlar to'plamidan vakillik xususiyatlarini ajratib olish va bu xususiyatlarning ahamiyatini DNN-ga taqqoslash uchun biz tasvirning xususiyatlarining murakkabligini nazarda tutdik - oddiy xususiyatlarga ega silliq tasvir kichik o'lchamda siqiladi, katta o'lcham esa rasm yanada murakkab xususiyatlardan iboratligini anglatadi. . Har bir chastota diapazonida DCT koeffitsientining taqsimlanmaganligini tavsiflang, chunki tarqatish chastota komponentining energiyasini anglatadi [24]. Oldingi tadqiqotlar [24] isbotlanmagan koeffitsientni normal (yoki Laplas) taqsimotiga nolinchi o'rtacha bilan, lekin har xil standart og'ish bilan (δi, j) tenglashtirish mumkinligini isbotladi. Katta δi, j diapazonda (i, j) ko'proq energiya borligini anglatadi, shuning uchun DNN xususiyatlarini o'rganishga ko'proq hissa qo'shadi. 1-algoritmda ko'rsatilgandek, har bir tanlab olingan rasm avval Nblock 8 × 8 bloklarga bo'linadi va undan keyin DCT-ni blokirovka qilinadi. Shundan so'ng, har bir chastota diapazonida DCT koeffitsientini taqsimlash, barcha ma'lumotlar koeffitsientlarini bir xil chastota diapazonida tasvir ma'lumotlar to'plamining turli sinflaridan to'plangan barcha rasm bloklari bo'yicha saralash bilan tavsiflanadi. Har bir koeffitsientning standart og'ish darajasi δi, j kabi statistik ma'lumotlar har bir alohida gistogramma asosida hisoblanadi. Shuni esda tutingki, bunday chastotani tozalash protsedurasi DNN uchun eng muhim xususiyatlarni aniq ayta oladi va oddiy taxminlardan farq qiladi, past chastotali qism har doim yuqori qismlarga qaraganda СHNT aniqligini pasayishiga olib keladi.

Download 438.56 Kb.

Do'stlaringiz bilan baham:

1 2 3 4