Deepn-jpeg: jpeg-ga asoslangan rasmlarni siqish uchun qulay bo'lgan chuqur neyron tarmoq
Download 438.56 Kb.
|
DeepN maqola 2020
DeepN-JPEG: JPEG-ga asoslangan rasmlarni siqish uchun qulay bo'lgan chuqur neyron tarmoq So’zboshi Mashinalarni o'qitishning eng qiziqarli usullaridan biri sifatida, Chuqur Neyron Tarmoq (ChNT) turli xil aqlli ishlarda, masalan, tasvirni tasniflashda a'lo darajada ishlashni namoyish etdi. ChNT bunday ishlashga, ko'p jihatdan juda katta hajmdagi treninglar orqali qimmatbaho treninglar o'tkazish orqali erishadi. Smart-resurslar bilan cheklangan Internet-tizimlarda ma'lumotni saqlash va uzatishni qisqartirish uchun ma'lumotni samarali siqish mashq qilish yoki tasniflash uchun real vaqtda ishlab chiqarilgan ma'lumotlar to'plamini topshirishdan oldin "muhim" xususiyatdir. Tasvirlarni siqishni bo'yicha ko'plab taniqli yondashuvlar (masalan, JPEG) mavjud bo'lsa-da, biz birinchi marta insonning vizual asosidagi tasvirni siqish yondoshuvi, masalan, JPEG siqish kabi ChNT tizimlari uchun, ayniqsa yuqori siqishni stavkalari bilan optimallashtirilgan echim emas. Shu maqsadda, biz ChNT arxitekturasining chuqur kaskadli axborot jarayonlari mexanizmining tabiatini qamrab olish uchun ChNT dasturlari uchun mo'ljallangan "DeepN-JPEG" nomli rasmlarni siqishni doirasini ishlab chiqmoqdamiz. "ImageNet" ma'lumotlar to'plamiga asoslangan ChNT-ning har xil holati bilan o'tkazilgan keng qamrovli tajribalar shuni ko'rsatadiki, "DeepN-JPEG" ommabopJPEG yechimiga nisbatan ~3,5 × yuqori siqishni tezligiga erishishi mumkin, bunda tasvirni aniqlash uchun ChNT-ga asoslangan aqlli tizim dizaynida bir xil aniqlik darajasini va quvvat samaradorligi potentsialini namoyish qilishorqali saqlanib qolishi mumkin. 1 KIRISh Bugungi kunda tarqalgan narsalarning mobil qurilmalari, sensorlari va Internet (IoT) bugungi kunda tobora ko'payib boradigan ma'lumotlar ishlab chiqarmoqda. So'nggi paytlarda neyron tarmoqlarida jonlanish - chuqur o'rganish inqilobi ma'lumotlarni aqlli talqin qilish uchun yangi imkoniyatlar, boy tajriba va misli ko'rilmagan iqtisodiy imkoniyatlarni yaratadigan xatti-harakatlarga aylantiradi. Masalan, chuqur neyron tarmoq (ChNT) tasvirni qayta ishlash, nutqni aniqlash, ob'ektni aniqlash, o'yin o'ynash va haydovchisiz avtomashinalargacha bo'lgan ko'plab haqiqiy amaliy dasturlarda katta yutuqlarga erishmoqda. Katta ma'lumotlar va chuqur o'rganish uyg'unligi sun'iy intellektning katta yutuqlariga olib keladi, ammo bu ma'lumotlar uzatish, saqlash va hisoblashda taqsimlangan ma'lumotlarning ko'payishi va ChNT modelining kattalashib borishi bilan bog'liq bo'lgan yangi muammolarni ham keltirib chiqaradi. Resurslarni tejaydigan dasturlar uchun, so'nggi tadqiqotlar hisoblash va xotira zichligi bilan ishlaydigan ChNT ish yuklarini energiya samaradorligini oshirish bo'yicha olib borilgan bo'lsa-da, energiya tejaydigan ma'lumotlarning yuklanishini kamaytirish va chekka datchiklar ayniqsa, aloqa o'tkazish qobiliyati, energiya va apparat resurslari kabi terminal qurilmalarda saqlash uchun samarali echimlar yo'q. So'nggi tadqiqotlar shuni ko'rsatadiki, mashhur ChNT - "AlexNet" ni bitta ma'lumot uchun 3G (870msm), LTE (180mm) va Wi-Fi (95mm) barqaror simsiz ulanishlar uchun bitta JPEG-siqilgan kirish rasmini (ya'ni 152KB) yuklash uchun kechikishlar. ), uyali yoki bulutli GPU tomonidan amalga oshirilgan ChNT hisoblash (6∼82ms) dan oshib ketishi mumkin [10]. Bundan tashqari, aloqa energiyasini bog'liq ChNT hisoblash energiyasi bilan taqqoslash mumkin. Ma'lumotni siqish - bu saqlash va uzatish uchun zarur bo'lgan ma'lumotlarning hajmini sezilarli darajada kamaytiradigan, shu bilan birga terminal qurilmalarida ma'lumotlarni tushirish va mahalliy saqlash xarajatlarini sezilarli darajada kamaytiradigan ajralmas texnika. ChNT-lar vaqti-vaqti bilan ishlab chiqarilgan tonna ma'lumotlarga bog'liq bo'lganligi sababli, ortiqcha ma'lumotlarni samarali ravishda siqish juda muhimdir. Mavjud rasmni siqish ramkalari (JPEG kabi) ma'lumotlarni agressiv ravishda siqib chiqarishi mumkin, ammo ular ko'pincha Inson-Visual tizimi (IVT) yoki inson tomonidan qabul qilingan tasvir sifati uchun optimallashtiriladi, bu esa yuqori siqishni nisbatlarida (CR) va ChNT aniqligini buzilishiga olib kelishi mumkin. shu bilan aqlli xizmatlar sifatiga sezilarli darajada zarar etkazadi. Keyinchalik ko'rsatilgandek, CR = ∼5 × siqilgan JPEG rasmlardan (wrtCR = 1 × yuqori sifatli rasmlar) foydalanib, yaxshi o'qitilgan AlexNet-ni sinab ko'rish katta hajmdagi ma'lumotlar to'plamida - ImageNet uchun deyarli 9% tasvir aniqligini pasayishiga olib kelishi mumkin. yanada murakkab ChNT topologiyasi, ya'ni AlexNet-dan GoogLeNet-ga olib boriladigan yaxshilanishni o'rnatish (8-qavat, 22-qavat va 7-qatlamli MAClar - 22, 1,43G MACs) [11, 12]. Bu ChNT uchun maqbul chuqur siqishni tizimini ishlab chiqish zarurligini keltirib chiqaradi. Ushbu ishda biz birinchi marta DeepNJPEG deb nomlangan ChNT-ga qaratilgan yuqori samarali tasvirlarni siqish ramkasini ishlab chiqamiz. Odamlar tomonidan qabul qilingan buzilishlarni ustuvorlik sifatida qabul qilish orqali ishlab chiqilgan mavjud kompressiyalardan farqli o'laroq, DeepN-JPEG ChNT tasnifi uchun muhim xususiyatlarni kafolatlangan aniqlik va siqish tezligi bilan saqlab qoladi, shu bilan ma'lumotni uzatish va manba cheklangan chekkada saqlash bilan bog'liq xarajatlarni keskin pasaytiradi. Bizning asosiy hissalarimiz: (1) Biz insonning ko'rish tizimi (IVT) va chastota domenidagi chuqur nerv tarmoqlari o'rtasidagi tasvirni qayta ishlash mexanizmining farqlarini aniqlash uchun yarim analitik modelni taklif qilamiz; (2) Biz turli xil tasvir sinflarining statistik chastota tarkibiy qismlarini tahlil qilish orqali ChNT-ga mos xususiyatlarni aniqlash usulini ishlab chiqmoqdamiz; (3) Taqqoslangan xususiyatlarni taqqoslash uchun statistik alinni kvantlash jadvalidagi individual kvantlash qiymatlari bilan bog'lash uchun, shu bilan siqishni tezligini minimallashtirilgan aniqlik pasayishi bilan optimallashtirish uchun biz chiziqli xaritalash funktsiyasini taklif qilamiz. Eksperimental natijalar shuni ko'rsatadiki, DeepN-JPEG bir xil aniqlik darajasini bir xil darajada ushlab turganda, JPEG eritmasiga qaraganda ancha yuqori siqishni samaradorligiga (ya'ni 3,5 ×) ega arzon narxlardagi va ultra kam quvvatli terminal qurilmalarida, masalan, sensorlarda uni qo'llash uchun katta imkoniyatlarni namoyish etadigan apparat qiymatiga teng. 2 ORQA FON VA HARAKATLANISH 2.1 Chuqur neyron tarmoqlarining asoslari. ChNT ma'lumotlarning yuqori darajadagi abstraktsiyasini modellashtirish uchun murakkab tuzilmalar bilan bir nechta qatlamlarni kiritadi [13] va chuqur kaskadli qatlam tuzilishini ishlatish orqali yuqori o'lchovli ma'lumotlarda ierarxik naqshlarni topishda yuqori samarani namoyish etadi [11, 12, 14, 15]. Xususan, kıvırma qatlami, yadroga asoslangan konvulsiyalarni qo'llash orqali, kirishlardan yetarli xususiyat xaritalarini chiqarib oladi. Birlashtirish qatlami hajmni pasaytirish uchun mekansal o'lchovlar bo'ylab (maksimal birlashtirish yordamida) namuna olish jarayonini amalga oshiradi Va to'liq ulangan qatlam qo'shimcha natijalar va chiziqli bo'lmagan aktivlashtirish funktsiyalari asosida klass ballarini hisoblab chiqadi. Yumshoq maxregresiya (yoki multinomiallogistik regressiya) [16] yakuniy qaror qabul qilish uchun ko'pgina ChNTlarning oxirgi qatlamida odatiy tarzda qabul qilinadi. Haqiqiy tasvirni aniqlashni amalga oshirish uchun, ChNT giper-parametrlari juda ko'p kirish ma'lumotlari orqali juda ko'p o'qitiladi. Masalan, 1K toifadagi 1,3 million yuqori aniqlikdagi tasvir namunalaridan (∼140 gigabayt) iborat ImageNet [17] keng ko'lamli ma'lumotlar to'plami tasvirni aniqlash vazifasini bajarishda zamonaviy ChNT modellarini o'qitish uchun mo'ljallangan. 2.2 HVS-ga asoslangan JPEG kompressiyasi, chuqur neyron tarmoqlari tushunadigan asosiy kontekst sifatida katta hajmdagi rasmlar va videolar simsiz tarmoqli kengligida va saqlash qurilmalarida chekka qurilmalardan serverlarga qadar ustunlik qiladi. Demak, ushbu jarayonda biz rasmlarni siqish masalasiga e'tibor qaratamiz. JPEG [18] raqamli tasvirlar uchun eng mashhur yo'qotishli siqishni standartlaridan biridir. Shuningdek, u Motion JPEG (MPEG) va H.264etc [19] kabi eng ko'p ishlatiladigan video siqishni formatlarining asosini tashkil qiladi. Rasm-1da ko'rsatilgandek, har bir rang komponenti uchun, ya'ni RGB kanallari uchun, kirish tasviri avval 8 × 8 bir-biriga yopishmaydigan pikselli bloklarga bo'linadi, so'ngra 2D Furay diskret kosinasi (DCT) ga aylantirish uchun 8 × 8 blok qo'llaniladi. c, j, i ∈ 0, ..., 7, j ∈ 0, ..., 7 64 DCT koeffitsientlarini hosil qiling, ulardan c 0, 0 to'g'ridan-to'g'ri oqim (DC) koeffitsienti va c0,1, ... , c7,7 - bu 63 o'zgaruvchan tok (AC) koeffitsientlari. Har bir 64 DCT koeffitsientlari miqdorlari bo'yicha eng yaqin butun sonlarga tenglashtiriladi, asc ′ i, j = dumaloq [ci, j qi, j], bu erda qi, j har birining individual parametridir. JPEG [18] tomonidan taqdim etilgan 64 elementli kvantizatsiya jadvali. Download 438.56 Kb. Do'stlaringiz bilan baham: |
ma'muriyatiga murojaat qiling