Ansambl usullarini qo'llash orqali optimallashtirilgan audio tasnifi va segmentatsiya algoritmi
Download 30.61 Kb.
|
2 Optimallashtirilgan audio tasniflash va segmentlash Algoritmi Ensemble Metodi
Tadqiqot maqolasi Ansambl usullarini qo'llash orqali optimallashtirilgan audio tasnifi va segmentatsiya algoritmi Ovoz segmentatsiyasi bugungi kunda eng muhim va keng qo'llaniladigan dastur bo'lgan multimedia tarkibini tahlil qilish uchun asosdir. Ushbu maqolada optimallashtirilgan audio tasnifi va segmentatsiyasi algoritmi keltirilgan audiostreamni tarkibiga qarab to'rtta asosiy audio turga ajratib ko'rsatgan: : sof nutq, musiqa, atrof-muhit ovozi va sukunat. Muhim audio tarkibni saqlaydigan va shov-shuvni boshqaradigan va real vaqt rejimida ishlashga yaroqli bo'lgan katta miqdordagi ma'lumotlardan foydalanmasdan noto'g'ri tasniflash tezligini kamaytiradigan algoritm ishlab chiqilgan. Ovoz oqimidagi shovqin muhit sifatida ajratilgan. Gibrid tasniflash usuli qo'llaniladi, sun'iy neyron tarmoqlari (ANN) mavjud bo'lgan paketli qo'llab-quvvatlash vektorli mashinalar (SVM). Ovozli oqim, birinchi navbatda, paketli qo'llab-quvvatlash vektorli mashinalari yordamida nutq va nutqsiz segmentlarga bo'linadi; nutqsiz segmentlar sun'iy neyron tarmoqlaridan foydalangan holda musiqa va atrof muhit tovushlari deb tasniflanadi va nihoyat, nutq segmenti sukunat va sof nutq segmentlari uchun qoidalarga asoslangan klassifikator asosida tasniflanadi. Ta'lim klassifikatori uchun minimal ma'lumotlar ishlatiladi; noto'g'ri tasniflash darajasini minimallashtirish uchun ansambl usullaridan foydalaniladi, va taxminan 98% aniq segmentlar olinadi. Tez va samarali algoritm real vaqt rejimidagi multimedia dasturlari bilan ishlatilishi mumkin. 1. Kirish Internet orqali multimedia ma'lumotlarining haddan tashqari ko'payishi onlayn xizmatlarga katta burilish yasadi. Ko'pgina multimedia dasturlarida ovozli ma'lumot muhim qism hisoblanadi. Onlayn ma'lumotlarning eng keng tarqalgan va ommabop misoli bu musiqa [1]. Ovozni tahlil qilish, video tahlil qilish va tarkibni tushunishga audio oqimni tarkibiga qarab segmentlash va tasniflash orqali erishish mumkin [2]. Shu maqsadda audio oqimni ajratib turadigan samarali va aniq usul talab qilinadi. Ovoz oqimi bir hil (o'xshash) mintaqalarga bo'linadigan texnikaga audio segmentatsiya deyiladi [1]. Multimediya va tarmoq texnologiyalarining paydo bo'lishi yangi rivojlanayotgan natijalarga olib keladi va shu sababli ovoz signalini tahlil qilish va tushunishni asosiy bosqichi multime-da otishdir.audio signalni tarkibiga qarab ajratish. Ovozni tasniflash va segmentatsiya - bu naqshni aniqlash muammosi. U ikkita asosiy bosqichni o'z ichiga oladi: xususiyatlarni ajratib olish va keyinchalik ajratib olingan ushbu xususiyatlar (statistik ma'lumotlar) asosida tasniflash [3]. Ovozli tarkibni tahlil qilish dasturlari ikki qismga bo'linishi mumkin. Bir qismi - audio oqimni bir hil mintaqalarga ajratish, ikkinchisi - nutq oqimini segmentlarga, turli xil ma'ruzachilarga ajratish. Lu va boshq. [2, 4] audio oqimni turli xil audio turlariga ajratish. Tegishli ravishda tasniflovchi qo'llab-quvvatlovchi vektorli mashinalar [5-9] va chiziqli spektral juftliklar-vektorli kvantlash bilan birlashtirilgan K - eng yaqin qo'shni ishlatiladi. Trening 2 soatlik ma'lumotlar asosida amalga oshiriladi. Coz va boshq. [10] chastotani kuzatish orqali ovozli trekning turli xil tarkib darajalarini tavsiflovchi audio indeksatsiya tizimini taqdim etdi. Tizim oldindan talab qilmaydibilim. Bu aniq yondashuv Kiranyaz va boshqalar tomonidan qo'llaniladi. [11] bunda avtomatlashtirilgan audio tahlilga asoslangan ierarxik audio tasniflash va segmentatsiya algoritmi taklif etiladi. Ovoz signali vaqt chegaralarini topish orqali bir hil mintaqalarga bo'linadi, ularni o'zgartirish nuqtalarini aniqlash deb ham atashadi. Ovoz segmentatsiyasida o'zgarishlarni aniqlash yordamida ovozli signal bir hil va doimiy vaqtinchalik mintaqalarda bo'linadi. Muammo bir xillik mezonlarini belgilashda paydo bo'ladi. To'liq umumlashtirilgan ehtimollik nisbati statistikasini hisoblash orqali audio oqimlarni segmentatsiyalash oldindan bilmagan holda amalga oshirilishi mumkin. Xususiyat sifatida mel-chastotali sefstral koeffitsientlardan foydalaniladi (12]. Statistikani hisoblash uchun katta miqdordagi trening ma'lumotlari talab qilinadi. Uchrashuv transkripsiyasi va kamerani avtomatik ravishda panjara qilish kabi vazifalar guruh yig'ilishini turli xil shaxslarning nutqlariga ajratishni talab qiladi. Bayes ma'lumotlari mezonlari (BIC) xususiyat vektorlarini segmentlarga ajratishda ishlatiladi [13-15]. BIC o'quv ma'lumotlarining katta miqdorini talab qiladi. Tarkibiy diskriminatsion modellar so'z birikmalarini katta miqdordagi so'zlashuv vositalarida qo'llab-quvvatlovchi vektorli mashinadan (SSVM) foydalanadi. Xususiyatlarini aniqlash uchun yashirin Markov modellari (HMMS) [16-21] ishlatiladi va Viterbiga o'xshash sxemadan foydalaniladi [14]. An'anaviy ravishda ishlatiladigan audio-qidirish tizimlari matnga asoslangan bo'lib, odamlarning eshitish tizimlari asosan idrokka tayanadi. Matn faqat yuqori darajadagi tarkibni ishlab chiqqanligi sababli, bu ikkita akustik audio klip o'rtasida sezgirlik o'xshashligini olish uchun etarli emas. Ushbu muammoni Query misol texnikasi yordamida osongina echish mumkin. Ushbu texnikada ma'lumotlar bazalaridan faqat shu namunaga o'xshash tovushlar namunalari taxmin qilinadi. Masalan, so'rovlar audio tasniflashdan ancha farq qiladi. Ovoz xususiyatlarining doimiy ravishda taqsimlanishini modellashtirish uchun Gauss aralashmasi modeli (GMM) ishlatiladi [22]. Yanku va Xiniova [23] MMI tomonidan boshqariladigan daraxtlarga asoslangan vektor kvantizatori va oziqlantiruvchi neyron tarmog'idan [16, 17,24, 25] atrof-muhit tovushlari va nutqni aniqlash uchun ovoz oqimida foydalanish mumkinligini taklif qilishdi. Fisher diskriminantiga asoslangan muntazam yadroga asoslangan usul nazoratsiz o'zgarishlarni aniqlash uchun ishlatilishi mumkin [26, 27]. Nutq nafaqat so'z xabarlarini uzatish rejimidir; u shuningdek hissiyotlarni, shaxsiyatni va boshqalarni ta'kidlaydi. So'zlar unli hududlarni o'z ichiga oladi, ular ko'plab nutq dasturlarida, asosan nutqni segmentlashtirish va ma'ruzachini tekshirishda muhim ahamiyatga ega. Ovozli hududlar unli boshlanish nuqtasi paydo bo'lganda boshlanadi va unli ofset nuqtasi paydo bo'lganda tugaydi. Ovozli segmentatsiya, shuningdek ovozli tovushlar asosida audio oqimni segmentlarga ajratish orqali ham mumkin [28]. Ovoz segmentatsiyalash algoritmlarini uchta umumiy toifaga bo'lish mumkin. Birinchi toifada klassifikatorlar ishlab chiqilgan [29]. Funktsiyalar vaqt domenida va chastota domenida ajratib olinadi; u holda klassifikator audio signallarni tarkibiga qarab ajratish uchun ishlatiladi. Ovoz segmentatsiyasining ikkinchi toifasi, tasniflovchi tomonidan diskriminatsiya uchun ishlatiladigan statistik ma'lumotlarning xususiyatlarini ajratib turadi. Ushbu turdagi xususiyatlar orqa ehtimollikka asoslangan xususiyatlar deb ataladi. To'g'ri natijalarni berish uchun klassifikator tomonidan katta miqdordagi o'quv ma'lumotlari talab qilinadi. Ovoz segmentatsiyasi algoritmining uchinchi toifasi samarali tasniflagichlarni o'rnatishga urg'u beradi. Ushbu turkumda ishlatiladigan tasniflagichlar Bayes ma'lumotlari mezoni, Download 30.61 Kb. Do'stlaringiz bilan baham: |
ma'muriyatiga murojaat qiling