Ansambl usullarini qo'llash orqali optimallashtirilgan audio tasnifi va segmentatsiya algoritmi

Download 30.61 Kb.

bet	2/2
Sana	04.01.2023
Hajmi	30.61 Kb.
	#1077802

1 2

Bog'liq
2 Optimallashtirilgan audio tasniflash va segmentlash Algoritmi Ensemble Metodi

2. Materiallar va usullar

Matematik muammolar muhandislik
Gaussehtimoli nisbati va yashirin Markov modeli (HMM) klassifikatori. Ushbu klassifikatorlar katta o'quv ma'lumotlari berilganda ham yaxshi natijalar beradi [29]. Ovoz segmentatsiyasi va tasnifi ko'plab talablarga ega. Tarkibga asoslangan audio tasniflash va qidirish asosan ko'ngil ochish sanoati, audio arxivni boshqarish, musiqiy musiqadan foydalanish, kuzatuv va boshqalarda qo'llaniladi. Hozirgi kunda Internet tarmog'ida millionlab ma'lumotlar bazalari mavjud; audio qidirish va indekslash uchun audio segmentatsiya va tasnif ishlatiladi. Eshitilgan yangiliklar dasturlarini kuzatishda efirga uzatiladigan yangiliklar arxivlari orqali samarali va aniq navigatsiyaga yordam beradigan audio tasnifidan foydalaniladi [30]. Yig'ilgan nutqni tahlil qilish murakkab muammo bo'lib, takomillashtirilgan ishlash tizimlari talab etiladi. Ko'pgina audio ishlash dasturlarida audio segmentatsiya oldindan ishlov berish bosqichida muhim rol o'ynaydi. Bu shuningdek nutqni tanib olish ko'rsatkichlariga sezilarli ta'sir ko'rsatadi. Shuning uchun tez va optimallashtirilgan audio tasnifi va segmentatsiyalash algoritmi taklif qilinmoqda, bu multimediyaning real vaqt dasturlari uchun ishlatilishi mumkin. Ovozli kirish to'rtta asosiy audio turga bo'linadi va bo'linadi: toza nutq, musiqa, atrof-muhit ovozi va sukunat. Kamroq o'qitish ma'lumotlarini talab qiladigan va undan yuqori aniqlikka erishish mumkin bo'lgan algoritm taklif etiladi; ya'ni noto'g'ri tasniflash darajasi minimaldir. Qog'ozning tashkil etilishi quyidagicha: audio tasniflash va segmentatsiya algoritmi (taklif qilingan), klassifikatsiyalash bosqichi, xususiyatlarni ajratib olish bosqichi, gibrid klassifikator yondashuvi (paketli SVMS (qo'llab-quvvatlovchi vektorli mashinalar) ANNS (yashovchan asabiy tarmoqlar)), va kamsitish uchun ishlatiladigan qadamlar muhokama qilinadi. Natijalar va munozaralarda eksperimental natijalar muhokama qilinadi.
2. Materiallar va usullar
2.1. Audio tasniflash va segmentatsiya bosqichi. Audio klipni ma'lumotlarning asosiy turlariga ajratish uchun gibrid tasniflash sxemasi taklif qilingan. Tasniflashdan oldin audioklipning har bir oynali oynasini alohida tahlil qiladigan predassifikatsiya bosqichi amalga oshiriladi. Keyin xususiyatlarni chiqarish bosqichi amalga oshiriladi, undan normallashtirilgan xususiyat vektori olinadi. Xususiyatlarni ajratib olgandan so'ng gibrid klassifikator yondashuvi qo'llaniladi. Birinchi qadam, audio kliplarni / freymlarni paketli SVM yordamida nutq va so'zsiz segmentlarga ajratadi. Tinchlik ramkalari asosan nutq signalida mavjud bo'lganligi sababli, nutq segmenti qoidalarga asoslangan klassifikator asosida sukunat va sof nutq segmentlariga bo'linadi. Va nihoyat, ANN tasniflagichi nutq so'zlamaydigan qismlarni musiqa va atrof muhitning tovush segmentlariga ajratish uchun ishlatiladi. Ushbu gibrid sxema yuqori tasniflash aniqligiga erishish uchun ishlatiladi va real vaqtda real vaqtda turli xil multimediya dasturlari uchun ishlatilishi mumkin. 1-rasmda tavsiya etilgan algoritmning blok diagrammasi tasvirlangan. Ovoz oqimi kirish sifatida qabul qilinadi, undan keyin 8000 KHz gacha namuna olinadi, ushbu audio oqimda oldindan tasniflash bosqichi qo'llaniladi, xususiyatlari (nol kesish tezligi, qisqa vaqt energiyasi, spektr oqimi, Mel chastotali seastral koeffitsientlar va davriylik tahlili) qazib olinadi va
Muhandislikdagi matematik muammolar

Audio segmentation

Preclassification step

Feature extraction

Bagged SVM speech\nonspeech discrimination

Speech
Yes

Rule-based classifier

Nonspeech
NO

Feature extraction

NO Yes

Pure-speech

Silence

ANN music/environment sound discrimination

Music

Environment sound

FIGURE 1: Tavsiya etilgan audiokassifikatsiya va segmentatsiya algithitimi
gibrid tasniflagich ishlatiladi. Torbali SVM funktsiyalardan foydalanadi (noldan o'tish tezligi, qisqa vaqt energiyasi, spektr oqimi va Mel chastotali cepstral koeffitsientlar) va audioklipni nutq va so'zsiz segmentlarga ajratadi; funktsiyalar (spektr oqimi, davriylik tahlili va Mel-chastotali cepstral koeffitsientlar) ishlatiladi va nutqsiz segmentlar ANN yordamida musiqa va atrof-muhit tovushlariga tasniflanadi. Qoidalarga asoslangan klassifikator sukunat va sof nutq segmentlarini ajratish uchun ishlatiladi. Ovoz segmentatsiyasi uchun oldindan ishlov berish bosqichida barcha kirish signallari 8 KHz namuna olish tezligiga tushirildi. Keyinchalik audiokliplar 1-sonli freymlarga bo'linadi. Ushbu 1-kvadrat ramka asosiy tasnif birligi sifatida qabul qilingan. Xususiyatlarni chiqarib olish uchun bir-birining ustiga chiqmaydigan ramkalar ishlatiladi. Xususiyatlar har bir 1 soniyali audioklipda mavjud bo'lgan xarakterli ma'lumotlarni bildiradi.
2.2 Oldindan tasniflash bosqichi. Nutq signsli ustma-ust qo’yilgan (ya’ni aralash shaklda), demak suxbat musiqa va shovqin bo’lgan har qanday joyda yoki bazmda o’tkaziladi. Bu kokteyl partiyasining effekti deb ham ataladi. Mustaqil komponent tahlil doirasidagi manbani yoki kerakli segmentlarni ajratish, ko’r-ko’rona ajratish deb nomlanadi. [31,33] Ko’zi ojiz manba odatda, aralash signalni mustaqil manbalarga ajratish uchun ishlatiladigan usul, (aralashtirish jarayoni ma’lum bo’lmaganida) [34].Ko’pgina ko’rlarni ajratish texnikasi yuqori darajadagi statistic ma’lumotlardan foydalanadi. Yuqori darajadagi statistika uchun ushbu algoritmlar takroriy hisob-kitobni talab qiladi [35]. Molgedey va Shuster usuli ikkinchi darajali statistik (korrelyatsiya) asosida signallarni ajratish uchun ishlatiladi. Bunga yuqori darajadagi statistika va takroriy hisob-kitoblar kerak emas. Signallarning vaqtinchalik tuzilishi tahlil qilinadi va ajratish shu asosda amalga oshiriladi.
Aralash signal birinchi navbatda vaqt chastotasi domeniga aylantiriladi, shuningdek signal spektrogrammasi deb ham ataladi, qisqa vaqt oralig’da Fourier konvertatsiyasini qo’lash orqali. Hamming oynasi ishlatiladi. Spektrogramlarni aralashtirishga yo'l qo'ymaslik uchun har bir spektrogram alohida ko'rib chiqiladi. Ushbu qisqa vaqt oralig'ida korrelyatsiya amalga oshiriladi. Keyinchalik sharsimon va aylanish bosqichi amalga oshiriladi. Kuzatuvchi koordinataga manba signallarini ortogonalizatsiya qilish sphering deyiladi. Kuzatish aslida manba signallarining ma'lum yo'nalishdagi proektsiyasidir. Asl kuzatuvlar ortogonal emas; spheringni qo'llash orqali ushbu kuzatishlar shunday joylashtirilganki, ular bir-biriga ortogonal bo'ladi. Aylanishdan keyin ham noaniqlik saqlanib qolmoqda. Shunday qilib, to'g'ri aylanishni korrelyatsiya matritsasida mavjud bo'lgan barcha diagonal bo'lmagan kuzatuvlarni olib tashlash orqali tekshirish mumkin. Bir vaqtning o'zida diagonalizatsiya [36, 37] bir necha kechikishlarda qo'llaniladi. Qayta qurish bosqichi har bir ajratilgan signalning spektrometrida amalga oshiriladi. Keyin barcha buzilgan chastota komponentlari birlashtiriladi. Oxirida 2-rasmda ko'rsatilgan ajratilgan signallar orasidagi bog'liqlikni topish uchun qadam almashtirish amalga oshiriladi. Qaror klassifikator yordamida qabul qilinadi.
2.3. Xususiyatlarni chiqarish bosqichi. Ovoz signalini xususiyat vektorlari ketma-ketligiga aylantirish jarayoni funktsiyalarni ajratib olish jarayoni deb ataladi. Xususiyat vektorlari vaqtinchalik va audio signalga oid spektral xarakterli ma'lumotlarga ega. Xususiyat vektorlari oyna asosida hisoblanadi. Xususiyatlarni tanlash audio segmentatsiya tizimlarining ishlashiga katta ta'sir ko'rsatadi. Ushbu tavsiya etilgan ishda uchta turdagi xususiyatlar hisoblab chiqilgan: Mel-chastotali cepstral koeffitsientlar (MFCC), vaqt-domen va chastota-domen xususiyatlari.
Xususiyat vektorini shakllantirish uchun ushbu normallashtirilgan xususiyatlar birlashtirilgan. Dastlab audio oqim 8 kHz namuna olish tezligida 16 bitli qismga aylantirildi. Xususiyatni ajratib olish bosqichi oldindan tasniflash bosqichidan so'ng olingan ajratilgan signallarda amalga oshiriladi. Ushbu ajratilgan signallar ustma-ust bo'lmagan ramkalarga bo'linadi. Ushbu ramkalar tasniflash birligi sifatida ishlatiladi.
Tasniflash natijalari asosida segmentatsiya amalga oshiriladi. [38] taklif qilganidek, 12 tartibli Mel-chastotali sefstral koeffitsientlar qo'llaniladi. Vaqt-domen xususiyatlari - bu noldan o'tish tezligi, qisqa muddatli energiya va davriylikni tahlil qilish. Chastotani domen xususiyati spektr oqimidir.
2.3.1. Nolinchi o'tish tezligi (ZCR). Noldan o'tish - bu 3-rasmda ko'rsatilgandek, ijobiydan salbiyga yoki aksincha sodir bo'ladigan signal o'zgarishlarining o'lchovidir. Umumiy ta'rif - bu ramka ichidagi nol kesishish miqdori. Nolinchi o'tish tezligi nutq va musiqani samarali ravishda ajratib turadi, chunki nutq musiqaga nisbatan ko'proq jim mintaqalarni o'z ichiga oladi, shuning uchun nutq uchun nol-o'tish tezligi musiqadan kattaroq [4, 30]. Nolinchi o'tish tezligining ifodasi quyidagicha berilgan

Download 30.61 Kb.

Do'stlaringiz bilan baham:

1 2