Guruh talabasi Erkinboyev Narimon Amaliy mashg‘ulot №1 Mavzu: Nutqni aniqlash algoritmlari Ishdan maqsad


Download 1.54 Mb.
bet6/7
Sana06.04.2023
Hajmi1.54 Mb.
#1277834
1   2   3   4   5   6   7
Bog'liq
1-6 amaliy mashg\'ulotlar

Topshiriqlar

Nutqni tanib olish - bu mashina yoki dasturning og'zaki tildagi so'z va iboralarni aniqlash va ularni mashinada o'qiladigan formatga aylantirish qobiliyatidir [1]. Nutq tovushlar ketma-ketligidir. Ovoz, o'z navbatida, turli chastotali tovush to'lqinlarining superpozitsiyasidir. To'lqin, fizikadan ma'lumki, ikkita xususiyat bilan tavsiflanadi - amplituda va tezlik. Ovozli signalni raqamli muhitda saqlash uchun uni bir necha intervallarga bo'lish va ularning har biri uchun ma'lum bir "o'rtacha" qiymatni olish kerak. Shunday qilib, mexanik tebranishlar zamonaviy kompyuterlarda ishlov berish uchun mos keladigan raqamlar to'plamiga aylanadi. Rudimentary nutqni aniqlash dasturi so'z va iboralarning cheklangan lug'atiga ega va shuning uchun u talaffuz juda aniq bo'lsa, so'zlarni aniqlay oladi. Murakkabroq dasturiy ta'minot tabiiy nutqni qabul qilish qobiliyatiga ega.


Nutqni aniqlash ikkita algoritm asosida ishlaydi: akustik va tilni modellashtirish. Akustik modellashtirish - nutqning lingvistik birliklari va audio signallari o'rtasidagi munosabat; Tilni modellashtirish bir xil eshitiladigan so'zlarni farqlash uchun tovushlarni so'zlar ketma-ketligi bilan moslashtiradi. Nutqni matnga avtomatik aylantirish jarayoni ifoda sifatida ifodalanishi mumkin

bu erda argmax - ifoda maksimal darajaga etgan argumentning qiymati, P(A|W) - baholash bo'yicha gipotezaning paydo bo'lishi sharti bilan akustik modelni baholash bo'yicha gipotezaning paydo bo'lish ehtimoli. til modelining P(W) til modelini baholashda W gipotezasining paydo bo‘lish ehtimoli [1 –2].
Nutq mikrofondagi tovushga sezgir element tomonidan ushlanadi, bu o'zgaruvchan tovush bosimini elektr signalidagi ekvivalent o'zgarishlarga, ya'ni oqim yoki kuchlanishga aylantiradi. Keyinchalik bu analog signal namunalanadi va raqamli bit oqimiga (formatga) kvantlanadi. Keyinchalik, namuna olish sodir bo'ladi - har bir namuna olish momentidagi amplitudani ma'lum bir bit uzunligi bilan diskret ikkilik raqamga aylantirish orqali kvantlash amalga oshiriladigan individual T vaqtlarida analog signal qiymatlarini olish jarayoni. Ushbu ikki bosqichli jarayon ba'zan Pulse Code Modulation (PCM) deb ataladi. Gts da soniyada (chastota) fs namunalar soni namuna olish davrining o'zaro nisbatiga teng, ya'ni fs = 1/T. Namuna olish teoremasi shuni ko'rsatadiki, namuna olish tezligi signalda mavjud bo'lgan eng yuqori chastota komponentidan kamida ikki baravar bo'lishi kerak. Agar kamroq namunalar ishlatilsa, taxallus deb nomlanuvchi hodisa yuzaga keladi, bu erda dizayn takrorlanganda past chastotali signal paydo bo'lishi mumkin. Oddiy nutq uchun namuna olish tezligi taxminan 3,3 kHz ni tashkil qiladi. 6-20 kHz chastotada Nyquist chastotasidan yuqori chastota komponentlarini olib tashlash uchun oldindan namuna olish yoki tekislash filtri talab qilinadi.
Nutqni aniqlash tizimlarining ishlashi odatda aniqlik va tezlik bilan o'lchanadi. Aniqlik so'zdagi xatolar soni sifatida o'lchanadi, tezlik esa real vaqt omili bilan o'lchanadi. Aniqlikning boshqa ko'rsatkichlari bitta xato va jamoaning muvaffaqiyati darajasini o'z ichiga oladi.
Nutqni aniqlash tizimini ishlab chiqish jarayonida dinamik vaqtinchalik deformatsiya, yashirin Markov modellari, neyron tarmoqlari va nutqni oxirigacha aniqlash kabi yangi operatsiya algoritmlari asta-sekin paydo bo'ldi [1, 3-4].
Dinamik vaqtni o'zgartirish
Eng qadimgi algoritmlardan biri bu Dynamic Time Warping (DTW) nutqni aniqlash algoritmidir. Vaqt seriyalarini tahlil qilishda dinamik vaqtinchalik burish ikki vaqt seriyasi o'rtasidagi o'xshashlikni o'lchash algoritmlaridan biridir. DTW video, audio va grafik ma'lumotlarning vaqt ketma-ketligiga nisbatan qo'llaniladi. Haqiqatan ham, chiziqli ketma-ketlikka aylantirilishi mumkin bo'lgan har qanday ma'lumotni DTW yordamida tahlil qilish mumkin.
DTW ikki ketma-ketlik o'rtasidagi o'xshashlikni o'lchashdir, ular vaqt yoki tezlikda farq qilishi mumkin. Ikki vaqt ketma-ketligi uchun Q = q1, q2, …, qn va C = c1, c2, …, sm oddiygina ketma-ketlikning har bir k-nuqtasidan ikkinchisining tegishli nuqtasigacha boʻlgan kvadratik masofalarning yigʻindisidir. Ikki vaqt seriyasi orasidagi DTW masofasi quyidagi tenglamadan foydalangan holda ushbu optimal burilish yo'li asosida hisoblanadi:
,
bu yerda d(wk) = d(qi, cj) = (qi – cj)2 masofa matritsasi [5–6].
Maxrajdagi K har xil uzunlikdagi turli burilish yo'llarini normallashtirish uchun ishlatiladi. DTW burma matritsasidagi har bir hujayrani potentsial ravishda o'rganishi kerakligi sababli, uning fazo va vaqt murakkabligi O (nm) ga teng.
Yashirin Markov modeli
DTW algoritmi yanada rivojlangan yondashuv bilan almashtirildi - yashirin Markov modellari (HMM - Hidden Markov Model). HMMlar belgilar yoki qiymatlar ketma-ketligini keltirib chiqaradigan va nutqni aniqlash uchun ishlatiladigan statistik modellardir, chunki nutq signalini qisman statsionar signal yoki qisqa muddatli statsionar signal sifatida ko'rib chiqish mumkin [6-7]. HMM l = (A, B, p) to'plami sifatida aniqlanadi, bu erda A - aij elementlaridan iborat o'tish ehtimoli matritsasi - i holatlardan j ga o'tish ehtimoli, B - chiqish qiymatlarini kuzatishning ehtimollik matritsasi, quyidagilardan iborat. elementlar bi(ok) - ok vektorining j holatidagi kuzatish ehtimolliklari, p - boshlang'ich holatlarning ehtimollik vektori, p i komponentlardan tashkil topgan - vaqtning boshlang'ich momentida i-holatda bo'lish ehtimoli. t vaqtida j holatda bo‘lgan holda, oldinga tarqalish funksiyasi O = (o1, o2, …, ot) ketma-ketlikni kuzatish ehtimoli sifatida aniqlanadi [6]
,
.
at(j) ni hisoblash rekursiv ravishda sodir bo'ladi. Kuzatilgan ketma-ketlikning oxiriga yetgandan so'ng, barcha holatlar uchun aT(j) qo'shilib, O = (o1, o2, …, oT) asl ketma-ketlikni kuzatish ehtimolini oladi [6],
.
Ushbu ehtimollik ajratilgan so'zlarni tan olishda qo'llaniladi:

Har bir so'z yoki fonema turli xil chiqish taqsimotiga ega. Fonemalar uch xil holatda - boshlang'ich, o'rta va yakuniy holatda modellashtiriladi. Fonemalarning ikki turi mavjud: monofonlar va trifonlar. Monofonlar uchun artikulyatsiya qoplamasi e'tiborga olinmaydi, alohida turgan fonemalarning modellari yig'iladi. Trifonlar uchun artikulyatsiya o'zaro kelishi hisobga olinadi va boshqa fonemalar bilan o'ralgan fonemalar uchun alohida model quriladi. Har bir so'z yoki fonema uchun individual yashirin Markov modellarini birlashtirish orqali bir qancha so'zlar yoki fonemalar uchun yashirin Markov modeli yaratiladi [1, 7].
Sun'iy neyron tarmoqlari
HMM algoritmini optimallashtirish uchun ko'pincha nutq signalini oldindan qayta ishlaydigan neyron tarmoqlar ishlatiladi, masalan, ob'ektni o'zgartirish yoki o'lchamlarni kamaytirish. Sun'iy neyron tarmoqlari (ANN) - bu hayvonlarning miyasini tashkil etuvchi biologik neyron tarmoqlarga asoslangan hisoblash tizimlari. Bunday tizimlar, odatda, maxsus dasturlashsiz, misollarni ko'rib chiqish orqali muammolarni o'rganadi (qo'shimcha ravishda samaradorlikni oshiradi). Neyron tarmoqlar - bu inson miyasining neyron tuzilishiga asoslangan ishlov berish arxitekturasiga ega naqshlarni moslashtiruvchi qurilmalar [2, 7]. Ular bir-biriga bog'langan oddiy ishlov berish birliklaridan (neyronlardan) iborat. Neyronlar orasidagi har bir aloqa (sinaps) signalni biridan ikkinchisiga o'tkazishi mumkin. Qabul qiluvchi (postsinaptik) neyron signalni qayta ishlashi va keyin unga neyronlarni ulashi mumkin. An'anaviy ANN dasturlarida sinaps signali haqiqiy son bo'lib, har bir neyronning chiqishi uning kirishlari yig'indisining chiziqli bo'lmagan funktsiyasi sifatida hisoblanadi [8].
,
bu erda wij - ulanishlarning og'irligi.
Neyronlar va sinapslar odatda o'rganish davom etayotganda sozlanadigan og'irliklarga ega. Og'irlik sinaps bo'ylab yuboradigan signalning kuchini oshiradi yoki kamaytiradi. Neyronlar shunday chegaraga ega bo'lishi mumkinki, agar agregat signal bu chegarani kesib o'tgan bo'lsa, signal yuboriladi.
Odatda, neyronlar qatlamlarga bo'linadi. Turli qatlamlar o'z kirishlarida har xil turdagi o'zgarishlarni amalga oshirishi mumkin. Signallar birinchi (kirish) dan oxirgi (chiqish) qatlamga o'tadi. Nutq segmentining ehtimolini baholashda neyron tarmoqlar tabiiy va samarali tarzda test qilish imkonini beradi. Neyron tarmoqlarning kamchiliklari vaqtga bog'liqlikni modellashning mumkin emasligidir [1-2].
Chuqur neyron tarmoq
Turli xil neyron tarmoqlar chuqur neyron tarmoqlardir (DNN - Deep Neural Network). Ushbu algoritm kirish va chiqish darajalari o'rtasida bir nechta yashirin qatlamlarga ega bo'lgan sun'iy neyron tarmoqdir. Kichik neyron tarmoqlar singari, DNN ham murakkab chiziqli bo'lmagan munosabatlarni modellashtirishi mumkin. DNN arxitekturalari kompozitsion modellarni yaratadi, bunda qo'shimcha qatlamlar elementlarni pastki qatlamlardan tuzishga imkon beradi, bu ulkan o'rganish qobiliyatini va shuning uchun murakkab nutq ma'lumotlari modellarini modellashtirish potentsialini ta'minlaydi. DNN tarmog'ida kirish darajasi x, yashirin qatlam s va chiqish darajasi y mavjud. Kirish qatlami joriy so'z bo'lgan w(t) vektorining birlashuvi bo'lgan x(t) vektoridan va yashirin qiymatlarning chiqish qiymatlari bo'lgan s(t - 1) vektoridan iborat. oldingi bosqichda olingan qatlam. W(t) vektorining o'lchami lug'atning o'lchamiga teng. Chiqish qatlami y(t) w(t) bilan bir xil o'lchamga ega va neyron tarmoqni o'rgangandan so'ng, oldingi so'z berilgan keyingi so'zning ehtimollik taqsimoti va oldingi vaqt bosqichida yashirin qatlam holati [1] –2]. Yashirin qatlamning o'lchami odatda empirik tarzda tanlanadi. Barcha qatlamlarni quyidagicha hisoblash mumkin:
,
,
,
Bu yerda f(z) sigmasimon faollashuv funksiyasi:
,
g(z) – softmax funksiyasi:
.
End-to-end algoritmi
Bugungi kunga kelib, eng zamonaviy algoritm LAS (Likelihood Ascent Search) deb ataladigan ortish ehtimoli uchun End-to-End qidiruv algoritmidir. LAS - bu uchdan uchgacha nutqni aniqlash modeli. LAS HMM kabi aniq til modellaridan foydalanmasdan, audio signallar ketma-ketligini so'zlar ketma-ketligiga, bir vaqtning o'zida bitta belgiga transkripsiya qilishni o'rganadi. U tinglovchi deb ataladigan kodlovchi va speller deb nomlangan dekoderdan iborat. LAS har bir belgi chiqish yi ni oldingi belgiga nisbatan shartli taqsimot sifatida modellaydi [8-10]
,
bu yerda x = (x1,…, xT) - kirish ketma-ketligi, y = (y1,…, ys) - chiqish ketma-ketligi va y to'plamning elementi harflar, raqamlar yoki belgilardan olingan istalgan qiymat bo'lishi mumkin. Ushbu model diskriminativ va oxirigacha, chunki u akustik signal berilgan belgilar ketma-ketligining shartli ehtimolini bevosita bashorat qiladi [10].
Nutqni aniqlash tizimlarining asosiy afzalligi foydalanuvchilarga qulaylik bo'ldi. Ular teginish yoki boshqa usullardan foydalanmasdan nutq orqali ma'lumotlar yoki buyruqlarni kiritish imkonini beradi [3]. Kamchilik - bu talaffuzning ba'zi o'zgarishlarini tan olmaslik, shuningdek, ingliz tilidan tashqari ko'pchilik tillarni qo'llab-quvvatlamaslik va fon shovqinini ajratish mumkin emas. Bunday omillar noaniqliklarga olib kelishi mumkin [7, 9].
Nutqni tanib olish keng ko'lamli dasturlarga ega. Oddiy ovozli buyruqlar qo'ng'iroqlarni boshlash, radio stantsiyalarni tanlash yoki mos keladigan smartfon yoki MP3 pleerdan musiqa tinglash uchun ishlatilishi mumkin. Nutqni aniqlash ham turli tillarda muloqot qilish imkonini beradi.
Nutqni aniqlash tizimi harbiy sohada ham qo'llaniladi. Nutqni tanituvchilar harbiy samolyotlarda muvaffaqiyatli ishlaydi, jumladan: radiochastotalarni sozlash, avtopilot tizimini boshqarish, koordinata chastotalari va qurollarni chiqarish parametrlarini sozlash, parvozlarni boshqarish. So'nggi o'n yilliklarda vertolyotlarda nutqni aniqlash bo'yicha muhim sinov dasturlari, xususan AQShda (AVRADA - Aviatsiya tadqiqotlari va ishlanmalari faoliyati) va Qirollik Aerokosmik Institutida (RAS -) avionikani tadqiq qilish va rivojlantirish doirasida amalga oshirildi. Qirollik Aeronavtika Jamiyati) Buyuk Britaniyada. Tadqiqot davomida asosiy muammo aniqlandi - shovqin mavjudligida yuqori tanib olish aniqligiga erishish. Bu muammo bugungi kungacha hal etilmagan.
Xulosa qilib shuni ta'kidlash kerakki, nutqni aniqlash tizimi uzoq vaqtdan beri rivojlanib borayotgan bo'lsa-da, uni mukammal deb atash mumkin emas, chunki u o'zining ahamiyatsizligi tufayli cheklangan imkoniyatlarga ega. Nutqni aniqlashning avtomatlashtirilgan tizimlari so'z yoki topshiriqning aniqligi nuqtai nazaridan idealdan uzoq bo'lsa-da, to'g'ri ishlab chiqilgan ilovalar mijozga haqiqiy qiymatni etkazish uchun mavjud texnologiyalardan foydalanishi mumkin, buni har kuni millionlab foydalanuvchilar tomonidan ishlatiladigan bunday tizimlar soni tasdiqlaydi. Nutqni tanib olishni optimallashtirish uchun turli xil qayd asboblari (telefon, mikrofon, tinglash moslamasi) yordamida turli xil emotsional holatlarda turli odamlar tomonidan aytilgan so'zlarning katta ma'lumotlar bazasiga ega bo'lish kerak. Bugungi kunga kelib, nutqni aniqlash algoritmlarini ishlab chiqish to'xtamaydi. Kelajakda neyron tarmoqlarni takomillashtirish sohasida nutqni aniqlash tizimlarining rivojlanishini bashorat qilish mumkin. Shuningdek, majburiy talab turli darajadagi teskari aloqaning mavjudligi va bunday neyron tarmoqlarni o'qitishning yangi usullarini ishlab chiqish bo'ladi.



Download 1.54 Mb.

Do'stlaringiz bilan baham:
1   2   3   4   5   6   7




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling