O’zbekiston respublikasi axborot texnologiyalari va kommunikatsiyalarini rivojlanshtirish vazirligi

Download 0.97 Mb.

bet	3/8
Sana	24.12.2022
Hajmi	0.97 Mb.
	#1055880

1 2 3 4 5 6 7 8

Bog'liq
Abdurashidov Jamshidbek

Lugat hajmi.
Spikerga qaramlik yoki tizimning karnay mustaqilligi.
Alohida yoki doimiy nutq.

I BOB NAZARIY QISM

Nutqni aniqlash algoritmlari

Zamonaviy axborot texnologiyalari bugungi kunda jamiyatda alohida ahamiyatga ega. Boshqa ilmiy-texnik yutuqlardan informatika va hisoblash texnikasining farqi shundaki, ular inson aqliy faoliyatining barcha sohasida foydalanilib, ilmiy-texnik jarayonlar taraqqiyotiga targ’ib etiladi. Keyingi vaqtlarda asosiy e’tibor inson va mashinaning nuqt orqali interfeysini avtomatlashtirishga alohida e’tibor qaratilmoqda. Bu jarayon ham izlanuvchilarni, ham foydalanuvchilarni birdek qiziqtiradi. Odamlar uchun muloqatning tabiiy va eng oddiy usuli bu og’zaki nutq orqali muloqat qilish usuli hisoblanadi. Shuning uchun muloqat texnologiyalari robototexnikada, kompyuter qurilmalarini boshqarishda, telekommunikatsiya tizimlarida keng foydalaniladi.
Nutq orqali muloqat vositalari quyidagi asosiy ikki yo’nalishda qo’llaniladi.
1) Mobil qurilmalar uchun mo’ljallangan dasturlarni ovoz orqali boshqarishda.
2) Imkoniyati cheklangan odamlar uchun shaxsiy kompyuter va inson o’rtasida muloqat tashkil qilishda.
3) Aqilli uylarni tashkil qilishda. Mobil qurilmalarda qo’llanilishiga ehtiyojning sabababi unda kiritish qurilmalari (klaviatura, sichqoncha, ekran) orqali ishlashning qiyinchiligidadir. Shu bilan birga ovoz orqali kiritish uchun eng qulay vosita ham mobil qurilmalari hisoblanadi. Chunki mobil qurilmalari eng asosiy qurilmalar(asosan mikrofon) bilan ta’minlangan va internetga ulanish oson. Nutqni tanish tizimining nutqni avtomatik tanishdan iborat. Foydalanuvchi biror so’zni aytganda tizim uni textga aylantirish lozim. Agar tizim buyruq bajaradigan bo’lsa, u holda shu textga mos buyruqni bajarishi kerak. Undan tashqari nutqni tanish tizimi nutqni biror aniqlangan tilda amalga oshiradi. Shuning uchun oldindan qaysi tilda aytmoqchiligini foydalanuvchi o’zi ko’rsatishi, yoki tizim qaysidir bir tilda ishlashi lozim. Internet orqali ishlovchi Google Voice API va Yandex SpeechKit tizimlari bo’lib, ular hozirda ko’plab dasturlarda qo’llanilib kelinmoqda. Ularning afzallik tamonlari istalgan sohaga oid nutq tovushlarini yuqori aniqlikda matnga aylantiradi. Undan tashqari yaratilgan tayyor API lar orqali internet orqali foydalanish mumkin. Qandaydir sohani oladigan bo’lsak, bu sohadagi so’zlar soni ko’pincha chekli bo’ladi yoki juda oz bo’lishi mumkin. Google Voice API, Yandex SpeechKit va boshqa shunga o’xshash tizimlarning barcha so’zlar bazasidan aytilgan so’zga eng yaqinini izlab topadi. Bazadagi so’zlar ko’p bo’lganligi sababli aytilgan so’zni o’rniga unga yaqin boshqa so’zni topish holatlari bo’lishi mumkin. Ko’pchilik dasturlarda ishlatiladigan buyruqlar chekli bo’ladi va internet tarmog’isiz ishlashni talab qiladi. Masalan kalkulyator dasturni oladigan bo’lsak unda faqat sonlar va amallar ishlatiladi. Unda aytilgan so’zlarni faqat oz so’zlar to’plamidan izlash yetarli. Bunday tizimlar uchun Sphinx tizimi eng yaxshi hisoblanadi. Sphink (SQL Phrase Index) — Carnegie Mellon Universitetida ishlab chiqilgan bo’lib nuqtni tanish tizimlarini bir guhuhini o’z ichiga oladi. Bular o’z ichiga birnecha nuqtni tanuvchilar(Sphinx 2–4) va akustik modelni o’z ichiga oladi. 2000 yilda Carnegie Mellon da Sphink guruhi birnetcha nutqni tanish ochiq kodli tizimlari ishlab chiqdi. Sphinx 4 nutqni tanish sohasida mukammallikni ta’minlash maqsadida ishlan chiqilgan framework bo’lib, Java dasturlash tilida yaratilgan [2]. CMUSphinx har xil akustik tizimlarini qo’llab quvvatlaydi: davomiy, yarim-davomiy va bog’langan fonetik. Akustik model models modulida yaratilgan. Har bir til uchun alohida akustik model yaratilishi lozim. digits.gram faylida barcha izlatiladigan so’zlar va ularning grammatikasi beriladi. Masalan tizim faqat raqamlar bilan ishlaydigan bo’lsa u holda quyidagicha grammatika yoziladi:
= ноль | один | два | три | четыре | пять | шесть | семь | восемь | девять;
public = + Yuqoridagi grammatika faqat raqamlar ketma-ketligidan iborat so’zlarni taniydi. Masalan 1, 123 yoki 456784. So’zlarning qanday tovushlardan iborat bo’lishi cmudist.dict faylida tovushlarga ajratilib ko’rsatiladi.

cmudist.dict faylida so’zlarning tovushlarga ajratilishi Bu faylga istalgan so’zlarni qo’shish yoki o’chirish mumkin. Grammatikadagi barcha so’zlar bu ro’yxatda ham bo’lishi shart. Grammatikada ishlatilmagan so’zlarni esa o’chirib tashlash mumkin. Pocketsphinx mobil platformalar uchun ko’plab loixalarda nutqni qo’llash imkoniyatini yaratadi, nuqtni tanish sifatini ta’minlaydi. Undan tashqari loixaga uni kiritish oson amalga oshiriladi. Lekin albatta, ba’zi muommolar yechimsiz qolmoqda. Xususan, harflarni tanish masalasi eng murakkab masala hisoblanadi. Chunki harflar bir-biriga o’xshash hisoblanib, bitta guruhga tegishli harflarni aniqlash murakkablik tug’diradi. Masalan b, d, e yoki l, n, m harflari bir-biriga o’xshash bo’lib, yanglishgan holda aniqlanishi mumkin. Avtomobillar vin nomerlarini nuqt yordamida kiritishda harflar yetarlicha ko’p bo’ladi. Agar har bir harfni tog’ri aniqlash extimolligi 95 % bo’lgan taqdirda ham barcha harflarni to’gri topish ehtimolligi (0.9510 = 0.59) 59 % ga teng bo’ladi. Bu esa yetarlicha aniqlik emas. Shunday bo’lsa ham nutq tovushlarini tanishda Pocketsphinx yuqori aniqlikda ma’noga ega so’zlarni topadi va mobil dasturlarda har xil loixalarda qo’llanilishi mumkin.
Birovning gapini tinglaganimizda, ichki qulog'imiz tovushning chastota spektrini tahlil qiladi va miya so'zni idrok etadi. Ba'zi kompyuterlar bu jarayonni spektr analizatori yordamida simulyatsiya qilishi mumkin.
Ovoz signallari analizatorga mikrofon orqali kiradi va ularning spektral xususiyatlari tahlil qilinadi. Keyin kompyuter qabul qilingan signallarni dasturlashtirilgan fonemalar ro'yxati yoki akustik bloklar bilan taqqoslaydi. Qisqa muddatli signallar so'zlarning standart naqshlari bilan taqqoslanadi va til va sintaksis qoidalari bilan taqqoslanadi.
Ushbu jarayon kompyuterga aytilgan so'zlarni aniqlashga yordam beradi. Agar dastur etarlicha murakkab bo'lsa, hatto kontekst bo'yicha "homila" yoki "zaif" so'zi ishlatilganligini aniqlash mumkin. Ammo kompyuter nutqni haqiqatan ham odamlar tushunishi mumkinmi yoki yo'qmi, baribir qizg'in bahs-munozaralarning mavzusi. Siz kompyuterni ba'zi so'z birikmalariga javob bera oladigan tarzda dasturlashingiz mumkin, ammo bu haqiqiy tushunishni o'rnini bosadimi? Sun'iy intellekt sohasidagi ba'zi ekspertlarning fikriga ko'ra, bir necha o'n yillar ichida kompyuter odam bilan haqiqiy norasmiy suhbatni amalga oshirishi mumkin. Shunga qaramay, ko'plab mutaxassislar kompyuter har doim dastur, oldindan tayyorlangan javoblar bilan cheklanib qolishiga ishonishadi.
Bir necha soniyadan ko'proq vaqt davomida qilingan tovushlar qisqa vaqt segmentlariga bo'linadi. Keyin kompyuter har bir segmentning chastota tarkibiy qismlarini tahlil qiladi.
Ovoz spektrografi ko'rinadigan shaklda tovush spektrini anglatadi. Tahlilning bitta usuli bilan inson ovozining normal tovushlar zanjiri segmentlarga bo'linadi, ularning rang kodi ularning tarkibiy qismlarining kuchliligi va chastotasini ko'rsatadi. Yuqoridagi rasmda bo'lgani kabi, uch o'lchovli grafikalarda bunday ma'lumotlarni vizual ravishda namoyish etishning boshqa usuli tasvirlangan.

1. Nutqni qayta ishlash nutq signalining sifatini baholashdan boshlanadi. Ushbu bosqichda aralashish va buzilish darajasi aniqlanadi.
2. Baholash natijasi tan olish uchun zarur bo'lgan nutq parametrlarini hisoblash modulini boshqaradigan akustik moslashuv moduliga yuboriladi.
3. Signalda nutqni o'z ichiga olgan bo'limlar belgilanadi va nutq parametrlari baholanadi. Fonetik va prosodik probabilistik xususiyatlar sintaktik, semantik va pragmatik tahlil uchun ajralib turadi. (Nutq qismlari, so'z shakli va so'zlar o'rtasidagi statistik munosabatlar to'g'risidagi ma'lumotlarni baholash.)
4. Keyin, nutq parametrlari tan olish tizimining asosiy birligi - dekoderga kiradi. Bu kirish nutqining oqimini akustik va til modellarida saqlanadigan ma'lumotlar bilan taqqoslaydigan va tanib olishning yakuniy natijasi bo'lgan so'zlarning eng ko'p ketma-ketligini aniqlaydigan tarkibiy qism.

Ovozni boshqarish
· Ovozli buyruqlar
· Ovoz bilan yozish
· Ovozli qidiruv

Mobil ilovalarda nutqni aniqlash texnologiyasidan foydalanishning muvaffaqiyatli misollari: Yandex Navigator-da ovozni manzilga kiritish, Google Now ovozli qidirish.
Mobil qurilmalardan tashqari, nutqni aniqlash texnologiyasi biznesning turli sohalarida keng qo'llaniladi.
Ovozni aniqlash tizimlari - bu umumiy oqimdan spikerning nutqini aniqlay oladigan hisoblash tizimlari. Ushbu texnologiya nutqni aniqlash texnologiyasi bilan bog'liq bo'lib, u mashinalarda nutqni aniqlash jarayonini o'tkazish orqali og'zaki so'zlarni raqamli matn signallariga o'zgartiradi. Ushbu ikkala texnologiya parallel ravishda qo'llaniladi: bir tomondan, ma'lum bir foydalanuvchining ovozini aniqlash, boshqa tomondan, nutqni aniqlash orqali ovozli buyruqlarni aniqlash. Ovozni aniqlash biometrik xavfsizlik maqsadida, ma'lum bir odamning ovozini aniqlash uchun ishlatiladi. Ushbu texnologiya mobil bankingda juda mashhur bo'lib, foydalanuvchilarga autentifikatsiyani talab qiladi, shuningdek, ularga boshqa operatsion operatsiyalarni bajarishda yordam beradigan boshqa ovozli buyruqlar kerak bo'ladi.
Nutqni tanib olishning global bozori ovoz sanoatida eng tez rivojlanayotgan bozorlardan biridir. Bozor o'sishining asosiy qismi Amerikadan keladi, undan keyin Evropa, Yaqin Sharq va Afrika (EMEA) va Osiyo-Tinch okeani (APR). Bozor o'sishining asosiy qismi sog'liqni saqlash, moliyaviy xizmatlar va davlat sektori hisobiga sodir bo'ldi. Biroq, kelgusi bir necha yil ichida telekommunikatsiya va transport kabi boshqa segmentlar sezilarli darajada o'sishi kutilmoqda. Bozor prognozi, 2012-2016 yillar davomida CAGR 22.07 foizga o'sishi bilan (mavjud kompaniyalar o'sish dinamikasi ko'rsatkichlari).
Nutqni aniqlash texnologiyalarining rivojlanishiga to'sqinlik qiladigan asosiy muammolardan biri bu ishlab chiqish va amalga oshirish uchun zarur bo'lgan katta investitsiyalarga ehtiyojdir. Ovozni aniqlash texnologiyasini korxonada keng miqyosda qo'llash vaqtni talab qiladi va katta investitsiyalarni talab qiladi. Byudjetni tejash texnologiyaning cheklangan sinovlariga olib keladi, shuning uchun har qanday nosozlik korxonada katta yo'qotishlarga olib kelishi mumkin. Shu sababli, ovozni aniqlashning alternativ variantlari, masalan, surish kartasi va klaviatura, ko'plab kompaniyalarda, ayniqsa iqtisodiy va iqtisodiy samaradorligi sababli kichik va o'rta biznes vakillari orasida faol foydalanilmoqda. Shunday qilib, ovozni aniqlash dasturlari katta moddiy investitsiyalarni, shu jumladan integratsiya tizimining narxini, qo'shimcha uskunalarni va boshqa xarajatlarni talab qiladi.

1. Nutqni qayta ishlash nutq signalining sifatini baholashdan boshlanadi. Ushbu bosqichda aralashish va buzilish darajasi aniqlanadi.
2. Baholash natijasi tan olish uchun zarur bo'lgan nutq parametrlarini hisoblash modulini boshqaradigan akustik moslashuv moduliga yuboriladi.
3. Signalda nutqni o'z ichiga olgan bo'limlar belgilanadi va nutq parametrlari baholanadi. Fonetik va prosodik probabilistik xususiyatlar sintaktik, semantik va pragmatik tahlil uchun ajralib turadi. (Nutq qismlari, so'z shakli va so'zlar o'rtasidagi statistik munosabatlar to'g'risidagi ma'lumotlarni baholash.)
4. Keyin, nutq parametrlari tan olish tizimining asosiy birligi - dekoderga kiradi. Bu kirish nutqining oqimini akustik va til modellarida saqlanadigan ma'lumotlar bilan taqqoslaydigan va tanib olishning yakuniy natijasi bo'lgan so'zlarning eng ko'p ketma-ketligini aniqlaydigan tarkibiy qism.

Ovozni boshqarish
· Ovozli buyruqlar
· Ovoz bilan yozish
· Ovozli qidiruv

Mobil ilovalarda nutqni aniqlash texnologiyasidan foydalanishning muvaffaqiyatli misollari: Yandex Navigator-da ovozni manzilga kiritish, Google Now ovozli qidirish.
Mobil qurilmalardan tashqari, nutqni aniqlash texnologiyasi biznesning turli sohalarida keng qo'llaniladi:
Har bir bunday tizimda echilishi uchun mo'ljallangan ba'zi vazifalar mavjud va ularni echishda foydalaniladigan yondashuvlar to'plami mavjud. Odamlarning nutqini aniqlash tizimlarini qanday tasniflash mumkinligini va bu xususiyat tizimning ishlashiga qanday ta'sir qilishini ko'rib chiqaylik.
• Lug'at hajmi. Shubhasiz, tanib olish tizimiga kiritilgan lug'at hajmi qanchalik katta bo'lsa, tizim tomonidan so'zlarni aniqlashda xatolar chastotasi shunchalik ko'p bo'ladi. Masalan, 10 raqamli lug'atni deyarli bekamu-ko'st tan olish mumkin, 100000 so'zdan iborat lug'atdagi xato 45 foizni tashkil qilishi mumkin. Boshqa tomondan, hatto kichik lug'atni tanib olish ham ko'pgina xatolarga olib kelishi mumkin, agar ushbu lug'atdagi so'zlar bir-biriga juda o'xshash bo'lsa.
• Spikerga qaramlik yoki tizimning karnay mustaqilligi. Ta'rifga ko'ra, karnayga bog'liq tizim bitta foydalanuvchi tomonidan ishlatilishi uchun, spikerga bog'liq bo'lmagan tizim esa har qanday karnay bilan ishlash uchun mo'ljallangan. Spikerning mustaqilligi bu qiyin vazifadir, chunki tizimni o'qitishda u namuna bo'yicha o'qitilayotgan spikerning parametrlariga moslashadi. Bunday tizimlarni tan olishning xato darajasi odatda karnayga bog'liq tizimlarning xato tezligidan 3-5 baravar yuqori.
• Alohida yoki doimiy nutq. Agar nutqda har bir so'z ikkinchisidan sukunat bilan ajratilgan bo'lsa, unda ular bu nutq alohida deb aytadilar. Doimiy nutq tabiiy ravishda talaffuz qilingan jumlalardir. Uzluksiz nutqni tanib olish ancha qiyinlashadi, chunki individual so'zlarning chegaralari aniq belgilanmagan va ularning talaffuzi talaffuz qilinadigan tovushlarni xiralashtirish bilan yuqori darajada buzilgan.
• Uchrashuv.Tizimning maqsadi nutqni aniqlash amalga oshiriladigan talab qilinadigan mavhumlikni belgilaydi. Buyruq tizimida (masalan, uyali telefonda ovozli terish), so'z yoki iborani tanib olish, bitta nutq elementini tanib olish kabi paydo bo'lishi mumkin. Va matnli diktatsiya tizimi aniqroq aniqlikni talab qiladi va, ehtimol, aytilgan iborani izohlashda, u nafaqat hozirgi paytda aytilgan narsaga, balki uning ilgari aytilgan so'zlarga qanday aloqasi borligiga ham tayanadi. Shuningdek, tizim og'zaki va taniqli matnni qanoatlantirishi kerak bo'lgan o'rnatilgan grammatik qoidalarga ega bo'lishi kerak. Ushbu qoidalar qanchalik qattiq bo'lsa, tan olish tizimini amalga oshirish shunchalik oson bo'ladi va tan olishi mumkin bo'lgan jumlalar to'plami cheklangan.

Download 0.97 Mb.

Do'stlaringiz bilan baham:

1 2 3 4 5 6 7 8