"Нутқни таниш алгоритмлари" фани
Download 43.42 Kb.
|
NTA 1- oraliq
B0 va BN/2 koeffitsientlari har doim nolga teng (chunki ularga mos keluvchi “bazisli” signallar diskret nuqtalarda ayniy ravishda nolga teng), va ularni Furyening to‘g’ri va teskari o‘zgartirishini hisoblashda tashlab yuborish mumkin.
3.Nutqni oldindan qayta ishlash quyi tizimi Nutq signalini oldindan qayta ishlash quyidagi bosqichlarni o'z ichiga oladi: - nutq signaliga kirish jarayoni; - nutq signalining chegarasini tanlash; - raqamli filtrlash; - nutq signalini bir-birining ustiga tushgan ramkalar bilan kesish; - oynada signallarni qayta ishlash; - spektral transformatsiya; - chastota spektrini normallashtirish. Ovoz kiritish real vaqtda ovoz kartasi yoki PCM-da kodlangan WAV fayllari orqali amalga oshiriladi. 8 kHz namuna olish tezligi va 16 bitni kvantlash nutq ma'lumotlarini uzatish, saqlash va qayta ishlash tizimlarida odatiy parametrlardir. Fayllar bilan ishlash asab tarmog'ini qayta ishlashni bir necha marta takrorlanishini osonlashtirish uchun taqdim etildi, bu o'qitish uchun ayniqsa muhimdir. Nutq signallari chegarasini ajratish Faqatgina nutqni o'z ichiga olgan bo'limlarni kirish signalidan ajratish uchun nutq signalining quyidagi xususiyatlari qo'llaniladi: • nutq signalining qisqa muddatli energiyasi; • intensivlik nollari soni (oniy chastota); • pauza hisoboti qiymatining tarqalish zichligi. Ovoz signalining vaqtinchalik energiyasi va intensivlik nollari soni bir vaqtning o'zida kirish signalidan nutqni chiqarish uchun ishlatiladi. Bundan tashqari, siz Gauss tarqatish usuli yordamida chiqindagi pauzani olib tashlashingiz mumkin. Raqamli filtrlash Odatda turli xil tovushlar foydali signal bilan birga keladi. Shovqin nutqni aniqlash tizimlarining sifatiga salbiy ta'sir qiladi, shuning uchun u bilan kurashish kerak. Kichik tizimdagi shovqin darajasini pasaytirish uchun raqamli filtrning ikki turi qo'llaniladi: • o'tkazuvchanlik o'tkazgich filtri; • oldindan filtrlash Nutq signalining amplitudasi va konvertining shakli haqida ma'lumot nutqdan leksik elementlarni ajratib olish uchun etarli emas. Har xil sharoitlarga qarab, nutq signalining konvert shakli keng doirada o'zgarishi mumkin. Tanib olish muammosini hal qilish uchun tanib olish jarayonining keyingi bosqichlarida ishlatiladigan asosiy nutq xususiyatlarini tanlash kerak. Birlamchi xususiyatlar nutq signalining spektral xususiyatlarini tahlil qilish orqali aniqlanadi. Nutq signalining amplitudasi va konvertining shakli haqida ma'lumot nutqdan leksik elementlarni ajratib olish uchun etarli emas. Har xil sharoitlarga qarab, nutq signalining konvert shakli keng doirada o'zgarishi mumkin. Tanib olish muammosini hal qilish uchun tanib olish jarayonining keyingi bosqichlarida ishlatiladigan asosiy nutq xususiyatlarini tanlash kerak. Birlamchi xususiyatlar nutq signalining spektral xususiyatlarini tahlil qilish orqali aniqlanadi. Nutq signalining spektral tahlili Qayta ishlash tizimlarida analog nutq signali mikrofonning kirish qismiga uzatiladi, undan elektr signal olinadi. Keyin signal o'z vaqtida namuna olinadi va amplituda kvantlanadi Nutq signallarining tarkibi va xususiyatlari Nutq signallariga ishlov berishda eng avvalo inson nutqining shakllanish jarayonini, nutq signallarining tarkibi va xususiyatlarini o'rganishni talab qiladi. Nutq fonemalar talaffuzi asosida tovushlar, tovushlarning birlashishi asosida bo'g'inlar, bo'g'inlar asosida so'zlar, so'zlar ketma-ketligi asosida gaplarning yasalishiga asoslangan. Nutq tovushlari nutq a'zolari ishtirokida hosil bo'ladi. Bularga insonning o'pka, kekirdak, tovush paychalari, og'iz bo'shlig'i, katta va kichik tillar, yumshoq va qattiq tanglaylar, yuqori va pastki lablar, yuqori va pastki tishlar, burun bo'shlig'i va bo'g'iz bo'shlig'i a'zolarini misol sifatida keltirish mumkin. Ushbu inson a'zolari nutqni to'liq talaffuz qilish uchun xizmat qiladi. Nutq tovushlari so'z ma'nolarini farqlash uchun xizmat qiladi. Bu ularning asosiy vazifasidir. Inson nutqining hosil qilinishi uchun bir qancha murakkab jarayon amalga oshiriladi. Nutq tovushlarini hosil bo'lishida o'pkadan chiqayotgan havo oqimi nafas yo'li, kekirdak orqali bo'g'izga, undan og'iz bo'shlig'i yoki burun bo'shlig'iga o'tib, tashqariga chiqadi. Nutq tovushlarini hosil qilishda tovush naychalari, lablari va til faol ishtirok etadi. Nutq tovushlari inson nutq a'zolarining o'zaro ta'sirida havo zarralarining tebranish to'lqini yig'indisidan tashkil topgan. Inson tovushlari ham mazkur qonuniyat asosida paydo bo'ladi. Ammo nutq tovushlarining boshqa tovushlardan tub farqi shundaki, so'zdagi har bir tovush uning lug'aviy ma'nosini o'zgartiradi. Inson nutq a'zolarining markazlashib harakatlanishida nutq yuzaga keladi. Inson nutqining paydo bo'lishi ushbu a'zolarga bog'liq hisoblanadi(1.1-rasm). 1.1-rasm. Inson nutqining shakllanishi Nutqning shakllanishi natijasida analog ko'rinishdagi tabiiy nutq yuzaga keladi. Nutqni raqamli qo'rinishda ifodalash natijasida nutq signali hosil bo'ladi. Nutq signali murakkab signal sifatida qayt etiladi. Sababi, nutq signali hosil bo'lishida inson nutq a'zolarining bir nechtasi qatnashadi. Nutq a'zolari nutq signalining tebranishini murakkablashtiradi. Natijada murakkab tebranishlar asosidagi murakkab nutq signali yuzaga keladi. Nutqni hosil qiluvchi inson a'zolarining barchasini markaziy nerv sistemasi nazorat qiladi. Bu a'zolarning qanchalik qatnashishi, tebranishi yoki shu kabi xususiyatlariga ko'ra, dasturiy mahsulot ishlab chiqarishdagi ishlatiladigan parametrlar o'zgaradi. Inson nutqining bu parametrlariga quyidagi parametrlar kiradi: 1. Nutq tovushlarining balandligi – ma'lum vaqt ichida paychalarining tebranishiga ko'ra har xil chiqishidir. Bu tebranishlar nutq tovushining amplitudasiga ta'sir ko'rsatadi. 2. Nutq tovushlarining kuchi – ma'lum kenglikdagi maydondan ma'lum vaqtda o'tadigan energiya miqdoridir. Bu ko'rsatkich nutqning energiyasi va quvvatiga ta'sir ko'rsatadi. 3. Nutq tovushlarining tembri – asosiy ton bilan hosil bo'ladi. Bu parametr har xil odamlar uchun har xil bo'ladi shuning uchun bu parametr inson nutqni tanib olish tizimlarida ishlatiladi. Bu tovushlarni hosil qilishda turlicha nutq a'zolari turli shakllanishlar asosida o'z funksiyasini bajaradi. Ya'ni, qaysi biridir keraklikcha tebranadi yoki yopiladi. Nutq a'zolarining qanchalik ko'p miqdori nutqni hosil qilishda aralashsa, nutqni qayta ishlash shunchalik qiyinlashadi. Nutqni qayta ishlashda, shuningdek, fonemalarning ketma-ketligi ham muhim ahamiyat kasb etadi. Tabiatda inson tovushining turli xil turlari mavjud. Inson tovushini sinflarga bo'lishda asosan qo'shiqchilarning qo'shiq aytayotgan vaqtidagi, olgan diapozoniga qarab belgilanadi. Ovoz kuchini aniqlash uchun tovushni tiniqligiga va yo'g'onligiga ko'proq etibor beriladi. Inson nutqining sinflanishi 1.1-jadvalda keltirilgan. 1.1-jadval. Inson ovozining sinflanishi Ayollar tovushi Soprano — yuqori 1400 Gts gacha Metsso – soprano (o'rta) 260–1050 Gts Kontral`to (quyi) 260–780 Gts Erkaklar tovushi Tenor (yuqori) 130–520 Gts Bariton (o'rta) 110–149 Gts Bas (quyi) 80–350 Gts
bog'liq. Asosiy o'lchov kriteriyalari ikkita bo'lganiga qaramay, o'lchov jarayonida turli xil, bir-birini takrorlamaydigan nutq tovushlari yuzaga keladi. Nutq tovushlarining sinflanishi va nutq tovushlarining hosil bo'lish jarayonini umumlashtirish natijasida nutq signalining kriteriyalarini aniqlash mumkin. Birinchidan nutq signali murakab tebranishlar asosida yuzaga kelgan signal. Ikkinchidan bir nutq signalining tarkibi boshqa nutq signalining tarkibiga to'g'ri kelmaydi. Uchinchidan nutq signalining formant chastotasi shaxslar uchun turli chastota oralig'ida bo'ladi. Ushbu kriteriyalarni inobatga olgan holda nutq signallariga ishlov berish murakkab algoritmlar asosida amalga oshiriladi. Nutq signallariga ishlov berishning rivojlanish bosqichlari va ularning algoritmlari tahlili keyingi bo'limda amalga oshirilgan. Zamonaviy nutq signallariga ishlov beruvchi dasturiy majmualar tahlili Dunyoning yetuk brendlari Microsorf, Apple, Google, Yandeks, Ericsson, Motorola, Siemens, Philips, Samsung, Nokia kabi firmalar XX asrning ikkinchi yarmidan buyon ilmiy tadqiqot ishlarini nutq signallariga ishlov berish ustida davom ettirib kelmoqda. Buning natijasi hozirgi kunga qadar bir qancha zamonaviy inson nutqini qayta ishlash tizimlari yuzaga kelgan. Misol sifatida ularga Natural Dialogue System, Dragon Dictate Natural Speaking, L&H Speech Products, Dragon Naturally Speaking 7.0 Preferred kompleksi, Intelligent Voice Recognition System (IVOS), Dictation 2004 v.4.5, Aculab, Babear SDK Version 3.0., Nuance, Gornich 5.0 Dick Light kabi bir qancha apparat va dasturiy vositalarni keltirish mumkin [26]. Ularning tahliliy ko'rsatgichlari quyida keltirilgan. Voice Navigator ("Nutq texnologiyalari markazi" (MRM) kompaniyasi). VoiceNavigator ovozli uzatish tizimini (OUT) qurishga mo'ljallangan aloqa markazlari uchun ishlab chiqilgan, nutqni sintez qilish va aniqlash texnologiyasidan foydalangan holda qo'ng'iroqlarni avtomatik tarzda amalga oshirish imkonini beradi. Mahsulot xususiyatlari: - diktorga bog'liq bo'lmagan tizim; - telefon shovqinlariga va interferentsiyaga qarshilik imkoniyati; - rus tilida so'zlashuvning 100% ishonchliligi. Speereo Speech Recognition (SSR). (Rossiya IT-kompaniyasi Speereo Software). Mobil qurilma sanoatida va shaxsiy komp`yuter uchun ilovalarni nutq ko'rinishida ifodalash imkonini beradi. Nutqni aniqlash jarayoni malumotlar serverda emas, to'g'ridan-to'g'ri qurilma yordamida amalga oshiriladi. Bu o'z navbatida ishlab chiquvchilar uchun asosiy afzallik hisoblanadi. Mahsulot xususiyatlari: - rus tilida so'zlashuvlarni 95% ishonchlilik bilan e'tirof etish; - diktorga bog'liq bo'lmagan tizim; - 150 ming so'z malumotlar bazasi; - bir nechta tillarni bir vaqtda qo'llab-quvvatlash. Sakrament ASR Engine (Sakrament firmasi tomonidan ishlab chiqilgan). Turli platformalarda yuqori aniqlikdagi nutqni tanib olishni amalga oshiradi. Ovozni aniqlash texnologiyasi - nutqni boshqarish vositalarini yaratish - ovozli buyruqlar yordamida komp`yuter yoki boshqa elektron qurilma ishlarini nazorat qiluvchi dasturlar, telefon yordamida axborot xizmatlarini nutq malumotlari orqali tashkil qilishda qo'llaniladi. Mahsulot xususiyatlari: - diktorga bog'liq bo'lmagan tizim; - tanish aniqligi 95-98% ni tashkil qiladi; - so'zlar va kichik jumlalar ko'rinishida nutqni tanish; - o'qitish imkoniyati yo'q. Google Voice - qidiruv tizimi. Ushbu tizim hozirda internetda mashhurligi bo'yicha birinchi o'rinda bormoqda. Hozirda u kuniga 50 mln. qidiruv so'rovlarini qayt qiladi va ayni vaqtda 8 mlrd. dan ortiq veb sahifalarni indeksattsiyalagan. Google 101 tadan ortiq tillarda so'rovlarni qayta ishlaydi va 132 mingdan ortiq komp`yuterlardan iborat. Google kompaniyasi ham inson nutqini tanish sohasida o'zining bir qancha ilmiy natijalariga ega. Google Voice nutqni tanish tizimi, asosan yagona diktor tomonidan aytilgan so'zlarni qayta ishlash vazifasini bajaradi. Ushbu tizim dinamik tizim hisoblanib, yagona diktor foydalanishi uchun mo'ljallangan. Shuning uchun Google voice tizimida bir foydalanuvchi nutqini tanish jarayoni amalga oshiriladi. LumenVox dasturiy majmuasi. Ushbu dasturiy majmua inson nutqini aniqlovchi dasturiy majmua bo'lib, Kaliforniyadagi San-Diegoda joylashgan kompaniya tomonidan ishlab chiqilgan. LumenVox nutqni avtomatik aniqlash jarayonini telefon tarmog'idagi provayderlar yordamida amalga oshiriladi. 2006 yilda nutqni tanish bo'yicha eng katta provayderlardan biriga aylandi. LumenVox kompaniyasining asosiy mahsuloti LumenVox nutqni aniqlash mashinasi hisoblanadi. Bu til grammatikasidan foydalanib mustaqil ravishda nutqni aniqlashdan iboratdir. Bu yirik ovoz platformasi Avaya Aculab, Broadworks nutqni tanish tizimlarining umumiy integratsiyalashgan dasturiy majmuasi hisoblanadi. LumenVox nutqni aniqlash bo'yicha ishlab chiqarish sanoatida eng arzon mahsulot hisoblanadi. 2009 yilda LumenVox foydalanuvchilarga ochiq kodli dasturni oylik to'lovlar orqali foydalanish imkoniyatini yo'lga qo'ydi. LumenVox nutqni avtomatik aniqlash ancha foydalanish qulayligiga ya'ni matnni audio ko'rinishiga keltirish va juda ko'p vaqt talab qilmaydigan ko'rinishiga keltirildi. LumenVox dasturiy majmuasida bir qancha tillarda nutqni aniqlovchi ilovalar mavjud. Bundan tashqari dasturiy majmua Linux va Windowsning 32 va 64 versiyalarida foydalanish imkoni shakllantirilgan. LumenVox dasturiy majmuasi quyidagi tillarda nutqni tanish imkoniga ega. • Amerkan English; • British English; • Australian / New Zealand English; • Indian English; • Colombian / Latin American Spanish; • Mexican / North American Spanish; • Canadian French; • Brazilian Portuguese; • Russian Voice Studio 1.4.6. Ultimate Interactive Desktop tomonidan ishlab chiqilgan. Ushbu dastur ovoz studiyasi hisoblanadi. Dastur oynasining bir tarafida asosiy diktor oynasi ikkinchi tomonida ikkinchi diktor oynasi mavjud bo'lib, bunda diktorlar aro muloqot jarayonini amalga oshirish imkoni mavjud. Muloqot jarayonini amalga oshirish uchun MSAgent texnologiyasi qo'llanilgan va sun'iy intellekt algoritmidan foydalanilgan. Voice Studioning funktsionalligi –stegonograflash, nutqli buyruqlarni aniqlash, nutqni sintezlash funksiyalari jamlangan. Yuqorida keltirilgan parametrlarga asoslanib zamonaviy nutqni tanish tizimlarining qiyosiy tahlili natijalari 1.3-jadvalda keltirilgan. 1.3-jadval. Nutqni tanuvchi tizimlarning parametrik tahlili Dasturiy kompleks nomi Vazifasi Tarkibi Lug'at turi Bir necha diktorga bog'liqligi Nutqni tanish aniqligi
VoiceNavigator Web Buyruqlar tizimi, nutq interfeysi, nutq aniqlash So'z, fonema Cheklangan Mavjud 97% Speereo Speech Recognition Nutqli boshqaruv So'z Cheklangan Mavjud 95% Sakrament ASR Engine (Sakrament) Nutqli interfeys So'z Cheklanmagan Mavjud 95% Google Voice Search Nutqli qidiruv So'z, gap Cheklanmagan Mavjud 95% Dragon Naturally Speaking Nutqli boshqaruv, Nutqni aniqlash So'z Cheklangan Mavjud 98% ViaVoice, VoxReports Nutqli boshqaruv, Nutqni tanish So'z Cheklangan Mavjud 95% LumenVox Nutqni qayta ishlash tizimlari So'z, gap Cheklangan Mavjud 98% Perpetuum mobile “Perpetuum”M’’ Mobil qurilmalar nutqni qayta ishlash So'z Cheklangan Mavjud 95% Voice Studio Nutqli boshqaruv, Nutqni tanish So'z Cheklanmagan Mavjud 95% Ushbu tizimlar tahlil qilinganda bunday tizimlarning umumiy parametrlarini aniqlash imkoni mavjud. Ushbu tizimlar o'zida bir yoki bir necha tillarni tanish imkoniga ega. Tillarni tanishda fonemalar, bo'g'inlar, so'zlar va gaplarni idrok etishda cheklangan va cheklanmagan lug'atdan foydalangan. Bundan tashqari ushbu tizimlar yagona diktor uchun yoki bir necha diktorni tanish imkoniyatini o'zida shakllantirgan. Download 43.42 Kb. Do'stlaringiz bilan baham: |
ma'muriyatiga murojaat qiling