"Нутқни таниш алгоритмлари" фани


Download 43.42 Kb.
bet2/2
Sana10.12.2020
Hajmi43.42 Kb.
#163930
1   2
Bog'liq
NTA 1- oraliq

B0 ­va BN/2 koeffitsientlari har doim nolga teng (chunki ularga mos keluvchi “bazisli” signallar diskret nuqtalarda ayniy ravishda nolga teng), va ularni Furyening to‘g’ri va teskari o‘zgartirishini hisoblashda tashlab yuborish mumkin.

3.Nutqni oldindan qayta ishlash quyi tizimi Nutq signalini oldindan qayta ishlash quyidagi bosqichlarni o'z ichiga oladi: - nutq signaliga kirish jarayoni; - nutq signalining chegarasini tanlash; - raqamli filtrlash; - nutq signalini bir-birining ustiga tushgan ramkalar bilan kesish; - oynada signallarni qayta ishlash; - spektral transformatsiya; - chastota spektrini normallashtirish. Ovoz kiritish real vaqtda ovoz kartasi yoki PCM-da kodlangan WAV fayllari orqali amalga oshiriladi. 8 kHz namuna olish tezligi va 16 bitni kvantlash nutq ma'lumotlarini uzatish, saqlash va qayta ishlash tizimlarida odatiy parametrlardir. Fayllar bilan ishlash asab tarmog'ini qayta ishlashni bir necha marta takrorlanishini osonlashtirish uchun taqdim etildi, bu o'qitish uchun ayniqsa muhimdir. Nutq signallari chegarasini ajratish Faqatgina nutqni o'z ichiga olgan bo'limlarni kirish signalidan ajratish uchun nutq signalining quyidagi xususiyatlari qo'llaniladi: • nutq signalining qisqa muddatli energiyasi; • intensivlik nollari soni (oniy chastota); • pauza hisoboti qiymatining tarqalish zichligi. Ovoz signalining vaqtinchalik energiyasi va intensivlik nollari soni bir vaqtning o'zida kirish signalidan nutqni chiqarish uchun ishlatiladi. Bundan tashqari, siz Gauss tarqatish usuli yordamida chiqindagi pauzani olib tashlashingiz mumkin. Raqamli filtrlash Odatda turli xil tovushlar foydali signal bilan birga keladi. Shovqin nutqni aniqlash tizimlarining sifatiga salbiy ta'sir qiladi, shuning uchun u bilan kurashish kerak. Kichik tizimdagi shovqin darajasini pasaytirish uchun raqamli filtrning ikki turi qo'llaniladi: • o'tkazuvchanlik o'tkazgich filtri; • oldindan filtrlash Nutq signalining amplitudasi va konvertining shakli haqida ma'lumot nutqdan leksik elementlarni ajratib olish uchun etarli emas. Har xil sharoitlarga qarab, nutq signalining konvert shakli keng doirada o'zgarishi mumkin. Tanib olish muammosini hal qilish uchun tanib olish jarayonining keyingi bosqichlarida ishlatiladigan asosiy nutq xususiyatlarini tanlash kerak. Birlamchi xususiyatlar nutq signalining spektral xususiyatlarini tahlil qilish orqali aniqlanadi. Nutq signalining amplitudasi va konvertining shakli haqida ma'lumot nutqdan leksik elementlarni ajratib olish uchun etarli emas. Har xil sharoitlarga qarab, nutq signalining konvert shakli keng doirada o'zgarishi mumkin. Tanib olish muammosini hal qilish uchun tanib olish jarayonining keyingi bosqichlarida ishlatiladigan asosiy nutq xususiyatlarini tanlash kerak. Birlamchi xususiyatlar nutq signalining spektral xususiyatlarini tahlil qilish orqali aniqlanadi. Nutq signalining spektral tahlili Qayta ishlash tizimlarida analog nutq signali mikrofonning kirish qismiga uzatiladi, undan elektr signal olinadi. Keyin signal o'z vaqtida namuna olinadi va amplituda kvantlanadi


Nutq signallarining tarkibi va xususiyatlari

Nutq signallariga ishlov berishda eng avvalo inson nutqining shakllanish jarayonini, nutq

signallarining tarkibi va xususiyatlarini o'rganishni talab qiladi. Nutq fonemalar

talaffuzi asosida tovushlar, tovushlarning birlashishi asosida bo'g'inlar, bo'g'inlar asosida

so'zlar, so'zlar ketma-ketligi asosida gaplarning yasalishiga asoslangan. Nutq tovushlari

nutq a'zolari ishtirokida hosil bo'ladi. Bularga insonning o'pka, kekirdak, tovush paychalari,

og'iz bo'shlig'i, katta va kichik tillar, yumshoq va qattiq tanglaylar, yuqori va pastki lablar,

yuqori va pastki tishlar, burun bo'shlig'i va bo'g'iz bo'shlig'i a'zolarini misol sifatida keltirish

mumkin. Ushbu inson a'zolari nutqni to'liq talaffuz qilish uchun xizmat qiladi. Nutq tovushlari

so'z ma'nolarini farqlash uchun xizmat qiladi. Bu ularning asosiy vazifasidir. Inson

nutqining hosil qilinishi uchun bir qancha murakkab jarayon amalga oshiriladi. Nutq tovushlarini

hosil bo'lishida o'pkadan chiqayotgan havo oqimi nafas yo'li, kekirdak orqali bo'g'izga, undan

og'iz bo'shlig'i yoki burun bo'shlig'iga o'tib, tashqariga chiqadi. Nutq tovushlarini hosil qilishda

tovush naychalari, lablari va til faol ishtirok etadi. Nutq tovushlari inson nutq

a'zolarining o'zaro ta'sirida havo zarralarining tebranish to'lqini yig'indisidan tashkil

topgan. Inson tovushlari ham mazkur qonuniyat asosida paydo bo'ladi. Ammo nutq tovushlarining

boshqa tovushlardan tub farqi shundaki, so'zdagi har bir tovush uning lug'aviy ma'nosini

o'zgartiradi. Inson nutq a'zolarining markazlashib harakatlanishida nutq yuzaga keladi.

Inson nutqining paydo bo'lishi ushbu a'zolarga bog'liq hisoblanadi(1.1-rasm).

1.1-rasm. Inson nutqining shakllanishi

Nutqning shakllanishi natijasida analog ko'rinishdagi tabiiy nutq yuzaga keladi. Nutqni raqamli

qo'rinishda ifodalash natijasida nutq signali hosil bo'ladi. Nutq signali murakkab signal

sifatida qayt etiladi. Sababi, nutq signali hosil bo'lishida inson nutq a'zolarining bir

nechtasi qatnashadi. Nutq a'zolari nutq signalining tebranishini murakkablashtiradi. Natijada

murakkab tebranishlar asosidagi murakkab nutq signali yuzaga keladi.

Nutqni hosil qiluvchi inson a'zolarining barchasini markaziy nerv sistemasi nazorat qiladi.

Bu a'zolarning qanchalik qatnashishi, tebranishi yoki shu kabi xususiyatlariga ko'ra, dasturiy

mahsulot ishlab chiqarishdagi ishlatiladigan parametrlar o'zgaradi. Inson nutqining bu

parametrlariga quyidagi parametrlar kiradi:

1. Nutq tovushlarining balandligi – ma'lum vaqt ichida paychalarining tebranishiga ko'ra

har xil chiqishidir. Bu tebranishlar nutq tovushining amplitudasiga ta'sir ko'rsatadi.

2. Nutq tovushlarining kuchi – ma'lum kenglikdagi maydondan ma'lum vaqtda o'tadigan

energiya miqdoridir. Bu ko'rsatkich nutqning energiyasi va quvvatiga ta'sir ko'rsatadi.

3. Nutq tovushlarining tembri – asosiy ton bilan hosil bo'ladi. Bu parametr har xil

odamlar uchun har xil bo'ladi shuning uchun bu parametr inson nutqni tanib olish tizimlarida

ishlatiladi.

Bu tovushlarni hosil qilishda turlicha nutq a'zolari turli shakllanishlar asosida o'z

funksiyasini bajaradi. Ya'ni, qaysi biridir keraklikcha tebranadi yoki yopiladi. Nutq

a'zolarining qanchalik ko'p miqdori nutqni hosil qilishda aralashsa, nutqni qayta ishlash

shunchalik qiyinlashadi. Nutqni qayta ishlashda, shuningdek, fonemalarning ketma-ketligi ham

muhim ahamiyat kasb etadi.

Tabiatda inson tovushining turli xil turlari mavjud. Inson tovushini sinflarga bo'lishda

asosan qo'shiqchilarning qo'shiq aytayotgan vaqtidagi, olgan diapozoniga qarab belgilanadi. Ovoz kuchini aniqlash uchun tovushni tiniqligiga va yo'g'onligiga ko'proq etibor beriladi. Inson

nutqining sinflanishi 1.1-jadvalda keltirilgan.

1.1-jadval. Inson ovozining sinflanishi

Ayollar tovushi Soprano — yuqori 1400 Gts gacha

Metsso – soprano (o'rta) 260–1050 Gts

Kontral`to (quyi) 260–780 Gts

Erkaklar tovushi Tenor (yuqori) 130–520 Gts

Bariton (o'rta) 110–149 Gts

Bas (quyi) 80–350 Gts
Nutq tovushlarining sinflanishida ovoz diapozoniga va nutq aytayotgan insonning jinsiga

bog'liq. Asosiy o'lchov kriteriyalari ikkita bo'lganiga qaramay, o'lchov jarayonida turli xil,

bir-birini takrorlamaydigan nutq tovushlari yuzaga keladi. Nutq tovushlarining sinflanishi va

nutq tovushlarining hosil bo'lish jarayonini umumlashtirish natijasida nutq signalining

kriteriyalarini aniqlash mumkin.

Birinchidan nutq signali murakab tebranishlar asosida yuzaga kelgan signal. Ikkinchidan bir

nutq signalining tarkibi boshqa nutq signalining tarkibiga to'g'ri kelmaydi. Uchinchidan nutq

signalining formant chastotasi shaxslar uchun turli chastota oralig'ida bo'ladi. Ushbu

kriteriyalarni inobatga olgan holda nutq signallariga ishlov berish murakkab algoritmlar

asosida amalga oshiriladi. Nutq signallariga ishlov berishning rivojlanish bosqichlari va

ularning algoritmlari tahlili keyingi bo'limda amalga oshirilgan.

Zamonaviy nutq signallariga ishlov beruvchi dasturiy majmualar tahlili

Dunyoning yetuk brendlari Microsorf, Apple, Google, Yandeks, Ericsson, Motorola, Siemens,

Philips, Samsung, Nokia kabi firmalar XX asrning ikkinchi yarmidan buyon ilmiy tadqiqot

ishlarini nutq signallariga ishlov berish ustida davom ettirib kelmoqda. Buning natijasi

hozirgi kunga qadar bir qancha zamonaviy inson nutqini qayta ishlash tizimlari yuzaga kelgan.

Misol sifatida ularga Natural Dialogue System, Dragon Dictate Natural Speaking, L&H

Speech Products, Dragon Naturally Speaking 7.0 Preferred kompleksi, Intelligent Voice

Recognition System (IVOS), Dictation 2004 v.4.5, Aculab, Babear SDK Version 3.0., Nuance,

Gornich 5.0 Dick Light kabi bir qancha apparat va dasturiy vositalarni keltirish mumkin

[26]. Ularning tahliliy ko'rsatgichlari quyida keltirilgan.

Voice Navigator ("Nutq texnologiyalari markazi" (MRM) kompaniyasi). VoiceNavigator ovozli

uzatish tizimini (OUT) qurishga mo'ljallangan aloqa markazlari uchun ishlab chiqilgan, nutqni

sintez qilish va aniqlash texnologiyasidan foydalangan holda qo'ng'iroqlarni avtomatik tarzda

amalga oshirish imkonini beradi.

Mahsulot xususiyatlari:

- diktorga bog'liq bo'lmagan tizim;

- telefon shovqinlariga va interferentsiyaga qarshilik imkoniyati;

- rus tilida so'zlashuvning 100% ishonchliligi.

Speereo Speech Recognition (SSR). (Rossiya IT-kompaniyasi Speereo Software). Mobil qurilma

sanoatida va shaxsiy komp`yuter uchun ilovalarni nutq ko'rinishida ifodalash imkonini beradi.

Nutqni aniqlash jarayoni malumotlar serverda emas, to'g'ridan-to'g'ri qurilma yordamida amalga

oshiriladi. Bu o'z navbatida ishlab chiquvchilar uchun asosiy afzallik hisoblanadi.

Mahsulot xususiyatlari:

- rus tilida so'zlashuvlarni 95% ishonchlilik bilan e'tirof etish;

- diktorga bog'liq bo'lmagan tizim;

- 150 ming so'z malumotlar bazasi;

- bir nechta tillarni bir vaqtda qo'llab-quvvatlash.

Sakrament ASR Engine (Sakrament firmasi tomonidan ishlab chiqilgan). Turli platformalarda

yuqori aniqlikdagi nutqni tanib olishni amalga oshiradi. Ovozni aniqlash texnologiyasi - nutqni

boshqarish vositalarini yaratish - ovozli buyruqlar yordamida komp`yuter yoki boshqa elektron

qurilma ishlarini nazorat qiluvchi dasturlar, telefon yordamida axborot xizmatlarini nutq

malumotlari orqali tashkil qilishda qo'llaniladi.

Mahsulot xususiyatlari:

- diktorga bog'liq bo'lmagan tizim;

- tanish aniqligi 95-98% ni tashkil qiladi;

- so'zlar va kichik jumlalar ko'rinishida nutqni tanish;

- o'qitish imkoniyati yo'q.

Google Voice - qidiruv tizimi. Ushbu tizim hozirda internetda mashhurligi bo'yicha birinchi

o'rinda bormoqda. Hozirda u kuniga 50 mln. qidiruv so'rovlarini qayt qiladi va ayni vaqtda 8

mlrd. dan ortiq veb sahifalarni indeksattsiyalagan. Google 101 tadan ortiq tillarda

so'rovlarni qayta ishlaydi va 132 mingdan ortiq komp`yuterlardan iborat. Google kompaniyasi

ham inson nutqini tanish sohasida o'zining bir qancha ilmiy natijalariga ega. Google Voice

nutqni tanish tizimi, asosan yagona diktor tomonidan aytilgan so'zlarni qayta ishlash

vazifasini bajaradi. Ushbu tizim dinamik tizim hisoblanib, yagona diktor foydalanishi

uchun mo'ljallangan. Shuning uchun Google voice tizimida bir foydalanuvchi nutqini tanish

jarayoni amalga oshiriladi.

LumenVox dasturiy majmuasi. Ushbu dasturiy majmua inson nutqini aniqlovchi dasturiy majmua

bo'lib, Kaliforniyadagi San-Diegoda joylashgan kompaniya tomonidan ishlab chiqilgan. LumenVox

nutqni avtomatik aniqlash jarayonini telefon tarmog'idagi provayderlar yordamida amalga

oshiriladi. 2006 yilda nutqni tanish bo'yicha eng katta provayderlardan biriga aylandi.

LumenVox kompaniyasining asosiy mahsuloti LumenVox nutqni aniqlash mashinasi hisoblanadi. Bu

til grammatikasidan foydalanib mustaqil ravishda nutqni aniqlashdan iboratdir. Bu yirik ovoz

platformasi Avaya Aculab, Broadworks nutqni tanish tizimlarining umumiy integratsiyalashgan

dasturiy majmuasi hisoblanadi. LumenVox nutqni aniqlash bo'yicha ishlab chiqarish sanoatida eng

arzon mahsulot hisoblanadi. 2009 yilda LumenVox foydalanuvchilarga ochiq kodli dasturni

oylik to'lovlar orqali foydalanish imkoniyatini yo'lga qo'ydi. LumenVox nutqni avtomatik

aniqlash ancha foydalanish qulayligiga ya'ni matnni audio ko'rinishiga keltirish va juda ko'p vaqt

talab qilmaydigan ko'rinishiga keltirildi. LumenVox dasturiy majmuasida bir qancha tillarda

nutqni aniqlovchi ilovalar mavjud. Bundan tashqari dasturiy majmua Linux va Windowsning 32

va 64 versiyalarida foydalanish imkoni shakllantirilgan. LumenVox dasturiy majmuasi quyidagi

tillarda nutqni tanish imkoniga ega.

• Amerkan English;

• British English;

• Australian / New Zealand English;

• Indian English;

• Colombian / Latin American Spanish;

• Mexican / North American Spanish;

• Canadian French;

• Brazilian Portuguese;

• Russian

Voice Studio 1.4.6. Ultimate Interactive Desktop tomonidan ishlab chiqilgan. Ushbu dastur

ovoz studiyasi hisoblanadi. Dastur oynasining bir tarafida asosiy diktor oynasi ikkinchi

tomonida ikkinchi diktor oynasi mavjud bo'lib, bunda diktorlar aro muloqot jarayonini

amalga oshirish imkoni mavjud. Muloqot jarayonini amalga oshirish uchun MSAgent texnologiyasi

qo'llanilgan va sun'iy intellekt algoritmidan foydalanilgan. Voice Studioning

funktsionalligi –stegonograflash, nutqli buyruqlarni aniqlash, nutqni sintezlash funksiyalari

jamlangan.

Yuqorida keltirilgan parametrlarga asoslanib zamonaviy nutqni tanish tizimlarining qiyosiy

tahlili natijalari 1.3-jadvalda keltirilgan.

1.3-jadval. Nutqni tanuvchi tizimlarning parametrik tahlili

Dasturiy kompleks nomi Vazifasi Tarkibi Lug'at turi Bir necha diktorga

bog'liqligi Nutqni tanish aniqligi
VoiceNavigator,

VoiceNavigator

Web

Buyruqlar tizimi, nutq interfeysi, nutq aniqlash So'z, fonema Cheklangan



Mavjud 97%

Speereo Speech Recognition Nutqli boshqaruv So'z Cheklangan Mavjud 95%

Sakrament ASR Engine (Sakrament) Nutqli interfeys So'z Cheklanmagan

Mavjud 95%

Google Voice Search Nutqli qidiruv So'z,

gap Cheklanmagan Mavjud 95%

Dragon

Naturally Speaking Nutqli boshqaruv, Nutqni aniqlash So'z Cheklangan Mavjud



98%

ViaVoice,

VoxReports Nutqli boshqaruv, Nutqni tanish So'z Cheklangan Mavjud 95%

LumenVox Nutqni qayta ishlash tizimlari So'z, gap Cheklangan Mavjud

98%

Perpetuum mobile “Perpetuum”M’’ Mobil qurilmalar nutqni qayta ishlash So'z Cheklangan



Mavjud 95%

Voice Studio Nutqli boshqaruv, Nutqni tanish So'z Cheklanmagan Mavjud 95%

Ushbu tizimlar tahlil qilinganda bunday tizimlarning umumiy parametrlarini aniqlash imkoni

mavjud. Ushbu tizimlar o'zida bir yoki bir necha tillarni tanish imkoniga ega. Tillarni

tanishda fonemalar, bo'g'inlar, so'zlar va gaplarni idrok etishda cheklangan va cheklanmagan

lug'atdan foydalangan. Bundan tashqari ushbu tizimlar yagona diktor uchun yoki bir necha diktorni



tanish imkoniyatini o'zida shakllantirgan.
Download 43.42 Kb.

Do'stlaringiz bilan baham:
1   2




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling