Муҳаммад ал хоразмий номидаги


II. НУТҚНИ ТАНИШ АЛГОРИТМИНИНГ ТАҲЛИЛИ ВА ДАСТУРИЙ ТАМИНОТИНИ ИШЛАБ ЧИҚИШ


Download 1.43 Mb.
bet17/23
Sana05.05.2023
Hajmi1.43 Mb.
#1429322
1   ...   13   14   15   16   17   18   19   20   ...   23
Bog'liq
Ижтимоий тармоқларда шахсни овоз орқали идентификациялаш дастурий

II. НУТҚНИ ТАНИШ АЛГОРИТМИНИНГ ТАҲЛИЛИ ВА ДАСТУРИЙ ТАМИНОТИНИ ИШЛАБ ЧИҚИШ

    1. Нутқни таниш алгоритмининг таҳлили

Нутқни аниқлаш жараёни ўтган асрнинг ўртасидан келиб чиқган. Биринчи тизим 1950-йилларнинг бошларида яратилган бўлиб, унинг ишлаб чиқувчилари рақамларни таниб олиш назариясидан фойдаланишган. Ривожланган тизим рақамларни идентификациялаши мумкин, бироқ, масалан, Bell Laboratories-дан Audrey тизими каби бир овозда гапириш мумкин. Ҳар бир нутқ фрагментининг қувват спектрида форманцлар таърифи асосида ишлайди. Умуман, тизим учта асосий қисмдан иборат эди:

  • анализаторлар ва квантаторлар

  • тармоқ координаторларининг нақшлари

  • сенсорлар.

У турли частота фильтрлари элементлари, калити ва сенсорлардаги газ сенсорларига мос равишда яратилган.
Ўн йил охирида овоз чиқаргичдан мустақил равишда овоз чиқариб ўқиган тизимлар пайдо бўлди [4]. 70-йилларда янги усуллар қўлланила бошлади, бу эса янада мукаммал натижаларга эришиш имконини берди:
- динамик дастурлаш усули
- чизиқли прогнозлаш усули (Linear Predictive Coding - LPC).
Юқорида зикр этилган компанияларда Bell Laboratories тизими шу усуллардан фойдаланган ҳолда яратилган. 1980-йилларда овозни аниқлаш тизимини ривожлантиришда навбатдаги қадам Яширин Марков Модели (HMM) дан фойдаланиш эди.
Айни пайтда Kurzweil матнни нутққа сингдириш каби биринчи овозни аниқлаш дастурлари пайдо бўлди. 80-йилларнинг охирларида Сунъий нейрон тармоқлари (ANN) усуллари ҳам қўлланила бошлади. 1987 йилда "Wonder" нинг Julie дунёсидаги "Julie" куклилари бозорда пайдо бўлди, улар овозни тушунишди. Ва 10 йил ўтиб, Dragon Systems Naturally Speaking 1.0 дастурини чиқазди.
Овозни аниқлаш хатоларининг асосий манбалари қуйидагилардир:

  • рўйхатга олиш воситаси (ўрта даража ва шовқин тури, янгиланма даражаси);

  • тақдимот эффекти (нутқнинг давомийлиги, спикернинг психофизик ҳолати (касаллик, ҳиссий ҳолат ва бошқалар), нутқ ритми, нутқнинг баландлиги);

  • ёмон канал сифати (интерференция, микрофон ва канал бузилиши, кодлашнинг канал тури ва бошқалар).

Жинсларни таниб олиш алоҳида вазифа сифатида ажратилиши мумкин, бу жуда муваффақиятли ҳал этилади - катта маълумотли дастлабки маълумотлар билан, деярли аниқлик билан аниқланмайди ва қисқа чалкашликдаги овозли сўзлар каби қисқа парчалар эркаклар учун 5,3%, аёллар учун эса 3,1% ни ташкил этади.
Шунингдек, имитация овозлари муаммосига бўйича Франция Телеком тадқиқотлари шуни кўрсатдики, овозни профессионал имитация қилиш, шахсни аниқлашда хатолик юзага келиши эҳтимоли кучаймайди - имитаторлар ташқи сўзларни сохта овоз билан гапиришади, нутқ хусусиятларини таъкидлайдилар, лекин улар асосий нутқни нотўғри қилиш имконига эга эмаслар. Ҳатто яқин қариндошларнинг овози, эгизаклар ҳеч бўлмаганда менежмент динамикасида фарқ қилади. Аммо компьютер технологиясини ишлаб чиқишда янги таҳлилий усуллардан фойдаланишни талаб қилувчи янги муаммолар юзага келди - овозни ўзгартириш, бу хатоларнинг эҳтимоллигини 50% гача оширади.
Тизимнинг ишончлилигини тавсифлаш учун иккита мезон мавжуд:

  • FRR (FALSE Rejection Rate) - система ўзидан бошқасини ўз хатосини (иккинчи турдаги хатоликни) таниб турганда, нотўғри киришни рад этиш (биринчи турдаги хатолик)

  • FAR (нотўғри қабул даражаси) эҳтимоли.

Бундан ташқари, таниб олиш тизимлари баъзан EER (Teng Xato Rates) каби параметр билан тавсифланади, бу FRR ва FAR эҳтимолликларининг тасодифий нуқтасини ифодалайди. Тизим қанча ишончли бўлса, EER паст бўлади.
Овозни аниқлаш иккита асосий йўналишга бўлиниши мумкин:
-Система фойдаланувчини овоз билан мустақил равишда аниқлаши керак;
-Тизим фойдаланувчи томонидан тақдим этиладиган идентификаторни тасдиқлаши ёки рад этиши керак.
Ўрганилаётган маърузачининг таърифи ҳар бир маърузачи нутқининг ўзига хос хусусиятларини ҳисобга олган ҳолда овозли моделларни жуфт-тўғри таққослашдан иборат. Шундай қилиб, жуда катта маълумотлар базасини йиғишимиз керак. Бу таққослаш натижаларига кўра, бизни қизиқтирган фойдаланувчи нутқи билан бир қатор эҳтимоллик билан фонограммалар рўйхати тузилиши мумкин.
Овозни аниқлаш натижанинг 100% тўғрилигини кафолатлай олмасада, суд тиббиёти ва суд-экспертизаси каби соҳаларда жуда самарали қўлланилиши мумкин. Разведка, терроризмга қарши кураш, хавфсизлик, банк хизматларини мониторинг қилиш ва бошқа тизимда қулланиши мумкин.
Нутқни узатиш жараёнининг бутун жараёни бир неча асосий босқичларга бўлинади:

  • сигнали олдиндан ишлаш;

  • танлаш мезонлари;

  • Карнайни аниқлаш.

Ҳар бир босқичда алгоритм ёки маълум алгоритмлар тўплами акс этади, керакли натижага эришилади.
Овознинг асосий хусусиятлари уч асосий хусусиятдан иборат:

  • вокал қатламларнинг тебраниш механизми

  • вокал тузилиши анатомияси

  • артикуляцияни назорат қилиш тизими.

Бундан ташқари, баъзан маърузачи сўзлашувидан, нутқнинг туридан фойдаланиш мумкин. Спикернинг шахсияти ҳақида қарор қабул қиладиган асосий хусусиятлар нутқни шакллантириш жараёнининг барча омилларини ҳисобга олган ҳолда шаклланади:

  • овоз манбаи

  • вокал каналининг резонанс частоталари ва уларнинг сусайиши

  • артикуляцияни назорат қилиш динамикаси.

Агар манбаларни батафсилроқ кўриб чиқсак, у ҳолда овоз манбасининг хусусиятлари қуйидагилардан иборат:

  • асосий товушнинг ўртача частотаси,

  • асосий товуш частотасининг контур ва далғаланиши

  • қўзғалиш пульсининг шакли.

Вокал трактининг спектрал характеристикалари:

  • спектрал конверт ва унинг ўртача нишабаси

  • шаклланиш частоталари

  • узоқ муддатли спектр

  • кепстром

  • сўзларнинг давомийлиги

  • маром (стрессни тақсимлаш)

  • сигналнинг даражаси,

  • частотаси

  • тўхташ муддати ҳам ҳисобга олинади.

Бу хусусиятларни аниқлаш учун жуда мураккаб алгоритмлардан фойдаланиш керак, масалан, формант частоталарининг хатоси жуда оддий бўлиб, оддийлик учун, спектрал конвертдан ҳисобланган плюсформ коэффицентлари ёки чизиқли прогноз усули билан аниқланган нутқни ўтказиш функцияси қўлланилади. Юқорида айтилган плюс коэффицентларидан ташқари, уларнинг биринчи ва иккинчи марта фарқлари ҳам ишлатилади. Ушбу услуб биринчи марта Davis ва Mermelshteynнинг ишларида таклиф қилинган.
Овозларни аниқлаш бўйича ишларда сўзлашув сигналларининг спектрининг ўзгариш услуби энг машҳурдир. Усулнинг схемаси қуйидагича: 10-20 msn вақт оралиғида жорий кучланиш спектри ҳисоблаб чиқилади ва шу спектрнинг (cepstrum) логарифмининг тескари Fourier конвертацияси қўлланилади ва коэффицентлари топилади:

Нутқ сигналининг спектрида юқори частота куч спектридир.

Мобилстрал коэффициентларнинг сони n исталган спектрларни юмшатишга боғлиқ ва 20 дан 40 гача бўлган оралиқда бўлади. Агар тармоқли фильтрларидан фойдаланилса, алоҳида кобальт конвертацияси коэффицентлари қуйидагича ҳисобланади:

m-чи-фильтрнинг чиқиш сигналлари, c n {\displaystyle c_{n}} n-чи kepstr коэффициенти.
Эшитиш хусусиятлари частота диапазонини чизиқли бўлмаган конвертация қилиш йўли билан, одатда бўр чиғаноғи бўйича ҳисобга олинади. Ушбу ўлчов, танқидий бантлар деб аталадиган томошанинг мавжудлигидан келиб чиқади, шунинг учун критик банддаги ҳар қандай частотадаги сигналлар фарқланмайди. Балғам ўлчови қуйидагича ҳисобланади:

бу ерда f-частота, М-эса тебранишдаги частотасидир. Ёки бошқа ўлчовлар қўлланилади - barque, шунинг учун критик бандга тенг бўлган икки frekans орасидаги фарқ 1 баркага тенг. Частотани Б қуйидагича ҳисоблаб чиқилади

Адабиётда топилган коэффициентлар баъзида MFCC - Mel Frequiency Cepstral koeffitsientlari деб аталади. Уларнинг сони 10 дан 30 гача ўзгариб туради. Қўрталм коэффициентларининг биринчи ва иккинчи марта фарқланишларини уч баробар ошириш қарор қабул қилиш майдонининг ҳажмини, лекин маърузачининг аниқлаш самарадорлигини оширади.
Cepstrum сигналнинг спектрининг зарф шаклини таърифлайди, бу ҳам қўзғатиш манбасининг характеристикалари ва вокал тузилиш хусусиятларига таъсир қилади. Тажрибаларда спектрли конверт овозни аниқлашга катта таъсир кўрсатди. Шунинг учун, спектрнинг конвертини таҳлил қилишнинг турли усулларидан фойдаланиш овозни тан олиш учун тўлиқ асосланади.
Кўпгина тизимлар, аввалги ва иккинчи фарқлари билан, қоида коэффициентларини ишлатиб, қарор қабул қилиш қоидаларига катта эътибор беришади. Энг кенг тарқалган усуллар:

  • одатдаги космик тақсимлаш (GMM - Gauss aralash tuzilmalari)

  • Ёрдам Векторли Машиналар усули (SVM - Yordam Vektorli Mashinalari)

  • Яширин Марков Моделлари услуби (HMM)

  • сунъий омиллар таҳлилининг модификациясидир.

GMM усули ҳар қандай эҳтимоллик зичлиги функцияси одатдаги тақсимотнинг оғирлиги йиғиндиси сифатида ифодаланадиган теоремадан келиб чиқади:



Кўпинча бу моделли тизимларда диагональ коварянс матрицаси қўлланилади. Ушбу моделдаги барча компонентлар ёки ҳатто барча моделлар учун ишлатилиши мумкин. Коварянс матрицасини, вазнни ва ўртача векторларни топиш учун одатда EM алгоритмидан фойдаланилади. Кириш вақтида векторларнинг тренинглар кетма-кетлиги

Модель параметрлари бошланғич қийматлари билан бошланади ва кейинчалик алгоритмнинг ҳар бир итерацияси параметрлари қайта баҳоланади. Бош параметрларни аниқлаш учун одатда К-воситалар алгоритми каби kümeleme algoritması ишлатилади. Машғулотлар мажмуи М кластерларига бўлингандан сўнг, модель параметрлари қуйидагича аниқланади: бошланғич қийматлари кластер марказлари билан мос келади, коварянс матрицалари ушбу кластердаги векторлар асосида ҳисобланган компонентларнинг оғирликлари ушбу кластернинг векторлар қисмини таълим векторларининг умумий сони билан аниқланади.

  1. Параметрлар қуйидаги формула бўйича қайта баҳоланади:

Постериор эҳтимолликларни ҳисоблаш

янги модель параметрларини ҳисоблаш

Параметрлар конвертация қилингунга қадар қадамлар такрорланади.
GMM шунингдек, векторнинг квантлаш услуби (cэнтроид усули) давом этиши мумкин. Фойдаланишда фойдаланилаётганда, функционал космосда ажратилган ҳудудлар учун код китоби яратилади (кўпинча К-воситаларини kümeleme ёрдамида). Векторли квантлаш - бу таркибий мустақил таниб олиш тизимларида энг оддий модел ҳисобланади.
Ёрдам вектор машинаси (SVM) икки синфни ажратувчи кўп ўлчовли майдонда - мақсадли спикернинг параметрлари ва мос ёзувлар базасидан спикерларнинг параметрларини ажратиб туради. Hiperplana қўллаб-қувватловчи вектор ёрдамида аниқланади - алоҳида тарзда танланади. Ўлчаган параметрларнинг бўш жойини юқори ўлчамли ўзига хос фазага ўтказиш учун чизиқли бўлмаган трансформация амалга оширилади, чунки ажратувчи сирт гиперпланга мос келмаслиги мумкин.
Гиперпландаги ажратувчи сирт янги функционал фазада линеэр ажратилиш ҳолати қондирилган тақдирда қўллаб-қувватлаш векторлари усули билан қурилган. Шундай қилиб, SMM дастурининг муваффақияти ҳар бир алоҳида ҳолатда танланган чизиқли бўлмаган трансформацияга боғлиқ. Ёрдам вектор усули кўпинча GMM ёки HMM билан ишлатилади. Одатда, контекстга қарам бўлган ёндашув учун бир неча сония қисқа жумлалар учун фонемага боғлиқ HMMлар энг яхши қўлланилади.



    1. Download 1.43 Mb.

      Do'stlaringiz bilan baham:
1   ...   13   14   15   16   17   18   19   20   ...   23




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling