Audio formatlar haqida izoh bering
Tezlik. Aytaylik, audio faylning yozib olish vaqti (RT) 2 soat va dekodlash 6 soat davom etdi. Keyin tezlik 3xRT deb hisoblanadi. ROC egri chiziqlari
Download 0.73 Mb.
|
Audiostudiyalar savol-javob
- Bu sahifa navigatsiya:
- Nutqni tanib olish jarayoni Nutqni tanib olish
- U nutqni avtomatik aniqlash ( ASR ), kompyuter nutqini aniqlash yoki matnga nutqni aniqlash ( STT
Tezlik. Aytaylik, audio faylning yozib olish vaqti (RT) 2 soat va dekodlash 6 soat davom etdi. Keyin tezlik 3xRT deb hisoblanadi.
ROC egri chiziqlari. Aniqlash mashinasi haqida gapiradigan bo'lsak, noto'g'ri signallar va urishlar / o'tkazish yuborishlar mavjud. Bularni ko'rsatish uchun ROC egri chiziqlaridan chiqariladi. Bunday egri chiziq noto'g'ri signallar sonini urishlar soniga nisbatan tavsiflovchi diagrammadir. U noto'g'ri signallar soni kichik bo'lgan va urishlar soni 100% ga to'g'ri keladigan optimal nuqtani topishga harakat qiladi. Ko'pincha e'tiborga olinmaydigan, ammo ko'plab amaliy dasturlar uchun hali ham muhim bo'lgan boshqa ishlab chiqarish mavjud. Sizning birinchi vazifangiz shunday o'lchovni va tizimni ishlab chiqarish chiqishda uni muntazam ravishda ravshan qo'llash bo'lishi kerak. sizning vazifangiz test ma'lumotlar bazasini to'plash va ilovangiz qanday sinovni sinab ko'rishdir. 43.
Nutqni tanib olish jarayoni Nutqni tanib olish - kompyuter fanlari va hisoblash tilshunosligining fanlararo kichik sohasi bo'lib , u kompyuterlar tomonidan og'zaki tilni tanib olish va matnga tarjima qilish imkonini beruvchi metodologiya va texnologiyalarni ishlab chiqadi . U nutqni avtomatik aniqlash ( ASR ), kompyuter nutqini aniqlash yoki matnga nutqni aniqlash ( STT ) sifatida ham tanilgan . U kompyuter fanlari , tilshunoslik va kompyuter injiniringidagi bilim va tadqiqotlarni o'z ichiga oladidalalar. Teskari jarayon nutq sintezidir . Ba'zi nutqni aniqlash tizimlari "trening" (shuningdek, "ro'yxatga olish" deb ataladi) talab qiladi, bunda alohida ma'ruzachi tizimga matn yoki ajratilgan lug'atni o'qiydi. Tizim insonning oʻziga xos ovozini tahlil qiladi va undan oʻsha odam nutqini tanib olishni nozik sozlash uchun foydalanadi, natijada aniqlik oshadi. Treningdan foydalanmaydigan tizimlar "spikerdan mustaqil" [1] tizimlar deb ataladi. Treningdan foydalanadigan tizimlar "spikerga bog'liq" deb ataladi. Nutqni aniqlash ilovalari ovozli terish (masalan, "uyga qo'ng'iroq qilish"), qo'ng'iroqlarni yo'naltirish (masalan, "Men qo'ng'iroq qilmoqchiman"), domotik qurilmalarni boshqarish, kalit so'zlarni qidirish (masalan, alohida so'zlar mavjud podkastni topish) kabi ovozli foydalanuvchi interfeyslarini o'z ichiga oladi. gapirilgan), oddiy ma'lumotlarni kiritish (masalan, kredit karta raqamini kiritish), tuzilgan hujjatlarni tayyorlash (masalan, radiologiya hisoboti), ma'ruzachi xususiyatlarini aniqlash, nutqni matnga qayta ishlash (masalan, matn protsessorlari yoki elektron pochta xabarlari ) , va samolyot (odatda to'g'ridan-to'g'ri ovozli kiritish deb ataladi ). Ovozni aniqlash yoki ma'ruzachini identifikatsiyalash ma'ruzachining nima deyayotganini emas, balki uni aniqlashni anglatadi. Ma'ruzachini tanib olish ma'lum bir shaxsning ovoziga o'rgatilgan tizimlarda nutqni tarjima qilish vazifasini soddalashtirishi yoki xavfsizlik jarayonining bir qismi sifatida ma'ruzachining identifikatorini autentifikatsiya qilish yoki tekshirish uchun ishlatilishi mumkin . Texnologiya nuqtai nazaridan, nutqni tanib olish bir necha yirik innovatsiyalar to'lqinlari bilan uzoq tarixga ega. Yaqinda bu soha chuqur o'rganish va katta ma'lumotlar sohasidagi yutuqlardan foydalandi . Yutuqlar nafaqat ushbu sohada nashr etilgan ilmiy maqolalarning ko'payishi, balki undan ham muhimi, jahon sanoatining nutqni aniqlash tizimlarini loyihalash va joylashtirishda chuqur o'rganishning turli usullarini qo'llashi bilan ham dalolat beradi. 44.
Nutqning tuzilishi 45. 45.Nutq modellari "Nutq sintezi" atamasi turli xil texnik yondashuvlar uchun ishlatilgan. Afsuski, kompyuterdan chiqadigan har qanday nutq nutq sintezi deb da'vo qilingan, ehtimol yozib olingan nutqni tinglash bundan mustasno. 1 Genlash uchun qo'llaniladigan ba'zi yondashuvlar 1 Akustik yoki artikulyar modellashtirishga asoslangan nutq sintezining asoslarini Fant (1960), Xolms va boshqalarda topish mumkin. (1964), Flanagan (1972), Klatt (1976) va Allen va boshqalar. (1987). Klatt (1987) tomonidan chop etilgan maqola nutq sintezi texnologiyasidagi o'zgarishlarni keng ko'lamda ko'rib chiqadi. Sintez rivojlanishini uchta asosiy toifaga bo'lish mumkin: akustik modellar, artikulyar modellar va tabiiy nutqni kodlash asosidagi modellar. Oxirgi guruhga bashoratli kodlash va nutq to'lqin shakllaridan foydalangan holda konkatenativ sintez kiradi. Akustik va artikulyar modellar uzoq rivojlanish tarixiga ega, tabiiy nutq modellari esa biroz yangiroq sohani ifodalaydi. Birinchi tijorat tizimlari akustik terminal analog sintezatoriga asoslangan edi. Biroq, o'sha paytda ovoz sifati umumiy foydalanish uchun etarli emas edi va kodlashga asoslangan yondashuvlar katta qiziqish uyg'otdi. Artikulyar modellar uzluksiz ishlab chiqilmoqda, ammo hozirgacha bu soha to'liq bo'lmagan modellar va yuqori qayta ishlash xarajatlari tufayli tijorat maqsadlarida qo'llanilmagan. To'lqin shakliga yaqin ishlaydigan modellar odatda prosodiyani qoida bo'yicha modellashtirishda birlik o'lchamlarini oshirishdan foydalanmoqda. Masshtabning o'rtasida "formant sintezi" "yuqori darajadagi parametrlar" yoki oldindan saqlangan kattaroq birliklarni izlash orqali artikulyar modellarga qarab harakatlanadi. Ma'lumotlarning etishmasligi tufayli to'sqinlik qiladigan artikulyar sintezning hali biroz yo'li bor, lekin asosan ilg'or tahlil-sintez usullari tufayli yaxshilangan sifatni beradi. Manba modellari Ovozli segmentlar uchun an'anaviy manba modeli oddiy yoki ikki tomonlama impuls edi. 1980-yillardagi matndan nutqqa o'tish tizimlari jiddiy muammolarga duch kelganining sabablaridan biri, ayniqsa turli xil ovozlar modellashtirilganda. Erkak ovozi ba'zan umumiy qabul qilinadigan deb hisoblansa-da, takomillashtirilgan glottal manba bolalar va ayol ovozlarining yanada real sinteziga, shuningdek, erkak ovozlarining tabiiyligi va o'zgaruvchanligiga yo'l ochadi. Ko'pgina manba modellari puls shaklini boshqarish uchun turli xil boshqaruv elementlari bilan vaqt sohasida ishlaydi (Ananthapadmanabha, 1984; Hedelin, 1984; Holmes, 1973; Klatt va Klatt, 1990; Rosenberg, 1971). Bunday ovoz manbasining versiyalaridan biri LF-modelidir (Fant va boshq., 1985). U kesilgan eksponensial sinusoidga ega, undan so'ng qaytish fazasining ta'sirini, ya'ni ovoz yo'lining maksimal qo'zg'alishdan vokal burmalarining to'liq yopilishigacha bo'lgan vaqtni modellashtiradigan o'zgaruvchan kesish-6dB/oktava past chastotali filtr mavjud. 2-rasmda boshqaruv parametrlarining funksiyasi tushuntirilgan. Amplituda va asosiy chastotani boshqarishga qo'shimcha ravishda, ikkita parametr ikkita parametrning amplitudasiga ta'sir qiladi. Artikulyar modellar Artikulyatsiya modeli oxir-oqibat matndan nutqqa o'tish tizimlarining tovush hosil qiluvchi qismi uchun eng qiziqarli va moslashuvchan yechim bo'ladi. Rivojlanish bu sohada ham rivojlanmoqda, ammo ishonchli artikulyatsiya ma'lumotlari va tegishli nazorat strategiyalarining etishmasligi hali ham qiyinchiliklarni keltirib chiqarmoqda. Bunday sintezatorni boshqarish uchun neyron tarmoqlarni avtomatik ravishda o'rgatish qiziqish uyg'otgan mumkin bo'lgan echimlardan biridir. Rahim va boshqalar. (1993) va Bailly va boshqalar. (1991) bunday usullarni o'rganib chiqdilar. Hozir takomillashtirilayotgan artikulyar modellar AT&T Bell Labs, MIT va KTH kabi laboratoriyalarda olib borilgan asosiy ishlardan kelib chiqadi. Har bir vaqt oralig'ida mos keladigan uzatish funktsiyasini hisoblash yoki manba to'lqin shaklini to'g'ridan-to'g'ri filtrlash uchun vokal traktining yaqinlashuvi ishlatiladi. Turli xil taxminlar va soddalashtirishlar asosida turli xil ovoz yo'llarining modellari ishlatilgan. Flanagan va boshqalarning modellari. (1975), Koker (1976) va Mermelshteyn (1973) hozirgi artikulyar sintezni ishlab chiqishda ko'plab tadqiqotchilar tomonidan o'rganilgan. "Artikulyatsiya modellashtirish" atamasi ko'pincha juda erkin ishlatiladi. Sintez modelining faqat bir qismi odatda fizik jihatdan tavsiflanadi, qolgan qismi esa soddalashtirilgan tarzda tavsiflanadi. Masalan, vokal traktining statik shaklini modellashtiruvchi trubka modeli o'rtasidagi farqni dinamik jismoniy model bilan solishtiring, bu aslida artikulyatorlarning qanday harakatlanishini tasvirlaydi. Shunday qilib, nutq sintezining to'liq artikulyar modeli bir nechta transformatsiyalarni o'z ichiga olishi kerak. Artikulyar imo-ishora va ovoz yo'llarining shakllari ketma-ketligi o'rtasidagi munosabat modellashtirilishi kerak. Har bir shakl o'zining akustik xususiyatlariga ega bo'lgan quvur modeliga aylantirilishi kerak. Vokal traktining akustikasi keyinchalik elektron tarmoq nuqtai nazaridan modellashtirilishi mumkin. Ayni paytda, ishlab chiquvchi manba signalini filtrlash uchun tarmoqdan foydalanishni tanlashi mumkin. Shu bilan bir qatorda, tarmoqning akustikasi formantga asoslangan sintezatorni boshqarishi mumkin bo'lgan rezonanslar nuqtai nazaridan ifodalanishi mumkin. Asosiy farq - akustika simulyatsiya qilinadigan domen, vaqt yoki chastota. 46. Kompozitsya nima va uning turlari Download 0.73 Mb. Do'stlaringiz bilan baham: |
ma'muriyatiga murojaat qiling