Guruh talabasi Erkinboyev Narimon Amaliy mashg‘ulot №19 Mavzu
Detektor: "Hey Siri" ni tinglash
Download 1.13 Mb. Pdf ko'rish
|
19-24 amaliy mashg\'ulotlar
Detektor: "Hey Siri" ni tinglash
IPhone yoki Apple Watch-dagi mikrofon sizning ovozingizni soniyasiga 16000 tezlikda bir lahzali to'lqin shakllari namunalariga aylantiradi. Spektrni tahlil qilish bosqichi to'lqin shaklidagi namunaviy oqimni freymlar ketma-ketligiga aylantiradi, ularning har biri taxminan 0,01 sek ovoz spektrini tavsiflaydi. Bir vaqtning o'zida ushbu ramkalarning yigirmaga yaqini (0,2 sek audio) akustik modelga beriladi, bu chuqur neyron tarmoq (DNN), bu akustik naqshlarning har birini nutq tovushlari sinflari bo'yicha ehtimollik taqsimotiga aylantiradi: "Hey Siri" iborasi, jimlik va boshqa nutq, jami 20 ga yaqin ovoz sinflari. DNN asosan matritsalarni ko'paytirish va logistik chiziqli bo'lmaganlardan iborat. Har bir "yashirin" qatlam DNN tomonidan filtrlash banki yozuvlarini ovozli sinflarga o'tkazish uchun o'qitish paytida topilgan oraliq vakolatdir. Yakuniy nochiziqlik asosan Softmax funktsiyasidir (masalan, umumiy logistik yoki normallashtirilgan eksponent), ammo biz jurnal ehtimollarini istaganimiz uchun haqiqiy matematik biroz soddalashtirilgan. Rasm 4.3. "Hey Siri" ni aniqlash uchun ishlatiladigan chuqur neyron tarmoq. Yashirin qatlamlar aslida to'liq bog‘langan. Yuqori qatlam vaqtinchalik integratsiyani amalga oshiradi. Haqiqiy DNN chiziqli oynada ko'rsatiladi. 4.3-rasm. "Hey Siri" ni aniqlash uchun ishlatiladigan chuqur neyron tarmoq DNNning har bir yashirin qatlamidagi birliklar sonini "Hey Siri" detektori ishlaganda mavjud bo'lgan hisoblash manbalariga mos ravishda tanlaymiz. Biz foydalanadigan tarmoqlarda odatda beshta yashirin qatlam mavjud bo'lib, ularning hajmi bir xil: 32, 128 yoki 192 birlik, xotira va quvvat cheklovlariga bog‘liq. IPhone- da biz ikkita tarmoqdan foydalanamiz - biri dastlabki aniqlash uchun, ikkinchisi esa ikkinchi darajali tekshiruvchi sifatida. Dastlabki detektor ikkilamchi tekshiruvchiga qaraganda kamroq birliklardan foydalanadi. Akustik modelning chiqishi har bir kvadrat uchun fonetik sinflar bo'yicha ballarning taqsimlanishini ta'minlaydi. Fonetik sinf, odatda, "old qismning old qismidagi yuqori qism oldidan / s / ning birinchi qismidan keyin". Biz "Hey Siri" ni aniqlamoqchimiz, agar akustik modelning natijalari maqsadli ibora uchun to'g‘ri ketma-ketlikda yuqori bo'lsa. Har bir kvadrat uchun bitta ball to'plash uchun biz ushbu mahalliy qiymatlarni vaqt o'tishi bilan to'g‘ri ketma-ketlikda to'playmiz. Bu 2-rasmning yakuniy (yuqori) qatlamida xuddi shu birlikka va keyingisiga ketma-ket ulanishga ega bo'lgan takrorlanadigan tarmoq sifatida ko'rsatilgan. Har bir birlik ichida maksimal operatsiya va qo'shimcha mavjud: Fi, t - bu modelning i holati uchun to'plangan ball qi, t - bu akustik modelning chiqishi - t vaqtidagi akustik naqshni hisobga olgan holda ith holati bilan bog‘liq fonetik sinf uchun jurnal ballari. si - bu i shtatida qolish bilan bog‘liq xarajatlar mi - i holatidan o'tish uchun xarajatlar Si va mi ikkalasi ham ma'lumotlarning tegishli yorliqlari bilan segmentlarning davomiyligini tahlil qilishga asoslangan. (Ushbu protsedura dinamik dasturlash dasturidir va Yashirin Markov modellari - HMMlar haqidagi g‘oyalar asosida olinishi mumkin.) |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling