Mavzu: Nutqni tanish tizimlarida tasirchan ranglar


Nutqni tanib olish dunyoni qanday qilib yaxshilaydi?


Download 1.34 Mb.
bet3/4
Sana28.10.2021
Hajmi1.34 Mb.
#168977
1   2   3   4
Bog'liq
Nutq tanish ranglar .doc

Nutqni tanib olish dunyoni qanday qilib yaxshilaydi?

Har bir dasturda bu boshqacha - bu kimgadir gadjetlar bilan aloqa qilishda yordam beradi va PricewaterhouseCoopers ma'lumotlariga ko'ra, smartfon foydalanuvchilarining yarmidan ko'pi qurilmalarga ovozli buyruqlar berishadi - kattalar orasida (25-49 yosh) ovozli interfeyslarni doimiy ravishda ishlatadiganlar ulushi bundan ham yuqori yoshlar orasida (18-25) - 65% va 59%. Rossiyada kamida bir marta Siri, Google Assitant yoki "Alice" bilan kamida 71% aholi muloqot qilgan. 45 million rossiyalik Yandex-dan Elis bilan doimiy ravishda aloqa qiladi, Yandex.Maps / Yandex.Navigator so'rovlarning atigi 30 foizini tashkil qiladi.Nutqni tanib olish dunyoni qanday qilib yaxshilaydi?

Har bir dasturda bu boshqacha - bu kimgadir gadjetlar bilan aloqa qilishda yordam beradi va PricewaterhouseCoopers ma'lumotlariga ko'ra, smartfon foydalanuvchilarining yarmidan ko'pi qurilmalarga ovozli buyruqlar berishadi - kattalar orasida (25-49 yosh) ovozli interfeyslarni doimiy ravishda ishlatadiganlar ulushi bundan ham yuqori yoshlar orasida (18-25) - 65% va 59%. Rossiyada kamida bir marta Siri, Google Assitant yoki "Alice" bilan kamida 71% aholi muloqot qilgan. 45 million rossiyalik Yandex-dan Elis bilan doimiy ravishda aloqa qiladi, Yandex.Maps / Yandex.Navigator so'rovlarning atigi 30 foizini tashkil qiladi.

Kimdir uchun nutqni tanib olish haqiqatan ham o'z ishlarida yordam beradi - masalan, yuqorida aytganimizdek, shifokorlar uchun: tibbiyotda 1996 yildan beri (IBM MedSpeak paydo bo'lganida) tanib olish anamnezni yozish uchun ishlatilgan va tasvirlarni tekshirishda - shifokor o'z faoliyatini yozishda chalg'itmasdan ishlashni davom ettirishi mumkin. kompyuter yoki qog'oz xaritasi. Aytgancha, tibbiyotda diktant bo'yicha ish nafaqat G'arbda, balki Rossiyada ham "Nutq texnologiyalari markazi" ning Voice2Med dasturi mavjud. Boshqa misollar ham bor, shu jumladan bizning misollarimiz. Toshiba-ning biznes tashkiloti to'liq qamrab olishni, ya'ni sog'lig'i har xil nogironlar, shu jumladan eshitish qobiliyati past bo'lgan xodimlar uchun teng huquq va imkoniyatlarni nazarda tutadi. Bizda Universal Design Advisor System korporativ dasturi mavjud bo'lib, unda har xil nogironligi bo'lgan odamlar Toshiba mahsulotlarini ishlab chiqishda qatnashadilar, nogironlar uchun ularning qulayliklarini yaxshilash bo'yicha takliflar kiritadilar - ya'ni biz bundan ham yaxshiroq ishlashni o'ylamaymiz, balki haqiqiy tajribadan foydalanamiz. va xodimlarning sharhlari. Bir necha yil oldin, Toshiba kompaniyasining Yaponiyada joylashgan shtab-kvartirasida biz nutqni tanib olishning yangi tizimini ishlab chiqishni talab qiladigan juda qiziq bir muammoga duch keldik. Universal Design Advisor System bilan ishlash jarayonida biz muhim tushunchaga ega bo'ldik: eshitish qobiliyati past bo'lgan xodimlar yig'ilishlar va ma'ruzalarda real vaqt rejimida ishtirok etishni istaydilar va bir necha soat yoki bir necha kundan keyin qayta ishlangan stenogrammani o'qish bilan cheklanmaydilar. Bunday hollarda smartfon orqali nutqni tanib olishni boshlash juda zaif natija beradi, shuning uchun Toshiba mutaxassislari ixtisoslashgan tanib olish tizimini ishlab chiqishga majbur bo'lishdi. Va, albatta, biz darhol muammolarga duch keldik.


Suhbatlashadigan nutq yozma nutqdan juda katta farq qiladi - biz xat yozayotganda gaplashmaymiz va matnga tarjima qilingan haqiqiy suhbat juda sust va hatto o'qib bo'lmaydigan ko'rinishga ega. Ya'ni, ertalabki rejalashtirish yig'ilishidagi dialoglarni yuqori aniqlikda matnga aylantirsak ham, parazit so'zlar, kesiklar va "aaa", "uh" va "mmm" so'zlari bilan to'ldirilgan nomuvofiq qarama-qarshilikka duch kelamiz. Matndagi keraksiz tovushlar, so'zlar va his-tuyg'ularning transkripsiyasidan xalos bo'lish uchun biz nutqning har doim ham zarur bo'lmagan elementlarini, shu jumladan ba'zi so'zlarning emotsional ranglarini (masalan, "oh") skeptisizmga o'xshab ketishi mumkin yoki shunga o'xshash narsalarni iloji boricha aniqroq bilishga qodir AIni rivojlantirishga qaror qildik. chin dildan ajablanib, va bu so'zma-so'z qarama-qarshi ma'noga ega).

4-rasm

Bu erda LSTM juda foydali bo'ldi, natijada olingan matnni kuch sarflamasdan o'qish va tushunish uchun tanib olish aniqligi etarli emas edi. Bundan tashqari, LSTM nafaqat kontekstdagi so'zlarni aniqroq bashorat qilish uchun, balki jumla o'rtasidagi pauzalarni va parazitar kesmalarni to'g'ri qayta ishlash uchun ham foydalidir - buning uchun biz og'zaki nutq uchun tabiiy bo'lgan ushbu parazitlar va pauzalar bilan asab tarmog'ini o'rgatdik.Bu shuni anglatadiki, endi neyron tarmoq transkriptlardan interjectionlarni olib tashlashi mumkinmi? Ha, mumkin, lekin bunga hojat yo'q. Gap shundaki, (yana bir tushuncha olingan) eshitish qobiliyati cheklangan odamlar, boshqa narsalar qatori, notiqning lablari harakatlari bilan boshqariladi. Agar lablar harakatga kelsa, lekin bu harakatlarga mos keladigan matn ekranda ko'rinmasa, u tanib olish tizimi suhbatning bir qismini o'tkazib yuborganga o'xshaydi. Ya'ni, eshita olmaydiganlar uchun suhbat haqida imkon qadar ko'proq ma'lumot, shu jumladan baxtsiz pauzalar va medzhometya olish muhimdir. Shuning uchun Toshiba dvigateli ushbu elementlarni stenogrammada qoldiradi, ammo real vaqt rejimida harflarning yorqinligini o'chiradi va bu matnni tushunish uchun zaruriy tafsilotlar emasligini aniq ko'rsatib beradi.

Toshiba-ning sun'iy intellekti endi ingliz, yapon va xitoy tillari bilan ishlaydi va hattoki tezda tillar o'rtasida tarjima qila oladi. Uni tezkor stsenariy uchun ishlatish shart emas - sun'iy intellektni ovozli yordamchilar bilan ishlashga moslashtirish mumkin, ular oxir-oqibat odam buyruqni aytganda kesiklarni, pauzalarni va duduqlarni etarlicha idrok etishni o'rganadi. 2019 yil mart oyida ushbu tizim Yaponiyada o'tkazilgan IPSJ Milliy anjumani videoga taglavha qo'shish uchun muvaffaqiyatli ishlatildi. Yaqin kelajakda Toshiba sun'iy intellekti davlat xizmatiga aylantiriladi va zavodlarda ovozni tanib olishni joriy etish bo'yicha tajribalar.


Download 1.34 Mb.

Do'stlaringiz bilan baham:
1   2   3   4




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling