Boshqa ishlatiladigan tushunchalar
Panjara - tanib olish variantlarini ifodalovchi yo'naltirilgan grafik. Ko'pincha, eng yaxshi o'yinni olish amaliy emas. Bunday holda, panjaralar tanib olish natijasini ifodalash uchun yaxshi oraliq formatlardir.
Variantlarning N-eng yaxshi ro'yxati panjara kabidir, lekin ularning ko'rinishlari panjara kabi zich emas.
So'zlarni chalkashtirib yuborish tarmoqlari (kolbasa) - bu panjaralar bo'lib, unda tugunlarning qat'iy tartibi panjara qirralaridan olinadi.
Nutq ma'lumotlar bazasi - topshiriqlar bazasidan odatiy yozuvlar to'plami. Agar biz dialog tizimini ishlab chiqsak, bu foydalanuvchilardan yozib olingan dialoglar bo'lishi mumkin. Diktant tizimi uchun bu yozuvlarni o'qish bo'lishi mumkin. Nutq ma'lumotlar bazalari dekodlash tizimlarini o'rgatish, sozlash va sinab ko'rish uchun ishlatiladi.
Matnli ma'lumotlar bazalari - misol uchun til modelini o'rgatish uchun to'plangan namunali matnlar. Odatda, matnlarning ma'lumotlar bazalari namunaviy matn shaklida to'planadi. Bunday to'plam bilan bog'liq muammo mavjud hujjatlarni (masalan, PDF, veb-sahifalar, skanerlar) og'zaki matn shakliga qo'yishdir. Ya'ni, teglar va sarlavhalarni olib tashlash, raqamlarni og'zaki shaklga kengaytirish va qisqartmalarni kengaytirish kerak.
Nima optimallashtirilgan
Nutqni aniqlashni ishlab chiqilayotganda, eng murakkab muammo qidiruvni aniq qilish (iloji boricha ko'proq mos keladigan variantlarni ko'rib chiqing) va uni asrlar davomida ishlamaydigan darajada tezlashtirishdir. Modellar mukammal bo'lmagani uchun, yana bir qiyinchilik modelni nutqqa moslashtirishdir.
Odatda tizim maqsadli vazifani to'g'ri ko'rsatish uchun mo'ljallangan test ma'lumotlar bazasida sinovdan o'tkaziladi.
Quyidagi xususiyatlar qo'llaniladi:
So'z xatosi darajasi. Faraz qilaylik, bizda asl matn va uzunligi N so'zdan iborat bo'lgan tanib olish matni bor . I - kiritilgan so'zlar soni, D - o'chirilgan so'zlar va S - almashtirilgan so'zlar soni. Buning yordamida so'z xatosi darajasi sifatida hisoblash mumkin
WER = (I + D + S) / N
WER odatda foizlarda o'lchanadi.
Aniqlik. Bu so'z xatosi bilan bir xil bir xil, ammo u qo'shimchalarni osongina mumkin.
Aniqlik = (N - D - S) / N
Ko'pgina mahsulotlar uchun aniqlik WERga nisbatan yomonroq o'lchovdir, chunki qo'shimchalar yakuniy mahsulotnida ham qiladi. Buning, ba'zi vositalari uchun aniqlik dekoderning harakati o'lchovidir.
Do'stlaringiz bilan baham: |