Matnni qayta ishlash uchun grafik modellar tomon


Download 274.78 Kb.
bet4/16
Sana23.12.2022
Hajmi274.78 Kb.
#1044664
1   2   3   4   5   6   7   8   9   ...   16
Bog'liq
Matnni qayta ishlash uchun grafik modellar tomon

Kuzatish 2.2
Faqat aniq so'zlarni o'z ichiga olgan hujjatlarga mos keladigan 2 yoki undan kam tartibli masofa grafiklari tekislikdir.
Yuqoridagi kuzatuv 0 (o'z-o'zidan aylanishlar) va 1-tartibli (ketma-ket so'zlar orasidagi qirralar) grafiklari uchun oddiy. Keyinchalik, biz ushbu kuzatishni 2-tartibdagi grafiklar uchun tekshiramiz. E'tibor bering, agar hujjatda faqat aniq so'zlar bo'lsa, biz tugunlarni hujjatdagi so'zlarning tartibiga mos keladigan to'g'ri chiziqda ko'rsatishimiz mumkin. So'zlarning aniqligi barcha qirralarning tugunlarga bir va ikki pozitsiya oldinda bo'lishini va orqa qirralarning yo'qligini ta'minlaydi. Toq sonli so'zlardan chiquvchi qirralar tugunlar ustida , juft sonli so'zlardan chiquvchi qirralar esa tugunlar ostida joylashtirilishi mumkin. Ushbu tartibga solishda hech qanday qirralarning kesishmasligini ko'rish oson.
Amalda, hujjatlarda aniq bo'lmagan so'zlar bo'lishi mumkin. Biroq, to'xtash so'zlari olib tashlangandan so'ng, chastotalar odatda juda kichik bo'ladi. Bu shuni anglatadiki, grafik 2.2-kuzatuvning oldingi shartlarini taxminan qondirishga intiladi. Bu shuni ko'rsatadiki, ko'pgina hujjatlarning pastki tartibli masofaviy grafik tasvirlari tekis yoki taxminan tekislikdir. Bu xususiyat foydalidir, chunki biz planar grafiklarni turli ilovalar uchun ancha samaraliroq qayta ishlashimiz mumkin. Grafiklar mukammal tekis bo'lmagan hollarda ham, juda aniq natijalarga erishish uchun tegishli planar algoritmlardan foydalanish mumkin.
Shuni ta'kidlaymizki, masofaviy grafiklar ma'lum darajada foydalanish tushunchasi bilan bog'liqnn-matnni qazib olish uchun gramm [ 8 , 9 ]. Biroq,nn-grammlar odatda hujjatlardagi nisbiy chastotasiga qarab apriori qazib olinadi. Bundaynn-grammalar hujjatdagi strukturaviy munosabatlarning faqat kichik bir qismini ifodalaydi va odatda hujjatning umumiy tuzilishini ifodalamaydi. Tegishli tadqiqot sohasi kollokatsiyani qayta ishlashdir [ 13 , 17 , 22 ]. Kollokatsiyani qayta ishlashda matnning tez-tez ketma-ket naqshlari so'zlarga bog'liqlikni modellashtirish uchun ishlatiladi va ular onlayn ishlov berish uchun ishlatiladi. Holatida bo'lgani kabinn-gramm, kollokatsiyani qayta ishlash to'plamdagi so'zlarni aniq tartiblash bilan bitta matnli hujjatni ifodalashdan ko'ra, faqat yig'ma naqshlar bilan bog'liq. Bu ushbu texnikaning imkoniyatlarida bir qator farqlarga olib kelishi mumkin. Misol uchun, o'xshashlikni qidirish ilovasi bo'lsa, joylashuvni qayta ishlash kabi usullar, agar ular to'plam davomida tez-tez uchramasa, bir juft hujjatlar o'rtasida umumiy bo'lgan so'zlarning ko'plab o'ziga xos ketma-ket naqshlarini o'tkazib yuborishi mumkin. Oddiy qilib aytganda, masofa grafigi to'plamning boshqa hujjatlaridagi yig'ma naqshlardan mustaqil bo'lgan matn uchun tasvirdir .
Keyinchalik, masofaviy grafiklarda aks ettirilgan hujjatlarning strukturaviy xususiyatlarini ko'rib chiqamiz. Ushbu strukturaviy xususiyatlardan asosiy ma'lumotlarni samarali qazib olish va boshqarish uchun foydalanish mumkin. Masofaviy grafiklar tomonidan saqlanib qolgan asosiy tuzilmaviy xususiyat shundan iboratki, u ikkita hujjat tomonidan taqsimlangan matnning bir xil qismlarini aniqlash uchun ishlatilishi mumkin. Bu turli xil ilovalar uchun (masalan, plagiatlarni aniqlash) kichik vazifa sifatida foydali bo'lishi mumkin va vektor-makon modelidan foydalanish bilan erishib bo'lmaydi. Shunday qilib, masofa grafigi tasviri vektor-fazo modelida mavjud bo'lmagan qo'shimcha funktsiyalarni ta'minlaydi . Biz ushbu mulkni quyidagicha umumlashtiramiz:

Download 274.78 Kb.

Do'stlaringiz bilan baham:
1   2   3   4   5   6   7   8   9   ...   16




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling