Matnni qayta ishlash uchun grafik modellar tomon


Download 274.78 Kb.
bet2/16
Sana23.12.2022
Hajmi274.78 Kb.
#1044664
1   2   3   4   5   6   7   8   9   ...   16
Bog'liq
Matnni qayta ishlash uchun grafik modellar tomon

Ta'rif 2.1
Buyurtmaning masofa grafigikkhujjat uchunDDkorpusdan olinganCCgrafik sifatida aniqlanadiG ( C, D , k ) = ( N( C) , A ( D , k ) )G(C,D,k)=(N(C),A(D,k)), qayerdaN( C)N(C)korpusga xos aniqlangan tugunlar to'plamidirCC, vaA ( D , k )A(D,k)hujjatning qirralari to'plamidir. To'plamlarN( C)N(C)vaA ( D , k )A(D,k)quyidagicha aniqlanadi:

  • To'plamN( C)N(C)butun hujjat korpusidagi har bir alohida so'z uchun bitta tugunni o'z ichiga oladiCC. Shuning uchun biz "tugun" atamasidan foydalanamizii"va" so'zii” bir-birini almashtirib, korpusdagi tegishli so‘zning indeksini ifodalaydi. E'tibor bering, korpusCCko'p sonli hujjatlarni o'z ichiga olishi mumkin va tegishli so'zning (tugun) indeksi turli hujjatlarni taqdim etishda o'zgarishsiz qoladi.CC. Shuning uchun tugunlar to'plami bilan belgilanadiN( C)N(C)va korpusning funktsiyasidirCC.

  • To'plamA ( D , k )A(D,k)tugundan yo'naltirilgan chetni o'z ichiga oladiiitugungajjso'z bo'lsaiiso'zdan oldin keladijjko'pi bilan kkpozitsiyalar. Masalan, ketma-ket so'zlar uchun qiymatikk1. Chetning chastotasi - bu so'zning necha marta soniiiso'zdan oldin keladijjko'pi bilankkhujjatdagi pozitsiyalar.

To'plam ekanligini ta'kidlaymizA ( D , k )A(D,k)har doim har bir tugundan o'ziga bir chekka o'z ichiga oladi. Chetning chastotasi - bu so'z hujjatda eng ko'p masofada o'zidan oldin kelishining sonikk. Har qanday so'z ta'rifi bo'yicha 0 masofada o'zidan oldin kelganligi sababli, chekka chastotasi hech bo'lmaganda hujjatdagi mos keladigan so'zning chastotasiga teng.
Ko'pgina matn to'plamlarida tez-tez uchraydigan so'zlar, masalan, predloglar, artikllar va birikmalar mavjud. Ular to'xtash so'zlari deb nomlanadi . Bunday so'zlar odatda matnning vektor-fazo tasvirlariga kiritilmaydi. Xuddi shunday, masofa grafigi tasviri uchun bu so'zlar masofa grafigini qurishdan oldin matndan olib tashlangan deb taxmin qilinadi. Boshqacha qilib aytganda, to'xtash so'zlari grafik uchun masofalarni hisoblashda hisobga olinmaydi va tugunlar to'plamiga kiritilmaydi.N( C)N(C). Bu masofaviy grafik tasviridagi qirralarning sonini sezilarli darajada kamaytiradi. Bu, shuningdek, qayta ishlash jarayonida yaxshi samaradorlikni anglatadi.
Shuni ta'kidlaymizki, tartib-0 ko'rinishida faqat mos keladigan so'z chastotalari bilan o'z-o'zidan aylanishlar mavjud. Shuning uchun bu tasvir vektor-fazo tasviriga juda o'xshaydi. Turli xil tartiblarning vakillari hujjatdagi turli masofalardagi so'zlar haqida tushunchalarni ifodalaydi. Mashhur bolalar bog'chasi qofiyasi uchun masofa grafigining misoli "Maryamning bir oz qo'zichoq bor edi" 1 -rasmda tasvirlangan.. Ushbu rasmda biz matn parchasi uchun 0, 1 va 2 tartiblarning masofa grafiklarini tasvirlab berdik. Masofa grafigi faqat hujjatdagi qolgan so'zlarga nisbatan, to'xtash so'zlari allaqachon kesilganidan keyin tuziladi. Keyin masofalar kesilgan tasvirga nisbatan hisoblab chiqiladi. E'tibor bering, 0-tartibdagi masofa grafiklari faqat o'z-o'zidan aylanishlarni o'z ichiga oladi. Bu o'z-o'zidan aylanishlarning chastotalari-0 ko'rinishida so'zning chastotasiga to'g'ri keladi, chunki bu so'zning o'zidan 0 masofada sodir bo'lish soni ham. Tasvirdagi qirralarning soni ketma-ket yuqori tartibli masofaviy grafiklar uchun ortadi. Yana bir kuzatuv shundan iboratki, 2-tartibdagi masofaviy grafiklarda o'z-o'zidan aylanishlarning chastotasi tartib-0 va tartib-1 ko'rinishlariga nisbatan ortadi. Buning sababi bir-birining muqobil pozitsiyalarida uchraydigan "kichik" va "qo'zichoq" kabi takrorlanadigan so'zlardir. Bunday takrorlashlar tartib-0 va tartib-1 masofali grafiklarning chastotalarini o'zgartirmaydi, lekin tartib-2 masofali grafiklarga ta'sir qiladi. Shuni ta'kidlaymizki, yuqori tartibli masofaviy grafiklar ba'zan boyroq bo'lishi mumkin, ammo bu 5 yoki 10 dan yuqori buyurtmalar uchun to'g'ri emas. . Shubhasiz, bu foydali ma'lumotlarni kodlash shart emas. Boshqa tomondan, tartib-0 masofaviy grafiklari ham juda ko'p foydali ma'lumotlarni kodlamaydi. Eksperimental bo'limda biz turli tartibli masofa grafiklarining nisbiy harakatini ko'rib chiqamiz va past tartibli masofaviy grafiklar eng samarali ekanligini ko'rsatamiz.

Download 274.78 Kb.

Do'stlaringiz bilan baham:
1   2   3   4   5   6   7   8   9   ...   16




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling