Matnni qayta ishlash uchun grafik modellar tomon


Download 274.78 Kb.
bet5/16
Sana23.12.2022
Hajmi274.78 Kb.
#1044664
1   2   3   4   5   6   7   8   9   ...   16
Bog'liq
Matnni qayta ishlash uchun grafik modellar tomon

Kuzatish 2.3
MayliDbittaDbittavaD2D2korpusdan ikkita hujjat bo'lishi kerakCCshunday hujjatDbittaDbittahujjatning kichik to‘plamidirD2D2. Keyin masofa grafigiG ( C,Dbitta, k )G(C,Dbitta,k)masofa grafigining pastki grafigi hisoblanadiG ( C,Dbitta, k )G(C,Dbitta,k).
Teskari har doim ham to'g'ri bo'lmasa-da (hujjatdagi so'zlarning takrorlanishi tufayli), bu ko'pincha masofaviy grafik tasviri tomonidan olingan matn tuzilishining murakkabligi tufayli to'g'ri bo'ladi. Ushbu xususiyat aniq matn bo'laklari bo'yicha qidirish uchun juda foydali , chunki subgraflarga asoslangan indekslash usullari grafik va XML ishlov berish adabiyotlarida yaxshi ma'lum [ 24 , 26-31 , 33 ]]. Shunday qilib, kerakli hujjatlar to'plamining yaqin to'plamini aniqlash uchun subgrafaga asoslangan qidirish usullaridan foydalanish mumkin. Bu vektor-bo'shliq tasviri bilan ruxsat etilganidan ko'ra ancha samarali yechim, chunki ikkinchisi aniq jumla bo'laklari emas, balki faqat so'z a'zoligi bo'yicha indeksatsiya qilishga imkon beradi.
2.3-kuzatuvni ikkita hujjat matn qismlarini to'g'ridan-to'g'ri to'plamga bog'liq bo'lmagan holda baham ko'rgan holatga osongina umumlashtirish mumkin:
Kuzatish 2.4
MayliDbittaDbittavaD2D2korpusdan ikkita hujjat bo'lishi kerakCCbilan belgilangan qo‘shni matn bo‘lagini baham ko‘rishlari uchunFF. Keyin, masofa grafiklariG ( C,Dbitta, k )G(C,Dbitta,k)vaG ( C,D2, k )G(C,D2,k)subgrafni baham ko'ringG ( C, F, k )G(C,F,k).
Yana bir parcha ekanligini ta'kidlaymizFFqo'shni matn bo'lagiga mos keladigan har doim bog'langan bo'ladi. Albatta, barcha bog'langan subgraflar qo'shni matn bo'laklariga to'g'ri kelmaydi, lekin bu ko'pincha kichikroq subgraflar uchun bo'lishi mumkin. Yuqoridagi kuzatish shuni ko'rsatadiki, to'plamda tez-tez bog'langan subgraflarni topib, to'plamdagi tez-tez uchraydigan matn qismlariga samarali xaritalashni aniqlash mumkin. Ma'lumotlar bazasi adabiyotlarida bunday tez-tez subgraflarni topish uchun bir qator samarali algoritmlar taklif qilingan [ 26 , 29 ]]. Aslida, bu yondashuv juda katta hujjat to'plamlarida mumkin bo'lgan plagiatlarni (yoki tez-tez uchraydigan matn qismlarini) aniqlash uchun bevosita qo'llanilishi mumkin. Shuni ta'kidlaymizki, bu vektor-makon tasvirining "so'zlar sumkasi" yondashuvi bilan mumkin emas edi, chunki asosiy so'zlarni tartiblash ma'lumotlari yo'qolgan.
Hujjatlarni aniqlash uchun ushbu texnikadan foydalanish ham mumkin, shunday qilib, ushbu hujjatning ba'zi mahalliy qismida ma'lum bir mavzu muhokama qilinadi. Ushbu mavzuni to'plam bilan tavsiflash mumkin deb taxmin qilinadiSSningmmchambarchas bog'langan kalit so'zlar. Bunday hujjatlarni aniqlash uchun, avvalo, biz sintetik ravishda ikki yo'nalishli yo'naltirilgan guruhni tuzamiz .mmkalit so'zlar (tugunlar). Ikki yo'nalishli yo'naltirilgan klik - har bir tugun juftligi uchun har ikki yo'nalishda qirralar mavjud bo'lgan klik. Bundan tashqari, u har bir tugun uchun bitta o'z-o'zidan aylanishni o'z ichiga oladi. Keyin, grafik bilan klikaning chekka kesishuvining yig'indisi chastotasiG ( C, D , k )G(C,D,k)mos keladigan kalit so'zlarning masofada sodir bo'lish sonini ifodalaydiIzohko'pi bilan 2 takkhujjatda bir-biri bilan. Bu to'plamda muhokama qilingan mavzularning mahalliy xatti-harakatlari haqida fikr beradi.

Download 274.78 Kb.

Do'stlaringiz bilan baham:
1   2   3   4   5   6   7   8   9   ...   16




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling