Matnni qayta ishlash uchun grafik modellar tomon


Naive Bayes klassifikatori


Download 274.78 Kb.
bet9/16
Sana23.12.2022
Hajmi274.78 Kb.
#1044664
1   ...   5   6   7   8   9   10   11   12   ...   16
Bog'liq
Matnni qayta ishlash uchun grafik modellar tomon

Naive Bayes klassifikatori: Bu holda, tasniflash uchun hujjatdagi asl so'zlarni ishlatish o'rniga, biz masofaviy grafikdagi qirralarga mos keladigan yangi olingan tokenlardan foydalanamiz. Ushbu qirralarning ehtimollik taqsimoti tasniflash uchun Bayes ifodasini qurish uchun ishlatiladi. Yondashuv so'z asosidagi ehtimollik hisoblashning bevosita analogi bo'lganligi sababli, tasniflash maqsadlarida to'g'ridan-to'g'ri qirralarning vektor-fazoviy tasviridan foydalanish mumkin.

  • kk- Eng yaqin qo'shni va markaziy klassifikatorlar: vektor-fazo tasviri uchun o'xshash o'xshashlik funktsiyalari aniqlanishi mumkinligi sababli, ular mos keladigan tasniflagichlarni aniqlash uchun ishlatilishi mumkin. Bunday holda, oldingi qismdagi tokenlar to'plami masofaviy grafiklardagi qirralarga mos keladi.

  • Qoidalarga asoslangan klassifikatorlar: Oldingi holatda bo'lgani kabi, tegishli qoidalarni yaratish uchun hujjatda yangi belgilangan tokenlardan foydalanishimiz mumkin. Shunday qilib, qoidalarning chap tomoni qirralarning kombinatsiyasiga, o'ng tomoni esa sinf belgilariga mos keladi.

    Bundan tashqari, tuzilmaviy tasniflash uchun algoritmlardan foydalanishimiz mumkin [ 30 ]. Bunday algoritmlarning afzalligi shundaki, ular to'g'ridan-to'g'ri konchilikni amalga oshirish uchun asosiy tarkibiy ma'lumotlardan foydalanadilar. Shunday qilib, masofaviy grafik tasviridan foydalanish, vektor-fazoning asl tasviriga nisbatan kengroq usullardan foydalanishga imkon beradi. Bu bizga qazib olish jarayonida ko'proq moslashuvchanlikni ta'minlaydi.
    Indekslash va qidirish
    Strukturaviy ma'lumotlarni taqdim etish, shuningdek, ikkita alohida yondashuv bilan indekslash va qidirish bilan birgalikda ishlatilishi mumkin.

    • Biz to'g'ridan-to'g'ri kengaytirilgan vektor-fazo tasvirida teskari tasvirni qurishimiz mumkin. Bunday yondashuv nisbatan kichik jumla bo'laklarida indekslash uchun samarali bo'lishi mumkin bo'lsa-da, hujjatdan hujjatga o'xshashlikni qidirish uchun unchalik samarali emas.

    • Biz to'g'ridan-to'g'ri asosiy hujjatlar to'plamida tizimli indekslarni qurishimiz mumkin [ 24 , 26 - 29 , 31 , 33 ] va ularni qidirish uchun ishlatishimiz mumkin. Bunday yondashuvdan foydalanish ancha samarali qidirishga olib kelishini ko'ramiz. Ushbu yondashuvdan foydalanib, o'xshash hujjatlarni butun tuzilmaviy qismlar bo'yicha olish mumkin . Bu vektor-fazo tasviridan foydalanish bilan mumkin emas.

    Biz shuni ta'kidlaymizki, ikkinchi taqdimot bizga hujjatdan hujjatga o'xshashlikni samarali qidirish imkonini beradi . Teskari tasvir faqat qidiruv tizimi uchun bir necha so'zlardan iborat so'rovlar uchun foydalidir. Hujjatdan hujjatga o'xshashlikni samarali indekslash matn ma'lumotlari uchun ochiq muammodir (hatto kengaytirilmagan vektor-fazo tasvirlari bilan ham). Buning sababi, matn ma'lumotlari o'ziga xos tarzda yuqori o'lchamli bo'lib, bu o'xshashlikni qidirish ilovasi uchun qiyin stsenariydir. Boshqa tomondan, strukturaviy vakillik vektor-kosmik tasvirda mavjud bo'lmagan, yaroqsiz indekslash usullarini ta'minlaydi. Shunday qilib, bu vakillik nafaqat yanada samarali qidirish imkoniyatlarini ta'minlabgina qolmay, balki bunday usullarning kengroq qatorini ham taqdim etadi.
    Muhim kuzatuv shundan iboratki, ikkita hujjat tomonidan baham ko'rilgan katta bog'langan subgraflar odatda ikkalasi tomonidan bo'lingan matn qismlariga mos keladi. Shuning uchun, hujjatlarning bir-biriga strukturaviy o'xshashligining tabiati va ko'lamini dastlabki hujjat va maqsad o'rtasida umumiy bo'lgan eng katta bog'langan komponentlar hajmini hisoblash orqali aniqlash mumkin. Bu ikkita ma'lumotlar to'plami o'rtasidagi maksimal umumiy pastki grafikni topish muammosiga teng. Bu masala haqida biroz keyinroq ko'proq gaplashamiz.
    Masofaviy grafiklarda tez-tez subgraf qazib olish: dastur
    Tez-tez subgraflarni qazib olish uchun yaqinda ishlab chiqilgan algoritmlar [ 26 , 29 ] masofaviy grafiklarning katta to'plamlariga ham qo'llanilishi mumkin. To'plamdagi katta bog'langan subgraflar korpusda tez-tez uchraydigan matn qismlariga mos keladi. Bunday matn qismlari to'plamdagi muhim matn xususiyatlariga mos kelishi mumkin. Biz shuni ta'kidlaymizki, bunday tez-tez naqsh qazib olish to'g'ridan-to'g'ri vektor-fazo modelida ham amalga oshirilishi mumkin, ammo bu samarasiz bo'lishi mumkin, chunki u ko'p sonli ajratilgan grafiklarni topishi mumkin. Boshqa tomondan, subgraf qazib olish algoritmlari [ 26 , 29] to'plamdan ko'plab ajratilgan subgraflarni kesish uchun ishlatilishi mumkin. Shu sababli, strukturaviy tasvir asosiy grafiklarda muhim matn naqshlarini aniqlash nuqtai nazaridan aniq afzalliklarga ega. To'plamdagi eng tez-tez uchraydigan matn qismlarini aniqlash uchun biz ushbu algoritmlardan foydalanishimiz mumkin. Matn bo'laklari so'zlarning aniq bo'lmaganligi sababli grafiklardan aniq qayta tuzilmasligi mumkin bo'lsa-da, umumiy tuzilma hali ham pastki tartibli masofaviy grafiklardan xulosa chiqarish mumkin.GbittaGbittavaG2G2. Shu bilan birga, bunday pastki tartibli masofaviy grafiklar qayta ishlash uchun samarali va amaliy bo'lib qolmoqda.

    Download 274.78 Kb.

    Do'stlaringiz bilan baham:
  • 1   ...   5   6   7   8   9   10   11   12   ...   16




    Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
    ma'muriyatiga murojaat qiling