Matnni qayta ishlash uchun grafik modellar tomon


-rasm Masofa grafigining tasviri (2-tartibning yo'naltirilmagan grafigi) To'liq o'lchamdagi rasm


Download 274.78 Kb.
bet8/16
Sana23.12.2022
Hajmi274.78 Kb.
#1044664
1   ...   4   5   6   7   8   9   10   11   ...   16
Bog'liq
Matnni qayta ishlash uchun grafik modellar tomon

2-rasm

Masofa grafigining tasviri (2-tartibning yo'naltirilmagan grafigi)
To'liq o'lchamdagi rasm
Kelgusi ishda biz ushbu muammoning yo'naltirilmagan variantining afzalliklarini o'rganamiz. Keyingi bo'limda biz masofaviy grafik tasvirining qo'llanilishini muhokama qilamiz.
Masofaviy grafik tasviridan foydalanish: ilovalar
Masofaviy grafik tasvirining afzalliklaridan biri shundaki, u to'g'ridan-to'g'ri mavjud matn ilovalari yoki strukturaviy va grafik qazib olish texnikasi bilan birgalikda ishlatilishi mumkin :

  • Mavjud matn ilovalari bilan foydalanish: Hozirda mavjud matn ilovalarining aksariyati matnni ko'rsatish va qayta ishlash uchun vektor-bo'shliq modelidan foydalanadi. Ma'lum bo'lishicha, masofa grafigini vektor-fazo tasviriga ham aylantirish mumkin . Buning uchun ishlatilishi mumkin bo'lgan asosiy xususiyat shundaki, masofa grafigi siyrak va undagi qirralarning soni umumiy imkoniyatlar soniga nisbatan nisbatan kichikdir. Masofaviy grafikdagi har bir chekka uchun biz noyob "token" yoki "psevdo-so'z" yaratishimiz mumkin. Ushbu tokenning chastotasi mos keladigan chekka chastotasiga teng. Shunday qilib, yangi vektor-fazo tasviri faqat shunday psevdo-so'zlarga (shu jumladan o'z-o'zidan aylanishlarga) mos keladigan tokenlarni o'z ichiga oladi.Mavjud barcha matn ilovalari to'g'ridan-to'g'ri ushbu "chekka kengaytirilgan" vektor-fazo tasviri bilan birgalikda ishlatilishi mumkin.

  • Strukturaviy qazib olish va boshqarish algoritmlari bilan foydalaning: Ma'lumotlar bazasi adabiyotida so'nggi yillarda matnni yanada samarali qazib olish va boshqarish usullarini ta'minlash uchun asosiy tarkibiy vakillikdan foydalanadigan usullarning portlashi kuzatildi [ 5 , 24 , 26 – 31 , 33 ]. Bunday yondashuvlar ba'zan foydali bo'lishi mumkin, chunki ko'pincha ushbu yondashuv bilan aniqlangan strukturaviy vakillikni moslashtirish mumkin.

Yuqoridagi ikkala usul ham turli xil afzalliklarga ega va turli holatlarda yaxshi ishlaydi. Birinchisi mavjud matn algoritmlari bilan o'zaro ishlashda qulaylikni ta'minlaydi , ikkinchisi esa yaqinda ishlab chiqilgan strukturaviy qazib olish usullari bilan birgalikda ishlashda qulaylikni ta'minlaydi.. Yana shuni ta'kidlaymizki, masofaviy grafiklarning vektor-fazoviy ko'rinishlari xom matndagidan kattaroq bo'lsa-da, hujjatdagi tokenlarning haqiqiy soni odatda asl tasvirdan atigi 4-5 baravar ko'p. Bu matnni qayta ishlash algoritmlarini sekinlashtirsa-da, sekinlashuv zamonaviy kompyuterlar bilan bartaraf etib bo'lmaydigan to'siq bo'lib qoladigan darajada katta emas. Quyida biz ba'zi umumiy matn qazib olish usullarini va bunday stsenariylar bilan masofaviy grafik tasviridan foydalanish oqibatlarini muhokama qilamiz.
Klasterlash algoritmlari
Matnni klasterlashning eng mashhur va samarali usullari [ 2 , 4 , 10 , 21 , 25 , 32 ] urugʻga asoslangan iterativ yoki aglomerativ klasterlashdagi oʻzgarishlardir. Keng g'oya urug'lar guruhidan boshlash va asosiy ma'lumotlardan klasterlarni yaratish uchun takroriy takomillashtirishdan foydalanishdir. Masalan, [ 21 ] dagi texnikada ning oʻzgarishi qoʻllaniladikk-har bir iteratsiyada urug'larga hujjatlar biriktirilgan algoritmlarni klasterlash demakdir. Ushbu tayinlangan hujjatlar jamlanadi va keyingi iteratsiya uchun urug'larni yaratish uchun past chastotali so'zlar prognoz qilinadi. Hujjatlarni urug'larga belgilash barqarorlashguncha, bu jarayon har bir iteratsiyada takrorlanadi. Biz to'g'ridan-to'g'ri masofa grafigining vektor-fazo tasvirida aynan bir xil algoritmdan foydalanishimiz mumkin. Bunday holda, qo'shimcha algoritmik qayta ishlash kerak emas. Biz shunchaki bir xil algoritmdan foydalanamiz, faqat grafikdagi qirralarning chastotasi asl hujjatdagi so'zlarning chastotalari o'rnini bosuvchi sifatida ishlatiladi. Bundan tashqari, EM klasterlash algoritmi kabi boshqa algoritmlar masofaviy grafik tasviriga moslashtirilishi mumkin. Bunday holda, biz takroriy ehtimollik protseduralarini bajarish uchun masofa grafigining chekkalaridan (alohida so'zlardan ko'ra) foydalanamiz. Qaysidir ma'noda, grafikning qirralarini soxta so'zlar deb hisoblash mumkin, va EM protsedurasi hech qanday o'zgarishsiz qo'llanilishi mumkin. Ikkinchi yondashuv - to'g'ridan-to'g'ri strukturaviy tasvirdan foydalanish va to'plamdagi tez-tez uchraydigan naqshlarni qazib olish orqali klasterlarni aniqlash va ularni asosiy hujjatlarning bo'limlarini yaratish uchun ishlatishdir [ 5 ]. Masalan, "Yaponiyada zilzila sodir bo'ldi" yoki "Yaponiyada zilzila" matnining ma'lum bir qismi matnda juda tez-tez uchraydi. Bunday holda, bu "zilzila", "ro'y bergan" va "yaponiya" so'zlarini o'z ichiga olgan ma'lum bir masofa subgrafining tez-tez paydo bo'lishiga olib keladi. Natijada tez-tez subgraflar qazib olinadi. Bu ularning ichiga o'rnatilgan matnning o'xshash qismlarini o'z ichiga olgan klasterlarni qazib olishga moyil bo'ladi.
Tasniflash algoritmlari
Klasterlash algoritmlarida bo'lgani kabi, masofaviy grafik tasviri ham tasniflash algoritmlari bilan birgalikda ishlatilishi mumkin. Masofaviy grafiklarning vektor-fazo tasviridan to'g'ridan-to'g'ri ma'lum matn tasniflagichlarining ko'pchiligi bilan birgalikda foydalanishimiz mumkin. Ba'zi misollar quyida keltirilgan:
1   ...   4   5   6   7   8   9   10   11   ...   16




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling