Matnni qayta ishlash uchun grafik modellar tomon


Download 274.78 Kb.
bet1/16
Sana23.12.2022
Hajmi274.78 Kb.
#1044664
  1   2   3   4   5   6   7   8   9   ...   16
Bog'liq
Matnni qayta ishlash uchun grafik modellar tomon


Matnni qayta ishlash uchun grafik modellar tomon

  • Charu C. Aggarval va

  • Peixiang Zhao 

Bilim va axborot tizimlari hajmi 36 , sahifalar1–21 ( 2013 ) Ushbu maqoladan iqtibos keltiring

  • 717 kirish

  • 22 Iqtibos

  • Ko'rsatkichlartafsilotlar

Abstrakt
Butunjahon Internet tarmog'ining tez tarqalishi matnning axborotni tarqatish vositasi sifatida ahamiyati va tarqalishini oshirdi. So'nggi yillarda klasterlash, tasniflash, indekslash va o'xshashlikni qidirish kabi turli xil matn qazib olish va boshqarish algoritmlari ishlab chiqilgan. Ushbu ilovalarning deyarli barchasi matnni ko'rsatish va tahlil qilish uchun taniqli vektor-fazo modelidan foydalanadi. Vektor-kosmik model o'zini kon maqsadlarida samarali va samarali tasvirlash ekanligini isbotlagan bo'lsa-da, u vakillikdagi so'zlarning tartibi haqida ma'lumotni saqlamaydi. Ushbu maqolada biz masofaviy grafik tasvirlar tushunchasi bilan tanishamizmatn ma'lumotlari. Bunday tasvirlar grafiklardagi so'zlar orasidagi nisbiy tartib va ​​masofa haqidagi ma'lumotlarni saqlaydi va asosiy ma'lumotlarning jumla tuzilishi nuqtai nazaridan ancha boyroq tasvirni beradi. Grafik qazib olish sohasidagi so'nggi yutuqlar va zamonaviy kompyuterlarning apparat imkoniyatlari bizga matnning yanada murakkab tasvirlarini qayta ishlashga imkon beradi. Biz bunday yondashuv sifat nuqtai nazaridan aniq afzalliklarga ega ekanligini ko'ramiz. Ushbu yondashuv matndan bilimlarni kashf qilish imkonini beradi, bu sof vektor-fazo tasviridan foydalanish bilan mumkin emas, chunki u asosiy so'zlarning tartibi haqida kamroq ma'lumotni yo'qotadi. Bundan tashqari, ushbu vakillik konchilik va boshqaruvning yangi usullarini ishlab chiqishni talab qilmaydi.matn uchun barcha mavjud vositalar . Bundan tashqari, grafik va XML ma'lumotlari uchun mavjud texnikalar ushbu yangi vakillik bilan bevosita ishlatilishi mumkin. Shunday qilib, ushbu tasvirni qayta ishlash uchun algoritmlarning ancha keng spektri mavjud. Biz ushbu texnikani turli konchilik va boshqaruv ilovalariga qo'llaymiz va uning afzalliklari va asosiy matn hujjatlarining tuzilishini o'rganishda boyligini ko'rsatamiz.
Urganch davlat universiteti tomonidan taqdim etilgan
Kirish
Butunjahon Internet, ijtimoiy tarmoqlar va blogosfera kabi turli xil Internet ilovalari tufayli matnni boshqarish va qazib olish algoritmlariga so'nggi yillarda qiziqish ortib bormoqda. Eng umumiy shaklda matn ma'lumotlari satrlar sifatida ifodalanishi mumkin, ammo samarali qayta ishlash uchun soddalashtirilgan tasvirlar qo'llaniladi. Matnning eng keng tarqalgan tasviri vektor-fazoli tasvirdir [ 20 ]. Vektor-bo'shliq tasviri har bir hujjatga tartibsiz "so'zlar sumkasi" sifatida qaraydi. Vektor-makon tasviri soddaligi tufayli juda samarali bo'lsa-da, faqat alohida so'z ko'rinishlari shaklida qo'llanilganda, hujjatdagi so'zlarning tizimli tartibi haqidagi ma'lumotni yo'qotadi.
Ko'pgina ilovalar uchun "tartibsiz so'zlar sumkasi" ko'rinishi analitik tushunchalar uchun etarli emas. Bu, ayniqsa, hujjatning tuzilishi asosiy semantikada asosiy rol o'ynaydigan nozik ilovalar uchun to'g'ri keladi. Vektor-fazo tasvirining afzalliklaridan biri shundaki, uning soddaligi to'g'ridan-to'g'ri ishlov berishga yordam beradi. Vektor-makon tasvirining samaradorligi uning turli xil matnlarni qayta ishlash ilovalari uchun tanlagan texnikasi bo'lib qolishining asosiy sababi bo'ldi. Boshqa tomondan, vektor-fazo tasviri juda yo'qotilganchunki u hujjatdagi so'zlarning tartibi haqida mutlaqo ma'lumotni o'z ichiga olmaydi. Ushbu maqolaning maqsadlaridan biri ma'lumotlarni qayta ishlash uchun moslashuvchanligi va samaradorligini yo'qotmasdan, hujjatdagi so'zlar orasidagi tartib ma'lumotlarining kamida bir qismini saqlaydigan vakillikni loyihalashdir.
Qayta ishlash samaradorligi cheklovi matnning yanada boy tasvirlarini ishlab chiqishda qiyin bo'lib qolsa-da, so'nggi yillarda turli xil apparat va dasturiy ta'minot yutuqlari tufayli bu cheklovni engish osonroq bo'ldi:

  • Ish stoli mashinalarining hisoblash quvvati va xotirasi so'nggi o'n yil ichida kattalik tartibidan ko'proq oshdi. Shu sababli, yanada murakkab vakillar bilan ishlashning iloji bo'ldi.

  • Ma'lumotlar bazasi hamjamiyati grafiklar va XML ma'lumotlari [ 1 ] kabi turli strukturaviy ko'rinishlarni boshqarish va qazib olishda ulkan algoritmik va dasturiy ta'minot yutuqlarini ko'rdi . So'nggi o'n yil ichida indekslash [ 24 , 27 , 28 , 31 , 33 ], klasterlash [ 5 ] va tasniflash [ 30 ] kabi strukturaviy va grafik ma'lumotlar uchun konchilik va boshqaruv ilovalari atrofida katta infratuzilma qurildi . Ushbu infratuzilma matnning strukturaviy ko'rinishlaridan foydalangan holda ishlatilishi mumkin.

Ushbu maqolada biz matn ma'lumotlarini ifodalash va qayta ishlash uchun grafik modellarni loyihalashtiramiz. Xususan, biz masofaviy grafiklar tushunchasini aniqlaymiz, bu hujjatni alohida so'zlar orasidagi masofalar bo'yicha ifodalaydi. Keyinchalik, konstruktiv vakillikdan foydalangan holda bir nechta kon va boshqaruv dasturlarini o'rganamiz. Biz shuni ko'rsatamizki, bunday vakillik yanada samarali qayta ishlashga imkon beradi va yuqori sifatli tasvirlarni beradi. Bu asosiy ma'lumotlarning xatti-harakatlari haqida boy ma'lumotlarni saqlab qolishi mumkin. Tarkibiy ma'lumotlarning bunday boy darajasi ikkita afzalliklarni berishi mumkin. Birinchidan, u ko'proq yo'qotilgan vektor-makon tasviri bilan mumkin bo'lmagan ilovalarni ishga tushiradi. Ikkinchidan, boyroq vakillik mavjud ilovalar bilan yuqori sifatli natijalar beradi. Aslida, biz talab qilinadigan yagona qo'shimcha ish asosiy tasvirni o'zgartirish ekanligini ko'ramiz va barcha mavjud matn ilovalari bevosita ishlatilishi mumkin.tuzilgan ma'lumotlarning vektor-fazo tasviri bilan. Biz yondashuvning samaradorligini ko'rsatadigan bir qator haqiqiy ma'lumotlar to'plamlari bo'yicha eksperimental natijalarni taqdim etamiz.
Ushbu qog'oz quyidagicha tashkil etilgan. Keyingi bo'limda biz masofaviy grafiklar tushunchasini va natijada olingan grafiklarning ba'zi xususiyatlarini o'rganamiz. Sektda. 3 , biz turli konchilik va boshqaruv ilovalari uchun masofaviy grafiklardan qanday foydalanishni ko'rsatamiz. 4 -bo'limda eksperimental natijalar muhokama qilinadi. Xulosa va xulosalar bo'limda keltirilgan. 5 .
Masofa grafiklari
Ushbu bo'limda biz masofaviy grafiklar tushunchasi bilan tanishamiz, bu grafik paradigma bo'lib, uni qayta ishlash uchun samarali matn tasviri bo'ladi. Vektor-bo'shliq tasviri so'zlarning tartiblanishi haqida hech qanday ma'lumotga ega bo'lmasa-da, qator ko'rinishi barcha tartib ma'lumotlarini saqlashda spektrning boshqa uchida joylashgan. Masofa grafiklari - bu hujjatdagi so'zlar orasidagi tartib va ​​masofa haqida yuqori darajadagi ma'lumotlarni saqlaydigan tabiiy oraliq tasvir. Shu bilan birga, masofaviy grafiklarning tizimli tasviri uni matnni qayta ishlash uchun samarali tasvirga aylantiradi. Masofa grafiklari saqlanadigan masofaviy ma'lumotlar darajasiga qarab turli xil tartiblarda bo'lishi mumkin. Xususan, tartibning masofaviy grafiklarikkeng ko'p masofada joylashgan so'z juftlari haqidagi ma'lumotlarni saqlab qolishkkasosiy hujjatda. Masofa grafigini quyidagicha aniqlaymiz:

Download 274.78 Kb.

Do'stlaringiz bilan baham:
  1   2   3   4   5   6   7   8   9   ...   16




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling