Matnni qayta ishlash uchun grafik modellar tomon


-rasm Turli ma'lumotlar to'plamlarida klasterlash natijalarining entropiyasi. a


Download 274.78 Kb.
bet12/16
Sana23.12.2022
Hajmi274.78 Kb.
#1044664
1   ...   8   9   10   11   12   13   14   15   16
Bog'liq
Matnni qayta ishlash uchun grafik modellar tomon

7-rasm

Turli ma'lumotlar to'plamlarida klasterlash natijalarining entropiyasi. a 20 Newsgroup, b Reuters 21578 R8, c WebKB
To'liq o'lchamdagi rasm
Shuningdek, biz turli xil klasterlash usullarining samaradorligini turli ma'lumotlar to'plamlarida masofaviy grafik tasvirlash tartibini oshirish bilan sinab ko'rdik. 20 ta yangilik guruhi, Reuters-21758 R8 va WebKB ma'lumotlar to'plamlari natijalari mos ravishda 8 - rasmda a-cda ko'rsatilgan. Masofa grafigining tartibi rasmda ko'rsatilganXX-eksa, ish vaqti esa rasmda ko'rsatilganYY-o'q. Masofa grafigining tartibi bilan ish vaqti asta-sekin o'sib borishi aniq. Ishlash vaqtidagi chiziqli o'sish - bu usulni qo'llash natijasida olingan natijalarning sifati yuqori bo'lganligi sababli maqbul kelishuvdir. Bundan tashqari, eng samarali natijalar pastki tartibli masofaviy grafiklar yordamida olinganligi sababli, bu usuldan foydalanish samaradorlikni sezilarli darajada pasaytirmasdan sezilarli afzalliklarni ta'minlaydi.
8-rasm

Turli ma'lumotlar to'plamlarida klasterlash samaradorligi. a 20 Newsgroups, b Reuters 21578 R8, c WebKB
To'liq o'lchamdagi rasm
O'xshashlik qidirish ilovasi
Shuningdek, biz o'xshashlikni qidirish ilovasida masofaviy grafik taqdimotimizning samaradorligini sinab ko'rdik. Masofa grafigi tasviri uchun biz o'xshashlik o'lchovidan foydalandik, bu tenglamaning chastotali o'lchangan versiyasi bilan aniqlangan chetga asoslangan strukturaviy o'xshashlikda kosinusdan foydalanadi. 1. Biz yondashuvimiz samaradorligini (standart) vektor-fazo tasvirlari, jumladan unigram, bigram va trigramma bilan solishtirdik. Matnni tasniflash holatiga o'xshab, biz hujjatlarning har birini mos ravishda bigram modeli va trigram modeli xatti-harakatlarini taqlid qilish uchun matn korpusidan olingan eng tez-tez uchraydigan 100 dublet va triplet bilan to'ldiramiz. O'xshashlikni qidirishning asosiy muammosi qidiruv natijalari sifatini turli xil tasvirlardan foydalanish bilan taqqoslash uchun ishlatiladigan ko'rsatkichni tanlashdir. Sifatli samaradorlikni o'lchash uchun biz sinfni tozalash texnikasi deb ataladigan usuldan foydalandik . Biz ma'lumotlar to'plamidan sinf o'zgaruvchilarini olib tashladik va topdikk = 30k=o'ttizturli o'xshashlik usullaridan foydalangan holda ma'lumotlar to'plamidagi yozuvlarning har biriga eng yaqin qo'shnilar. Har bir holatda, biz ko'pchilik sinf maqsadli hujjatning sinf o'zgaruvchisiga mos keladigan yozuvlar sonini hisoblab chiqdik. Agar o'xshashlik usuli kamsituvchi kuchga ega bo'lsa, u bir-biriga bog'liq bo'lmagan yozuvlarga mos kelishi mumkin va sinf o'zgaruvchilarining mosligi ham yomon bo'lishi mumkin. Shuning uchun biz texnikamizning samaradorligi uchun o'rinbosar sifatida sinf o'zgaruvchilarining moslashuvidan foydalandik. WebKB ma'lumotlar to'plami va Reuters-21578 R8 ma'lumotlar to'plami uchun natijalar 1 -jadvalda ko'rsatilgan. . Ko'rinib turibdiki, aksariyat hollarda o'xshashlikni qidirish sifati yuqori tartibli masofaviy grafiklar uchun yaxshiroqdir. Ushbu quyi tartibli tasvirlar uchun natijalar juda ishonchli edi va barcha unigram, bigram va trigramlar uchun vektor-fazo tasvirlaridan aniq afzalliklarni ta'minladi. Shunday qilib, ushbu maqolaning natijalari shuni ko'rsatadiki, masofaviy grafiklarning yangi modellaridan foydalangan holda matnni qayta ishlash algoritmlarining sifati va samaradorligini oshirish mumkin.

Download 274.78 Kb.

Do'stlaringiz bilan baham:
1   ...   8   9   10   11   12   13   14   15   16




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling