Texnologiyalari universiteti “Ma'lumotlarning intellektual tahlili” fani Mustaqil ish Mavzu
-jadval. Tajribalarimiz uchun tanlangan ommaviy ma'lumotlar to'plamining asosiy xarakteristikasi
Download 1.35 Mb.
|
Pochta xabarlarini intellectual
4-jadval. Tajribalarimiz uchun tanlangan ommaviy ma'lumotlar to'plamining asosiy xarakteristikasi
XulosaBiz tajribalarimizni Ubuntu 18.04 OS va Python 3 ostida 16G operativ xotiraga ega Intel(R) Core(TM) i7-7-chi avlodida o‘tkazdik. Biz har bir maʼlumot toʻplami uchun toʻrtta spam elektron pochta filtrini ishlab chiqdik, ular spam, NB va SVMni aniqlash uchun keng qoʻllaniladigan ikkita mashinani oʻrganish algoritmidan hamda ikkita matn kodlovchisi, TF-IDF va BOWdan iborat boʻlgan matn tasniflash quvuri asosida ishlab chiqdik. Biz Ling-Spam, SpamAssassin, TREC07 va CSDMC-dan hech qanday o'zgartirishlarsiz foydalandik. Enron-Spam ma'lumotlar to'plami SpamAssassin'dan elektron pochta xabarlari bo'lgan papkani o'z ichiga olganligi sababli, ikkala ma'lumotlar to'plamiga aralashmaslik uchun papkani olib tashladik. Bryus Guenter 2010-ning ulkan hajmi bilan shug'ullanish uchun biz faqat tasodifiy 50K elektron pochta xabarlarini tanladik. Va nihoyat, biz faqat 2010 va 2018 yillardagi Bryus Guenter ma'lumotlar to'plamining inglizcha elektron pochta xabarlarini hisobga oldik. Quvurlarni amalga oshirish uchun biz Scikit-Learn va NLTK dan foydalandikIzoh9 inglizcha to'xtatuvchi so'zlarni olib tashlash uchun. Oldindan ishlov berish, matnni ko'rsatish va tasniflash turli xil konfiguratsiyalarni baholashdan keyin quyidagicha o'rnatildi. Turli xil konfiguratsiyalar yordamida modellarimizni sinab ko'rganimizdan so'ng, biz quyidagi sozlamani eng mos deb hisobladik. Birinchidan, dastlabki ishlov berish bosqichida biz bitta URL-manzillar, belgilar, raqamlar, bitta harflar, to'xtatuvchi so'zlar, takrorlangan so'zlarni olib tashladik va biz elektron pochta xabarlarini tokenlashtirdik. BOW va TF-IDF matn kodlovchilari uchun biz 9000 soʻzdan iborat lugʻat hajmini va har bir soʻz uchun 3 ta minimal koʻrinishni tanladik. Tasniflash bosqichiga kelsak, biz quyida har bir model uchun parametrlarni sozlashni ko'rsatamiz va qolgan model parametrlari standart qiymatlari bilan qoldiriladi. Biz SVM modeli uchun chiziqli yadroni tanladik va C qiymati 1000 ga o'rnatildi. C parametri tasniflagichlar uchun optimallashtiruvchi hisoblanadi; past qiymat giperplane ajratishning yuqori chegarasini qidiradi. NB uchun biz Multinomial taqsimotdan foydalandik. Tasniflagichning ishlashi aniqlik va noto'g'ri ijobiy ko'rsatkich (FPR) bo'yicha xabar qilingan. Bizning maqsadimiz ma'lumotlar to'plamida sozlangan filtr turli vaqt oralig'ida to'plangan boshqa ma'lumotlar to'plamlari va spam elektron pochta manbalarida ularning umumlashtirish qobiliyatini saqlab qolishini aniqlash bo'lganligi sababli, biz baholash tartibimizni ikki qismga ajratdik. Bir tomondan, biz taxminiy umumlashtirish qiymatlarini 10 marta o'zaro tekshirish texnikasidan foydalangan holda bir xil ma'lumotlar to'plamidagi filtrni kalibrlash va baholash natijalari sifatida aniqladik. Boshqa tomondan, taxminiy qiymatlar ma'lum ma'lumotlar to'plamiga ega filtrni o'qitish va uni baholash qiymatlari deb ataladigan boshqa ma'lumotlar to'plamida sinovdan o'tkazish natijalari bilan taqqoslandi. Download 1.35 Mb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling