Texnologiyalari universiteti “Ma'lumotlarning intellektual tahlili” fani Mustaqil ish Mavzu


-jadval. Qog'oz havolalari bilan spam elektron pochta filtrlashda eng ko'p ishlatiladigan tasniflagichlar


Download 1.35 Mb.
bet12/15
Sana23.04.2023
Hajmi1.35 Mb.
#1388517
1   ...   7   8   9   10   11   12   13   14   15
Bog'liq
Pochta xabarlarini intellectual

2-jadval. Qog'oz havolalari bilan spam elektron pochta filtrlashda eng ko'p ishlatiladigan tasniflagichlar
Chuqur o'rganish usullarining o'sishiga qaramay, an'anaviy algoritmlar (Dedeturk va Akay 2020 ; Gibson va boshq. 2020 ; Méndez va boshq. 2019 ; Saidani va boshq. 2020 ) hali ham spam elektron pochtani filtrlash sohasida yetakchilik qilmoqda (Faris va boshq. 2019 ; Sumathi) . va Pugalendhi 2020 ). Buning sabablaridan biri an'anaviy tasniflagichlarga asoslangan oddiyroq modellar bilan erishilgan yuqori samaradorlik bo'lishi mumkin (Ferrara 2019).). Bundan tashqari, bu amaliy dastur bo'lib, unda modelning og'irligi va har qanday muhitga moslashish qobiliyati muhim rol o'ynaydi. Hozirgacha chuqur o'rganish modellari og'irroq bo'lib, ko'proq hisoblash resurslarini talab qiladi, bu esa ushbu amaliy dastur uchun an'anaviy mashinani o'rganish algoritmlarining uzluksizligiga foyda keltiradi (Barushka and Hajek 2018 ).
3- jadvalda ushbu tadqiqotlarda qayd etilgan aniqlik va F1 ball ko'rsatkichlari hamda tavsiya etilgan tasniflash modeli jamlangan. Shuningdek, u adabiyotda eng ko'p qo'llaniladigan ma'lumotlar to'plamida baholangan har bir usulning samaradorligini ta'kidlaydi.
3-jadval. Adabiyotda chop etilgan va 2000-yillarning o'n yilligidagi ma'lumotlar to'plamida baholangan uch yillik spam elektron pochta filtrlarining aniqligi (Acc) va F1-ball (F1) bo'yicha natijalar
Umuman olganda, modellarning aksariyati yuqoridagi aniqlik haqida xabar beradi90 %90%, ular yaxshi ma'lum va tegishli ommaviy spam elektron pochta ma'lumotlar to'plamida baholanganda. Shunga qaramay, ushbu dalda beruvchi tadqiqotlar ma'lumotlar to'plamining o'zgarishi va spamerlarning qarama-qarshi ma'lumotlarini manipulyatsiyasi masalasini e'tiborsiz qoldiradi. Tahlil qilingan modellar 2018 va 2020 yillar oralig'ida nashr etilgan, ammo ular 2000 yildan 2010 yilgacha to'plangan elektron pochta xabarlari yordamida kalibrlangan va baholangan. Shuning uchun ular spam elektron pochta o'zgaruvchan muhit ekanligi masalasini e'tibordan chetda qoldiradilar. Ushbu ma'lumotlar to'plamlari vakil bo'lmasligi mumkin, chunki ular tez rivojlanib, vaqt o'tishi bilan orqaga qaytadigan spamer strategiyalarining joriy doirasini to'liq qamrab olmaydi.
Kirish va chiqishlarning birgalikda taqsimlanishi statsionar degan umumiy taxmin, spamni filtrlash kabi ma'lumotlar to'plamining siljishidan qattiq ta'sirlangan ilovalarda umumlashtirishning muhim yo'qolishiga olib keladi. Ushbu muammoni hal qilish uchun Mohammad ( 2020 ) da yangi tasniflash modelini yaratish uchun ma'lumotlar to'plami bo'limlari sonini avtomatik ravishda sozlash uchun umrbod model taqdim etilgan .
Nihoyat, Ferrara ( 2019 ) spamni aniqlash bo'yicha zamonaviy tadqiqotlar yopiq parda ortida ekanligini ta'kidladi. Garchi Microsoft va Google kabi kompaniyalar o'z tizimlarini oshkor qilmaslik uchun spamni filtrlash bo'yicha tadqiqotlarni tez-tez nashr etmasalar ham, spamchilar zamonaviy adabiyotlardan spam filtrlash va joriy ilovalarda o'rnatilgan amaliy filtrlarning xatti-harakatlari haqida etarli ma'lumot olishadi.

4.2 Matnli kodlovchilar


Ba'zan, biz Sektda ko'rsatganimizdek. 3.1 , spamerlar filtrlarni chalkashtirib yuborish uchun spam matnli xabarini zaharlash uchun tasodifiy, qonuniy, hiyla-nayrang yoki foydasiz so'zlarni kiritadilar. Ushbu manipulyatsiya matnli va semantik xususiyatlar sonini ko'paytiradi, ular matn kodlovchilariga asoslangan filtrlarning prognozli ishlashiga, ishlov berish uchun hisoblash vaqtiga va xotira resurslariga salbiy ta'sir ko'rsatishi mumkin. Oldindan ishlov berish va xususiyatlarni ajratib olish bajarish vaqtida muhim rol o'ynaydi va tasniflash aniqligi bir nechta tadqiqot ishlarining maqsadi bo'lib kelgan (Bahgat va boshq. 2018 ; Diale va boshq. 2019 ; Saidani va boshq. 2020 ).
Oldindan ishlov berish bosqichi to'xtash so'zlari, takrorlangan tarkib yoki maxsus belgilar kabi keraksiz matnni olib tashlashga harakat qiladi. Ilova maydoniga qarab, u stemming va lemmatizatsiya usullarini va veb-sahifalar, elektron pochta manzillari yoki bitcoin hamyonlari kabi ob'ektlarni aniqlashni o'z ichiga olishi mumkin (Sanghani and Kotecha 2019 ). Ushbu qadam dastur maydonining xususiyatlariga qarab moslashtirilishi kerak (Al Nabki et al. 2020 ), masalan, spam muhitida; u mumkin bo'lgan raqib manipulyatsiyasiga ega bo'lishi mumkin (Kuchipudi va boshq. 2020 ).
Oldindan ishlov berish bosqichidan so'ng, matn keyinchalik tasniflagichni ta'minlaydigan raqamli vektorga aylantiriladi. Aksariyat antispam filtrlari elektron pochta xabarining semantik ma'nosini vektorga (Diale et al. 2019 ) ko'rsatish uchun atamalar soni va chastotaga asoslangan xususiyat usullaridan foydalanadi , masalan, BOW (Bhowmick and Hazarika 2018 ; Saidani) va boshq. 2020 ) yoki TF-IDF (Barushka va Hajek 2018 ; Bhowmick va Hazarika 2018 ; Dedeturk va Akay 2020 ; Diale va boshq. 2016 ; Gibson va boshq. 2020 ; Sumathi va Pugalendhi 2020 ).
Biroq, TF-IDF yoki BOW so'z tartibini yoki kontekstni ushlamaydi va yuqori o'lchamli vektorlarni yaratishga moyildir. Har bir elektron pochta uchun sobit uzunlikdagi raqamli vektor bilan mumkin bo'lgan eng kichik o'lchamli xususiyat maydonini ta'minlash uchun Diale va boshqalar. ( 2019 ) tarqatish BOW va taqsimlangan Xotira yordamida vektor fazo modelini yaratadi. Xususiyat vektorlarining fazo va vaqt murakkabligini kamaytirish uchun Bahgat va boshqalar. ( 2018 ) WordNet ontologiyasidan foydalangan holda semantik asoslangan usullar va o'xshashlik o'lchovlarini qo'llagan, bu esa olingan matn xususiyatlari sonini kamaytiradi. Méndez va boshqalar. ( 2019) faqat so'zlarni emas, balki mavzular bo'yicha xabarlar bo'yicha bilimlarni guruhlashning qisqartirilgan xususiyat maydonini yaratish uchun semantik asoslangan yondashuv va WordNet ontologiyasidan foydalangan. Semantik tahlilga asoslangan usul Saidani va boshqalar tomonidan taklif qilingan. ( 2020 ) spam xatlarni aniqlash uchun. Ularning maqsadi jambon va spam elektron pochta xabarlarini oldindan belgilangan domenlarga ajratish va keyin har bir domen uchun semantik xususiyatlarni ajratib olish edi.
Chastotali kodlovchilardan farqli o'laroq, so'zlarni joylashtirish usullari o'xshash kontekstli so'zlar vektor fazosida yaqinroq va bog'liq bo'lishiga asoslanadi. Modellar tabiiy til lug'ati va ularning so'zlar o'rtasidagi munosabati bo'yicha o'qitiladi. So'zni o'rnatish Word2vec (Mikolov va boshq. 2013a , b ) kabi prekursorlardan kontekstli tilni joylashtirishga, masalan, ElMo (Peters et al. 2018 ) va keyin Devlin va boshqalar kabi transformatorlarga aylandi. ( 2018 ), RoBERTa (Liu va boshq. 2019 ) yoki GPT-3 (Brown va boshq. 2020 ).
Spam elektron pochtani filtrlashda so'zlarni joylashtirish usullarini muvaffaqiyatli qo'llaydigan ilmiy maqolalar soni juda cheklangan (Saidani et al. 2020 ; Srinivasan et al. 2021 ). Bunga sabab bo'lgan ba'zi sabablar quyidagilardir: (i) spam muhitida paydo bo'ladigan so'zlar soni oddiy tabiiy til lug'atiga qaraganda ko'proq, chunki spamerlar tomonidan chalkash yoki noto'g'ri yozilgan so'zlar va (ii) chastota va semantikaga asoslangan usullar allaqachon ko'rsatilgan. aftidan, yuqori ishlash. Biroq, so'zlarni joylashtirish yondashuvlari til sifati va noaniq ma'lumotlar va spamerlar foydalanuvchilarni chalg'itish uchun yuboradigan o'ta sentimental xabarlar bilan bog'liq spamer strategiyalarini aniqlash uchun kuchli vositadir.

4.3 Xususiyatlarni tanlash


Xususiyatlarni tanlash ko'plab tasniflash muammolarida, xususan, katta miqdordagi ahamiyatsiz, shovqinli va ortiqcha xususiyatlarni o'z ichiga olishi mumkin bo'lgan yuqori o'lchamli ma'lumotlar to'plamiga ega bo'lganlarda muhim bosqichdir (Vinitha and Renuka 2020 ) .
O'quv ma'lumotlar to'plamining hajmi o'lchovlar soni bilan eksponent ravishda o'sib borishi haqidagi mashhur bayonotdir (Méndez et al. 2019 ).
Xususiyatlarni tanlash usullari, Cai va boshqalar kabi spamni filtrlash uchun ko'plab afzalliklarni berishi mumkin. ( 2018 ): (a) xususiyatlarning maqbul to'plamini tanlash orqali tasniflash samaradorligini yaxshilash va (b) tezroq va tejamkor spam filtrlarini olish. Ham samaradorlik, ham hisoblash narxi spam elektron pochtani filtrlash ilovalari uchun muhim talablardir.
Bir nechta ishlar elektron pochta spamlarini tasniflash uchun o'lchamlarni kamaytirish muammosini ko'rib chiqdi (qarang: Vinitha va Renuka 2020 va undagi havolalar). Ular asosan matnlarni tasniflash yondashuvlariga, ya'ni sonli vektorlarga kodlangan matnga qaratilgan.
Xususiyatlarni tanlash usullari ma'lum bir o'lchov bo'yicha xususiyat yoki xususiyatlar to'plamining dolzarbligini baholaydi. Spam muhitida xususiyatlarni tanlashning an'anaviy nuqtai nazari - ma'lumot olish yoki Chi-kvadrat (Diale va boshq. 2016 ; Rehman va boshq. 2017 ) kabi klassik statistik usullardan yoki Infinite Latent Feature Selection (Bassiouni va boshqalar) kabi so'nggi usullardan foydalanishdir. 2018 ) . Boshqa yondashuvlar genetik algoritm (Gibson va boshq. 2020 ; Hong va boshq. 2015 ), Sun'iy asalarilar koloniyasi (Dedeturk va Akay 2020 ) yoki Zarrachalar to'dasini optimallashtirish (Gibson va boshq. 2020 ; Zav26 va boshqalar) kabi evristik algoritmlarni o'z ichiga oladi.). Shuningdek, NN kabi mashina oʻrganish algoritmlari (M. va boshq. 2012 ) bilan evristik yondashuvga qoʻshilishga asoslangan gibrid modellar ham mavjud, masalan, Genetik algoritm va tasodifiy vaznli tarmoq (Faris va boshq. 2019 ) yoki zarrachalar toʻdasini optimallashtirish va radial asos funksiyasi NN. kombinatsiya (Awad va Foqaha 2016 ; Sumathi va Pugalendhi 2020 ).
Statistik, evristik yoki gibrid usullardan tashqari, so'zlar orasidagi semantik o'xshashlikni hisobga oladigan boshqa semantik yondashuvlar taklif qilingan (Bahgat et al. 2018 ; Méndez et al. 2019 ). Shunday qilib, Bahgat va boshqalar. ( 2018 ) semantik munosabatlar va semantik o'xshashlik o'lchovlarini hisobga olgan holda qisqartiruvchi o'lchovli bo'shliqda siqilgan xususiyatlar. Méndez va boshqalar. ( 2019 ) funksiyalar sonini sezilarli darajada kamaytirgan so‘zlar o‘rniga mavzular yordamida spamlarni filtrlash uchun mavzuga asoslangan semantik xususiyat selektorini ishlab chiqdi.
Raqibning, ya'ni spamerning mavjudligi elektron pochtadan olingan xususiyatlar ifloslangan bo'lishi mumkinligini anglatadi. Shunday qilib, xususiyat tanlash, shuningdek, ma'lumotlarni manipulyatsiya qilish strategiyalarining o'ziga xos taxminlarini o'z ichiga olgan tasodifiy va umumiy so'zlar kabi qochish hujumlariga qarshi spam elektron pochta tasniflagichining xavfsizligini oshirishi mumkin (Zhang et al. 2016 ) . Xususiyatlar to'plamini doimiy ravishda qayta sozlash uchun bir nechta harakatlar qilindi (Diale et al. 2019 ; Sanghani and Kotecha 2019 ). Shunday qilib, Sanghani va Kotecha ( 2019) yangi tegishli xususiyatlarni avtomatik ravishda aniqlash uchun diskriminatsiya funktsiyasi va evristik funktsiyani yangilashi mumkin bo'lgan xususiyat selektori uchun qo'shimcha o'rganish mexanizmini taqdim etdi, bu esa shaxsiylashtirilgan elektron pochta spam filtrlarini yanada mustahkam qiladi. Diale va boshqalarda. ( 2019 ), mualliflar Autoencoders asosida nazoratsiz xususiyatlarni o'rganishni ishlab chiqdilar.

5 Ikkilik spam elektron pochta tasnifini eksperimental o'rganish


Ushbu bo'limda biz turli vaqtlarda turli manbalardan to'plangan beshta elektron pochta ma'lumotlar to'plami bilan sozlangan to'rtta spam filtrini baholaymiz. Oldingi tadqiqotlar ushbu ma'lumotlar to'plamidagi spam-filtrlarning yuqori ishlashi haqida xabar beradi. Bizning maqsadimiz spam-filtrlar o'rganish uchun foydalaniladigan ma'lumotlar to'plamidan elektron pochta xabarlarini toifalarga ajratish uchun qo'llanilganda o'zlarining umumlashtirish ko'rsatkichlarini saqlab qoladimi yoki yo'qligini aniqlashdir. Bizning dastlabki gipotezamiz shundan iboratki, filtrning ishlashi spam elektron pochta ma'lumotlar to'plamiga xos bo'lgan ma'lumotlar to'plamini o'zgartirish va spamer strategiyalari natijasida yomonlashadi.
Ushbu bo'lim quyidagicha tashkil etilgan: Maqsad. 5.1 eksperimentda foydalanilgan ma'lumotlar to'plamini taqdim etadi. Eksperimental sozlamalar bo'limda keltirilgan. 5.2 va nihoyat, turli stsenariylarning ishlashi Sektda muhokama qilinadi. 5.3 .

5.1 Spam elektron pochta ma'lumotlar to'plami


Adabiyotda taqdim etilgan spam-elektron pochtani filtrlashning yangi modellarini o'rgatish va sinovdan o'tkazish uchun foydalaniladigan ommaviy ma'lumotlar to'plamining aksariyati 2000 va 2010 yillar oralig'iga to'g'ri keladi. Tajribamizni rivojlantirish uchun biz spam va jambon elektron pochta xabarlarini o'z ichiga olgan beshta taniqli ma'lumotlar to'plamini tanladik. bir necha yillik farq bilan davrlarni qamrab olish imkonini beradi. Ushbu ma'lumotlar to'plami: Ling-Spam Androutsopoulos va boshqalar. ( 2000 ), SpamAssassinIzoh5 (Loyiha 2005 ), Enron-Spam (Metsis va boshq. 2006 ), TREC07 (Cormack ( 2007 )) va CSDMS 2010.Izoh6
1   ...   7   8   9   10   11   12   13   14   15




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling