Texnologiyalari universiteti “Ma'lumotlarning intellektual tahlili” fani Mustaqil ish Mavzu

Download 1.35 Mb.

bet	8/15
Sana	23.04.2023
Hajmi	1.35 Mb.
	#1388517

1 ... 4 5 6 7 8 9 10 11 ... 15

Bog'liq
Pochta xabarlarini intellectual

SMTP

Simple Mail Transfer Protocol - bu elektron pochtani uzatish uchun Internet standarti aloqa protokoli. Ko'pgina internet tizimlari pochtani bir foydalanuvchidan boshqasiga o'tkazish usuli sifatida SMTP dan foydalanadi.

POP va IMAP

POP (Post Office Protocol) va IMAP (Internet Message Access Protocol) elektron pochta dasturida elektron pochta xabarlarini olishning ikki xil usulidir.

Port raqamlari

Sizning elektron pochta portingiz elektron pochta bir elektron pochta serveridan boshqasiga qanday o'tadi.

Ushbu mashhur onlayn elektron pochta provayderlarining SMTP, IMAP, POP3 elektron pochta portlari va serverlari ro'yxati

Standart/standart pochta serveri portlari

Outlook.com

Google Gmail

Office365.com

Yahoo pochtasi

Mail.com

Hotmail

AOL.com

Comcast

Jenkins serverimdagi elektron pochta xabarnomasi sozlamalari

Bundan tashqari, spam elektron pochta maydoni o'zgaruvchan muhit ekanligiga e'tibor bermaslik har qanday modelning umumlashtirilishi va ishlashining jiddiy buzilishiga olib kelishi mumkin, deb taxmin qilamiz. Shunga o'xshash g'oya Peres-Díaz va boshqalar tomonidan ilgari ishlatilgan. ( 2012 yil), mumkin bo'lgan filtrlash muammolarini taxmin qilish va ularning ishlashi davomida ishlamay qolishining oldini olish uchun baholash metodologiyasini taklif qilish. Bizning tadqiqotimizda biz ma'lumotlar to'plamlari sonini ko'paytirdik va vaqtinchalik evolyutsiyani ko'rib chiqdik. Shuning uchun, biz o'quv namunalari operatsion muhitda elektron pochta namunalari bilan bir xil taqsimotga amal qiladi deb taxmin qilish oqibatlarini baholaymiz.

Biz o'rgatadigan spam tasniflagichlari ikkita chastotali matn kodlovchilarining kombinatsiyasidan kelib chiqadi: Term chastotasi-teskari hujjat chastotasi (TF-IDF) va so'zlar to'plami (BOW), ikkita mashinani o'rganish algoritmlari: Naïve Bayes (NB) va Support Vector Machine (SVM) ), ikkalasi ham spam elektron pochta filtrlari sifatida keng qo'llaniladi. 2000 yildan 2010 yilgacha biz beshta ma'lumotlar to'plamidan foydalanamiz: Ling-Spam, SpamAssassin, Enron-Spam, TREC07 va CSDMC, turli xil spam filtrlarini kalibrlash va keyinchalik,
Qog'ozning qolgan qismi quyidagicha tashkil etilgan: Mazhab. 2 ma'lumotlar to'plamini o'zgartirish muammosining fonini va mashinani o'rganishga qarama-qarshi yondashuvni taqdim etadi. Biz Sectdagi so'nggi spamer strategiyalarini ko'rib chiqamiz. 3 va bo'limda spam elektron pochta filtrlari. 4 . 5- bo'limda ma'lumotlar to'plami tavsifi, tajriba o'rnatish, natijalar va muhokamalar mavjud. Nihoyat, Sektda. 6 , biz o'z xulosalarimizni va kelajakdagi muhim voqealarni taqdim etamiz.

2.1 Ma'lumotlar to'plamini o'zgartirish muammosi

Nazorat ostidagi ta'limning asosiy taxmini shundan iboratki, ta'lim va test ma'lumotlari bir xil (noma'lum bo'lsa-da) taqsimotda qoldi (Hand 2006 ). Biroq, bu haqiqiy stsenariylarda paydo bo'lishi mumkin bo'lgan ba'zi nomuvofiqliklar bo'lishi mumkin va natijada bu taxmin ko'pincha buziladi.
Ushbu muammo turli atamalar bilan atalgan, ya'ni ma'lumotlar to'plamining siljishi, kontseptsiyaning siljishi, kontseptsiyaning siljishi yoki shunchaki siljishi (Moreno-Torres va boshq. 2012 ; Quionero-Candela va boshq. 2009 ) va so'nggi o'n yil ichida u tobora ko'proq e'tiborni tortdi. (Biggio va Roli 2018 ; Gama va boshq. 2014 ; González-Castro va boshq. 2013 ; Liu va boshq. 2020 ; Simester va boshq. 2020 ; Webb va boshq. 2016 ).
Shuni ta'kidlash kerakki, ma'lumotlar to'plamining o'zgarishi mavjud bo'lganda, tasniflash modellari ko'pincha joylashtirish muhitida umumlashtirilmaydi va ularning ishlashi sezilarli darajada yomonlashishi mumkin (Alaiz-Rodríguez and Japkowicz 2008; Kull and Flach 2014 ). Ma'lumotlar to'plamining o'zgarishining ehtimollik taqsimotiga ta'sirining keng qamrovli tahlili Moreno-Torres va boshqalarda taqdim etilgan. ( 2012 ) va Quionero-Candela va boshqalar. ( 2009 ), shuningdek, ma'lumotlar to'plamining o'zgarishining har xil turlarini tasniflash: kovariativ siljish (xususiyatlar taqsimotining siljishi), oldingi ehtimollik siljishi (sinflardagi siljish), kontseptsiyaning siljishi (xususiyatlar va sinflar o'rtasidagi munosabatlardagi siljish) va boshqa turdagi siljish.
Ma'lumotlar to'plamini o'zgartirish muammosini yumshatish uchun turli strategiyalar taklif qilingan (Gama va boshq. 2014 ; Kadwe va Suryawanshi 2015 ; Yu va boshq. 2019 ): (i) birinchi navbatda, ma'lumotlar to'plamining o'zgarishi mavjudligini aniqlash va uni toifalarga ajratish. turli xil turlari va (ii) aniqlangan siljish bo'yicha kalibrlangan tasniflagichlar hovuzidan eng mos klassifikatorni tanlash.
Spam e-pochtalarni filtrlash turli xil mashina o'rganish yondashuvlari, jumladan NB, SVM, Tasodifiy o'rmon (RF) yoki Neyron tarmoqlari (NN) yordamida hal qilindi. Ushbu takliflarning ba'zilari yuqori ko'rsatkichlar haqida xabar berdi, ya'ni atrofida90 %90%(Bhowmick and Hazarika 2018 ; Dada va boshq. 2019 ; Ferrara 2019 ). Shunday qilib, 2020-yilda yaqinda Dedeturk va Akay ( 2020 ) ishi aniqligiga erishgan spam filtri modelini ishlab chiqdi.98,70 %98,70%. Biroq, ushbu ishda baholash uchun foydalanilgan spam va jambon xabarlar 2000-2010 o'n yil ichida yaratilgan elektron pochta misollari ma'lumotlar to'plamidan olingan. Xuddi shu narsa (Bahgat va boshq. 2018 ; Dedeturk va Akay 2020 ; Diale va boshq. 2019 ; Faris va boshq. 2019 ; Gibson va boshq. 2020 ; Naem va boshq. 2018 ; Saidani va boshq. 2020 ) uchun ham amal qiladi.). Shuni hisobga olish kerakki, spam-elektron pochta vaqt o'tishi bilan mavzularning evolyutsiyasi va spam-filtrlardan qochishni xohlaydigan spamerlar tomonidan qo'llaniladigan usullar tufayli ma'lumotlar to'plamining o'zgarishiga olib keladi. Ushbu domenda ma'lumotlar to'plamining o'zgarishi mavjudligi yuqorida keltirilgan spamga qarshi filtrlar yangi ko'rinmas misollarda kutilganidan ko'ra ko'proq ishlamay qolishi mumkinligini ko'rsatadi.
Elektron pochta spam ma'lumotlariga xos bo'lgan kontseptsiya drifti deb ham ataladigan ma'lumotlar to'plamining siljishini boshqarishning birinchi yondashuvlaridan ba'zilari dangasa o'quvchilarga tayangan (Delany va boshq. 2005; Fdez-Riverola va boshq. 2007 ). Asosan, Delany va boshqalardagi taklif. ( 2005 ) (i) har kuni tizim tomonidan noto'g'ri tasniflangan holatlarni har kunning oxirida yangilash uchun qabul qilish, (ii) tizimni vaqti-vaqti bilan qayta o'qitish va eng so'nggi holatlardan foydalangan holda xususiyatlarni qayta tanlashga asoslangan. . Boshqa ikkita texnika Fdez-Riverola va boshqalarda taqdim etilgan. ( 2007) ushbu domenda kontseptsiyaning o'zgarishini kuzatish va dangasa o'quvchidan foydalanish uchun. Birinchidan, har bir elektron pochta xabarida mavjud bo'lgan ma'lumotlarga asoslangan vakillik shartlarini tanlagan RTI (Relevant Term Identification) texnikasi. Ikkinchidan, haqiqiy kontekstni amalga oshirishdan kelib chiqqan holda, ushbu elektron pochta xabarlarini ko'proq tanlagan RMS (Representative Message Selection).
Tadqiqot (Ruano-Ordas va boshq. 2018a) bir nechta spam filtrlash muqobillarining turli zaif tomonlarini ko'rsatdi. Xususan, mualliflar kontseptsiya driftining (ya’ni, to‘satdan drift, takroriy drift, bosqichma-bosqich siljishi va incremental drift) spam-filtrlash domeniga real ta’sirining batafsil tahlilini taqdim etdilar. Ularning tadqiqoti ushbu muammo bo'yicha kontseptsiyaning siljishi bilan bog'liq ko'plab muammolarni ta'kidladi: jambon xabarlarida kontseptsiyaning siljishi, jambon va spam xabarlardagi kontseptsiyaning turli xil turlari yoki bir nechta kontseptsiyali drift turlari bo'lgan mavzular. Bundan tashqari, ular kontseptsiyaning o'zgarishining ichki sabablarini aniqladilar, masalan, biznes faoliyatidagi o'zgarishlar, vaqt bo'yicha marketing qiziqishlarining o'zgarishi, aloqa, lingvistik jihat yoki iqtisodiyot. Ushbu domenda Dinamik vaznli ko'pchilik kontseptsiyasining siljishini aniqlash (DWM-CCD) algoritmi (Nosrati va Pour 2011 )) kontseptsiyaning to'satdan va asta-sekin siljishi bilan kurashishga muvaffaq bo'ldi, ammo ma'lumotlar to'plamini almashtirishning murakkabroq stsenariylarini hal qilish uchun yaroqsiz edi.
Spam elektron pochta domenining dinamik xususiyatlari Muhammad ( 2020 ) da o'rganilgan . Mualliflarning fikriga ko'ra, tsiklik kontseptsiyaning o'zgarishi bu sohada paydo bo'ladi, chunki spam elektron pochta xabarlari uchun ishlatiladigan xususiyatlar ro'yxati har bir ma'lum vaqt oralig'ida yo'qolishi va yana paydo bo'lishi mumkin. Ushbu maqolada ansamblni o'rganish strategiyasiga asoslangan umrbod tasniflash modelini olish uchun kontseptsiyaning drifti va boshqa halokatli unutish muammolari, ya'ni spamerlarning o'tmishdagi strategiyalari ko'rib chiqildi. Ularning taklifi Early Drift Detection Method (EDDM) ga tayangan (Baena-Garcia va boshq. 2006 ).) kontseptsiyaning drifti haqiqatda sodir bo'lganligini tasdiqlash uchun va bu holda Ansamblga asoslangan umrbod tasniflash sozlanishi ma'lumotlar to'plamini bo'limlash (ELCADP) yordamida spam filtrini sinf taqsimotidagi har qanday o'zgarishlarga moslashtirishga harakat qildi. ELCADP ishlashi virtual kontseptsiya drifti bilan tekshirilmagan, bunda kirish xususiyatlari o'zgarmagan, ammo yangi sinf qiymati paydo bo'lishi mumkin.

2.2 Qarama-qarshi mashinalarni o'rganish

Mashinani o'rganish algoritmlari ko'plab sohalarda samarali ishlash bilan qo'llanilgan (Al Nabki et al. 2017 ; Riesco et al. 2019 ). Biroq, fishingni aniqlash (Sánchez-Paniagua va boshq. 2021 ), spamni aniqlash (Lam and Yeung 2008 ; Dedeturk and Akay 2020 ) yoki botnetni aniqlash (Velasco-Mata va boshq. 2019 ) kabi ularning to'plami mavjud. raqib raqam tufayli modellarni yangilashni talab qiladi. Shunga qaramay, tashkilotlar va tadqiqotchilar ushbu muammoni har bir sohaning o'ziga xos xususiyatini hisobga olgan holda hal qilishlari kerak. Misol uchun, fishing spamdan farqli xususiyatlarga ega, masalan, filial logotiplarini taqlid qilish, maxfiy ma'lumotlarni so'rash yoki foydalanuvchilarga shoshilinch xabar berish.
Raqib ma'lumotlar to'plamining o'zgarishi natijasida yuzaga keladigan zaiflikdan foydalanadi va tasniflagichlarni chalg'itish uchun ma'lumotlarni ongli ravishda o'zgartiradi. Dalvi va boshqalar. ( 2004 ) raqib figurani tasniflagichlarni mag'lub etish uchun zararli ma'lumotlarni kiritadigan shaxs sifatida aniqladi. Barreno va boshqalar. ( 2006 ) hujumni aniqlash va undan tasniflash modelini qanday himoya qilish uchun uchta mezon orqali raqib hujumlarining taksonomiyasini yaratdi. Huang va boshqalar. ( 2011 ) Barreno va boshqalarni o'rganishni kengaytirdi. ( 2006 ) raqib xususiyatlari, hujum taksonomiyasi va raqib imkoniyatlarini chuqurroq tahlil qilishni joriy etish. Yaqinda Vang va boshqalar. ( 2019) kelgusi bir necha yil uchun uchta muammoni ta'kidlab, ushbu sohaning umumiy ko'rinishini taqdim etdi: chuqur o'rganish modellarida xavfsizlik, modelning maxfiyligini ta'minlash uchun samarali va samarali ma'lumotlarni shifrlash va yangi baholash mexanizmlari.
Raqib tasnifi asosan ikki xil nuqtai nazardan o'rganilgan. Birinchisi, raqib hujumlariga qarshi tasniflagich barqarorligini o'lchashga intiladi (Biggio va boshq. 2013 ; Goodfellow va boshq. 2015 ; Laskov va Kloft 2009 ; Lu va boshq. 2020 ; Nelson va boshq. 2011 ; Paudice va boshq. 2018 ). Ushbu yondashuvdan so'ng, Nelson va boshqalar. ( 2011 ) uning mustahkamligini tasniflash uchun metrikani kiritish orqali raqib ta'lim ma'lumotlarining ifloslanishi ostida tasniflagich barqarorligini aniqladi. Laskov va Kloft ( 2009 ) birinchi va Biggio va boshqalar. ( 2013 yil) keyinroq, xavfsizlikni tahlil qilish va hujum stsenariylarini simulyatsiya qiluvchi tasniflash algoritmlarini baholash uchun taklif qilingan ramkalar.
Goodfellow va boshqalar. ( 2015 ), chiziqli bo'lmaganlik va ortiqcha moslama muammolariga e'tibor qaratib, NN tasniflagichlarining zaif tomonlarini aniqlash uchun qarama-qarshi ma'lumotlarning misollarini tekshirdi. Zaharlanish hujumlarining ta'sirini yumshatish uchun Paudice va boshqalar. ( 2018 ) oldindan tayyorgarlik uchun algoritm yaratdi. Lu va boshqalar. ( 2020 ) kvant mashinasini o'rganish algoritmlarining raqib sozlamalariga qarshi ajoyib zaif tomonlarini aniqladi.
Boshqa mualliflar hujum samaradorligini baholashga harakat qilib, bu sohaga yaqinlashadilar (Apruzzese va boshq. 2019 ; Papernot va boshq. 2015a , 2017 ; Shi va boshq. 2019 ). Masalan, Papernot va boshqalar. ( 2015a ) chuqur NNlarga qarshi hujumlar maydonini rasmiylashtirdi va kirish va chiqishlar o'rtasidagi xaritalashni aniq tushunish asosida raqib namunalarini yaratishga qodir algoritmni taqdim etdi. Papernot va boshqalar. ( 2017 ) haqiqiy dunyoda chuqur o'rganish dasturiga qora quti raqibi yordamida hujumni amalga oshirdi va mudofaa strategiyalaridan qochishning hayotiyligini ko'rsatdi. Apruzzese va boshqalar. ( 2019) zaharlanish va qochish strategiyasiga asoslangan hujum kiberdetektorga olib kelishi mumkin bo'lgan zararni o'rganib chiqdi. Ular kiberxavfsizlik nuqtai nazaridan mashinani o'rganishning yanada mustahkam usullarini ishlab chiqish zarurligini ta'kidladilar. Shi va boshqalar. ( 2019 ) spektrni aniqlash ilovalariga samarali zaharlanish hujumini baholadi. Raqiblar tasnifi raqib va raqib hujumlarini yumshatishga harakat qiladigan himoyachi o'rtasidagi tugamaydigan o'yinga o'xshaydi.
Umuman olganda, qarama-qarshi strategiyalarda mashinani o'rganish xavfsizligini tushunish bilan shug'ullanadigan tadqiqotlar spam elektron pochta xabarlarini aniqlashga qaratilgan (Chen va boshq. 2018 ), uning raqib ko'rsatkichi spamer sifatida tanilgan. Spamerlar elektron pochta tarkibining o'qilishiga ta'sir qilmasdan, masalan, xabarga ma'lum noto'g'ri imlo yoki qonuniy so'zlarni kiritish orqali tasniflagichdan qochishga harakat qilishadi (Biggio and Roli 2018 ). Shunday qilib, spam elektron pochta xabarlarida tasniflagichlarni o'qitish uchun ishlatiladigan ma'lumotlarga zarar etkazish va shuning uchun ularning normal ishlash filtrini o'zgartirish uchun spamerlar tomonidan to'g'ri kiritilgan zararli ma'lumotlar bo'lishi mumkin (Xiao et al. 2018 ) . Nelson va boshqalar. ( 2008 ) SpamBayes filtrining zaif tomonlarini ko'rsatdi^Izoh⁴ ta'lim to'plami elektron pochta faqat bir oz sonini ifloslantirish tomonidan lug'at hujum yordamida. Lug'at hujumlariga qarshi ikkita mudofaani muvaffaqiyatli o'rganganiga qaramay, ular qo'shimcha bilimga ega bo'lgan hujumni himoya qilish qiyin bo'lishini kuzatishdi. Mashinani o'rganish modellarini yanada mustahkam va samarali xavfsizlik himoyasi bilan loyihalash uchun (Dasgupta and Collins 2019 ; Rota Bulo et al. 2017 ) o'yin nazariyasiga asoslangan modellarni yaratdi, masalan, dushmanlar hujumlarini avtomatik ravishda simulyatsiya qilish va ularni spam elektron pochta orqali tasdiqlash. ma'lumotlar to'plamlari. Naveiro va boshqalar. ( 2019 ) o'yin nazariyasi yondashuvidan farqli o'laroq, qarama-qarshilik xavfi tahliliga asoslangan muqobil asosni taqdim etdi va uni spam elektron pochta ma'lumotlar to'plamida baholadi.
Spamerlar spamga qarshi filtrlarni chetlab o'tish uchun doimiy ravishda elektron pochta xabarlarini aqlli va ijodiy strategiyalar bilan ifloslantiradilar (Wittel va Wu 2004 ). Qarama-qarshi tomondan, tashkilotlar va tadqiqotchilar ushbu strategiyalar yoki fokuslarning spam filtrlariga ta'sirini yumshatish uchun yangi usullarni ishlab chiqadilar. Ushbu qarama-qarshilik faoliyati tufayli ushbu domenning dinamik va zaif tabiatini (Bhowmick and Hazarika 2018) inobatga olgan holda, uning kontseptsiyasi drifti nafaqat modelni yangilash orqali tuzatilishi mumkin bo'lgan tabiiy o'zgarish sifatida namoyon bo'ladi, balki u aniqlanmaslik uchun mo'ljallangan . an'anaviy kontseptsiyani drift texnikasi bilan (Sethi and Kantardzic 2018 ).
Ushbu xususiyatlarga ega bo'lgan drift tushunchasi odatda raqib drifti deb nomlanadi. Bu drift har doim eng so'nggi foydalanilgan tasniflagichlarni o'zgartirishga intiladi, ular haqida avvalroq ma'lumotga ega bo'ladi va soxta negativlarni ishlab chiqarish uchun ma'lumotlarni mos ravishda boshqaradi (Dalvi va boshq. 2004 ). Dada va boshqalar. ( 2019 ) so'nggi tadqiqotchilar va Gmail yoki Outlook kabi elektron pochta xizmatlarining asosiy provayderlari odatda matn tasnifini o'z ichiga olgan filtrlarini yaratish uchun turli xil mashina va chuqur o'rganish usullaridan foydalanadilar. Ushbu yondashuv spamerlarni e-pochtaning asosiy qismidan olingan ma'lumotlarni va mavzu kabi o'qilishi mumkin bo'lgan sarlavhalarni buzish orqali matn filtrlaridan ustun bo'lishga harakat qilishlariga sabab bo'ldi. Ushbu mulohazalarni aks ettirgan holda, Ruano-Ordás va boshqalar. ( 2018b) spam elektron pochta xabarlarini filtrlash va naqshlarni aniqlash uchun yordam sifatida muntazam ifodalarni avtomatik ravishda yaratish uchun evolyutsion hisoblashdan foydalangan.
Spamerlar elektron pochta xabarlarini spamga qarshi filtrlardan oshib ketish uchun moslashtiradi, shuningdek, qonuniy elektron pochta xabarlarining ko'rinishiga taqlid qilish, noto'g'ri yuborish kabi chalkash vaziyatlarni yaratish yoki spam kampaniyalaridan foydalanish orqali qabul qiluvchini aldashga harakat qiladi (Oliveira et al. 2019; Redmiles et al . 2018 ) .
Ushbu tadqiqotda biz spam-filtrlardan qochish uchun mo'ljallangan hiyla-nayranglarni ko'rib chiqamiz, ular odatda mashinani o'rganish algoritmlariga asoslangan, masalan, zaharlanish matni, tushunarsiz so'zlar yoki yashirin matnni tuzlash. Shu sababli, biz faqat ushbu spamer strategiyalarini oxirgi foydalanuvchi nuqtai nazarini hisobga olmasdan, masalan, orqaga tarqalish spamlaridan foydalangan holda kiber-hujumlar (Hijawi va boshq. 2021 , 2017 ) kiritamiz. Biz ijtimoiy muhandislikni soxta onlayn kompaniyalar, provayderlar yoki odamlardan foydalangan holda foydalanuvchilarning shaxsiy yoki maxfiy ma'lumotlarini o'g'irlash usullari to'plami sifatida ko'rib chiqamiz. Keyinchalik, so'nggi bir necha o'n yilliklar davomida spamerlar tomonidan qo'llaniladigan asosiy strategiyalarni va ularning spam filtrlariga ta'sirini yumshatish uchun tegishli tadqiqot yutuqlarini o'rganamiz.

3.1 Zaharlovchi matn va tushunarsiz so'zlar

Spam elektron pochta odatda matn formatida uzatiladi va NB, Logistic Regression (LR) yoki SVM kabi mashinani o'rganish algoritmlari (Biggio and Roli 2018 ) asosidagi qoidaga asoslangan filtrlar va matn tasniflagichlari tomonidan tahlil qilinadi . Mashinani o'rganish tasniflagichlariga asoslangan spamga qarshi filtrlar spam elektron pochta xabarlarini aniqlash uchun keng qo'llanilganligi sababli (Pitropakis va boshq. 2019 ), spamerlar ko'pincha matn ma'lumotlarini ifloslantirish orqali ularni chalg'itishga harakat qilishadi. Spamerlar butun elektron pochta jildida yoki undagi ba'zi so'zlarda, masalan, noto'g'ri imlo yoki spam-xabarga tasodifiy yoki qonuniy so'zlarni qo'shishda zaharlovchi matn va tushunarsiz so'zlar deb nomlanuvchi matnni manipulyatsiya qilish usullaridan foydalanadilar (Vang va boshq. 2019 ) .
Matnni zaharlash texnikasi spamerning spamga qarshi filtr va qabul qiluvchi haqidagi bilim darajasiga bog'liq. Shunday qilib, shaxsiylashtirilmagan va shaxsiylashtirilgan zaharlanish hujumlari mavjud. Birinchisi elektron pochtaga tasodifiy so'zlarni yoki ommabop qonuniy so'zlarni, ya'ni "so'zli salat" ni kiritishi va taniqli spam so'zlardan foydalanishdan qochishi mumkin (Kuchipudi et al. 2020 ) . Shunga qaramay, yuqori bilim darajasi tufayli shaxsiylashtirilgan hujumlar zararliroq va aniqlash qiyin, chunki ular spamga qarshi filtr va jabrlanuvchiga qaratilgan maxsus so'zlarni o'z ichiga oladi.
Buzilgan soʻzlardan foydalanish soʻzlarni oʻqishga qulay boʻlgan holda oʻzgartirishga urinadi, masalan, HTML izohlari (Bhowmick and Hazarika 2018 ) yoki leetspeak (Peng et al. 2018 ) yordamida maxsus belgilarni joylashtirish. 1 -jadvalda asosiy tushunarsiz so'z texnikasi tegishli misollar bilan ko'rsatilgan. Haqiqiy matn barcha misollar uchun "bepul spam-xabar" dir.

Download 1.35 Mb.

Do'stlaringiz bilan baham:

1 ... 4 5 6 7 8 9 10 11 ... 15