Texnologiyalari universiteti “Ma'lumotlarning intellektual tahlili” fani Mustaqil ish Mavzu
Download 1.35 Mb.
|
Pochta xabarlarini intellectual
- Bu sahifa navigatsiya:
- 4 Ikkilik spam elektron pochta tasnifi
To'liq o'lchamdagi rasm
Xabarning boshqa tildagi qismlarini qo'shish rivojlanayotgan matn strategiyasini ifodalaydi. Ingliz tili so'nggi bir necha o'n yilliklarda spam elektron pochta sohasida eng vakillik tili bo'lib kelgan. Shunga qaramay, so'nggi bir necha yil ichida spam elektron pochta xabarlari tobora ko'proq tillarda yozilmoqda ( 3 -rasm ). Bir necha sabablar bo'lishi mumkin, masalan, har bir mamlakat ichida spam elektron pochta xabarlari sonini ko'paytirish yoki foydalanuvchilar va filtrlarni chalg'itish uchun tillardan ongli ravishda foydalanish. Umuman olganda, chet tilidagi elektron pochta xabarlari foydalanuvchi sozlamalariga qarab, spam sifatida tasniflanadi. Biroq, tillar aralashmasi kutilgan tilni aniqlash orqali ba'zi filtrlarni aldashi mumkin. Tillarni birlashtirish foydalanuvchining chalkashligi bilan o'ynaydi va qo'shimcha ravishda ijtimoiy muhandislik texnikasini o'z ichiga olishi mumkin. Ushbu yangi strategiyalarning barchasi kiber-xavfsizlik va NLP tadqiqotlari uchun yangi muammolarni ochib beradi. 3 -rasmda biz so'nggi o'n yillikdagi til evolyutsiyasini ko'rsatamiz, spam-arxivdan spam xatlarni havola sifatida olamiz. 2018 yil aprel oyida Bryus Guenter o'zining spam qabul qilish bo'yicha asosiy domenining muddati tugashiga ruxsat berdi; Shunday qilib, u o'zining eng spam elektron pochta manbasini yo'qotdi. 2017-yilda Bryus Guenter 1 400 401 ta spam-xatlarni yukladi va bu raqam 2019-yilda 23 859 tagacha kamaygan, bu esa 2019 yildan boshlab yaponiyalik spam xatlarning keskin kamayishini tushuntirishi mumkin. 4-rasm Grafik so'nggi o'n yil ichida eng ko'p ishlatiladigan tillarda, shu jumladan "Boshqa" afsonasidagi kichik tillarda yozilgan spam elektron pochta xabarlarining foizini (X o'qi) ko'rsatadi. Biz Bryus Guenterning Spam Arxivi va langdetect Python3 kutubxonasi ( https://pypi.org/project/langdetect/ ) tomonidan taqdim etilgan spam xatlardan til tasniflagichini amalga oshirish uchun foydalandik. 4 Ikkilik spam elektron pochta tasnifi4.1 Spam filtrlariSpamerlar tomonidan yaratilgan qarama-qarshi muhitning dinamik tabiatidan kelib chiqqan holda, Sun'iy intellektning ko'plab yondashuvlari, asosan, tabiiy tilni qayta ishlash texnikasiga asoslangan holda, spam-xatlarni filtrlash, ya'ni elektron pochtani ikki toifaga ajratish muammosini hal qildi: qonuniy yoki kiruvchi elektron pochta, mashhur. navbati bilan jambon va spam sifatida (Bassiouni va boshq. 2018 ). Yaqinda ba'zi ishlar spam elektron pochta muammosini boshqa nuqtai nazardan ko'rib chiqdi, spam elektron pochta xabarlarini mavzulariga qarab bir nechta sinflarga tasniflashni joriy qildi (Jáñez-Martino et al. 2020; Murugavel and Santhi 2020 ). Filtrlarni to'ldirish uchun tadqiqotlar elektron pochta xabarlarining sarlavhalari, tanasi yoki ikkalasidan foydalanadi (Mohammad 2020 ). So'nggi ishlar tana qismlarini, matnli xabarlarni va qo'shimchalarni tahlil qilishga qaratilgan (Dada va boshq. 2019 ) - odatda matn tasniflash texnikasi bilan - yoki semantik-asoslangan xususiyatlar kabi elektron pochtadan xususiyatlarni ajratib olishga qaratilgan (Saidani et al. 2020 ). Ushbu bo'limda biz mashinani o'rganish tasniflagichlari asosida elektron pochta filtrlarini yaxshilash uchun xususiyat og'irligi, xususiyatni ajratib olish yoki xususiyat tanlashga asoslangan takliflarni ko'rib chiqamiz. Spam filtrlari spam muammosini hal qilishning asosiy vositasidir (Bhowmick and Hazarika 2018 ). Dastlab, filtrlar faqat qoida-foydalanuvchi sozlamalari, qora va oq ro'yxatlar va kalit so'zlarni aniqlashga, ya'ni bilim muhandisligi nuqtai nazaridan taqdim etilgan echimlarga asoslangan edi (Sanghani and Kotecha 2019 ). Biroq, bu yondashuvlar samarasiz va tez eskiradi, bu esa qo'lda, uzluksiz va qat'iy texnik xizmat ko'rsatish va yangilashni talab qiladi, bu vaqt va resurslarni talab qiladi (Gibson et al. 2020 ) . So'nggi o'n yil ichida mashinani o'rganish algoritmlari bilim muhandisligi kamchiliklarini bartaraf etishni isbotladi (Dada va boshq. 2019 ). Ushbu sohadagi so'nggi tadqiqotlar an'anaviy tasniflagichlarga tayanadi (Bhowmick and Hazarika 2018; Dada va boshqalar. 2019 ). Shunday qilib, adabiyotda yaqinda qo'llanilgan eng keng tarqalgan mashinani o'rganish algoritmlari 2 -jadvalda keltirilgan . Download 1.35 Mb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling