Texnologiyalari universiteti “Ma'lumotlarning intellektual tahlili” fani Mustaqil ish Mavzu
-jadval Har biriga misollar bilan eng mashhur so'z texnikasi
Download 1.35 Mb.
|
Pochta xabarlarini intellectual
- Bu sahifa navigatsiya:
- 3.2 Yashirin matnni tuzlash
1-jadval Har biriga misollar bilan eng mashhur so'z texnikasi
Bir nechta ishlar nazorat ostidagi tasniflagichlarni o'qitish uchun lingvistik atributlarni hisobga olgan holda spam elektron pochta sohasida (Kuchipudi et al. 2020 ; Peng et al. 2018 ; Shams and Mercer 2016 ) zaharlanish matnini ko'rib chiqdi. Ular quyidagilardan foydalanganlar: (1) spam-so'zlar, alfavit-raqamli so'zlar yoki funktsional so'zlar sonini hisoblash kabi so'z darajasidagi atributlar, (2) xato atributlari, ham noto'g'ri yozilgan so'zlar, ham grammatik xatolar, (3) oddiy va murakkab so'zlar bilan tahlil qilingan o'qish atributlari , TF-IDF va turli o'qish ballari va (4) HTML atributlari. Shunday qilib, Peng va boshqalar. ( 2018 ) matn modifikatsiyalarini, xususan, leetspeak va diakritikani aniqlashga qodir bo'lgan NB tasniflagichi uchun takomillashtirishni taklif qildi. Yaqinda Kuchipudi va boshqalar. ( 2020 ) uchta invaziv usullar bilan hujumga uchragan Bayes klassifikatoriga asoslangan spam-xabar filtrining zaifligini ko'rsatdi: sinonimlarni almashtirish, ham-so'zlarni kiritish va spam-so'zlar oralig'i. Tasniflagich tahlil qilingan uchta stsenariyda osongina chetlab o'tildi. Chan va boshqalar. ( 2021 ) qarama-qarshi muhitda ifloslangan ma'lumotlardan zararsiz bilimlarni ajratib olish orqali yorliqning ag'darilgan zaharlanishi bilan kurashish uchun qarshi choraga asoslangan o'qitishni o'tkazishni ishlab chiqdi. Xususiyatlarni tanlash ham shu kontekstda o'rganilgan (Méndez va boshq. 2019).) spam-modellarga yangi semantik xususiyatni tanlash usulini joriy etish va funksiya tanlash jarayonini yaxshilash uchun noaniq fokuslar va zaharlanish hujumlarini o'rganishga arzigulikligini ta'kidlash. 3.2 Yashirin matnni tuzlashYashirin matnni tuzlash - bu elektron pochta fonida tasodifiy yashirin matnni kiritish orqali matnni filtrlashning to'g'ri harakatini buzish usuli. Spamerlar ushbu strategiyani 2000-yillarning o'n yilligi o'rtalarida bir nechta aloqa platformalarida qo'llashni boshladilar va ba'zi ishlar (Bergholz va boshq. 2008 ; Lioma va boshq. 2008 ; Moens va boshq. 2010 ) uni keng tarqalgan bo'lib topish mumkinligini ta'kidladilar. fishing elektron pochta xabarlari. Spamerlar ko'pincha bu ko'rinmas matnni HTML teglariga kiritganligi sababli (Moens va boshq. 2010 ), ba'zi tadqiqotlar shrift rangi, shrift o'lchami yoki glifni xususiyatlar sifatida tahlil qilishga va foydalanishga qaratilgan (Bergholz va boshq. 2008 ; Lioma va boshq. 2008 ) va Optik belgilarni aniqlash (OCR) yondashuvlari (Bergholz va boshq. 2008 ) ataylab yashiringan matnni o'z ichiga olgan elektron pochta xabarlarini topish. Ushbu ishlar yuqori aniqlikka erishib, yashirin matnni aniqlash uchun SVM klassifikatorini amalga oshirdi. Moens va boshqalar. ( 2010 ) spam elektron pochta ma'lumotlar to'plamida tuzlanishni aniqlash statistikasini aniqladi. O'tmishdagi yondashuv bo'lib tuyulganiga qaramay, biz buni hali ham Bryus Guenter kabi so'nggi ma'lumotlar to'plami tomonidan taqdim etilgan bir nechta elektron pochta xabarlarida topdik.2020 yildan boshlab, biz 1- rasmda ko'rsatilgan misolda ko'rsatamiz . Bryus Guenter ma'lumotlar to'plami, shuningdek, Spam arxivi sifatida ham tanilgan, ko'plab ishlarda qo'llaniladigan ommaga ochiq ma'lumotlar to'plami (Metsis et al. 2006 ; Ruano-Ordas et al. 2018a ; Méndez et al. 2019 ), unda muallif spam to'plamlarini yuklagan. 1998 yildan beri har oy shaxsiy asal qozonlaridan elektron pochta xabarlari. Bu fakt shuni ko'rsatadiki, spamerlar hali ham spamga qarshi filtrlardan qochish strategiyasi sifatida yashirin matnni tuzlash texnikasidan foydalanadilar. Download 1.35 Mb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling