Texnologiyalari universiteti “Ma'lumotlarning intellektual tahlili” fani Mustaqil ish Mavzu


Download 1.35 Mb.
bet13/15
Sana23.04.2023
Hajmi1.35 Mb.
#1388517
1   ...   7   8   9   10   11   12   13   14   15
Bog'liq
Pochta xabarlarini intellectual

Ling-Spam Lingvistlar roʻyxatidan 2893 ta elektron pochta xabarlarini (qoʻshimchalarsiz, HTML teglari va takroriy spam xatlarisiz) eslab qoladi, ularning asosiy tilshunoslik qiziqishlari ish oʻrinlari, tadqiqot imkoniyatlari, dasturiy taʼminot mavjudligi haqida eʼlonlar va olovga oʻxshash javoblarni oʻz ichiga oladi.

  • Network Associates kompaniyasidan Jastin Meyson tomonidan yaratilgan SpamAssassin 6047 ta elektron pochta xabarlarini o'z ichiga oladi, bu umumiy forumlarda chop etilgan yoki foydalanuvchilar tomonidan taqdim etilgan bo'lib, bir foydalanuvchi ma'lumotlar to'plamiga qaraganda kamroq mavzuga xosdir.

  • Enron-Spam oltita Enron xodimining jambon elektron pochta xabarlari va to'rt xil manbadan olingan spam xatlarga qo'shiladi, ya'ni SpamAssassin korpusi, Honeypot loyihasi,Izoh7 Bryus Guenter to'plami va ma'lumotlar to'plamini yaratuvchilardan birining shaxsiy pochta qutisi. Yaratuvchilar shaxsiylashtirilgan spam ma'lumotlar to'plamini yaratishga e'tibor qaratdilar va haqiqiy foydalanuvchilar duch keladigan turli vaziyatlarni taqlid qilish uchun oltita kichik ma'lumotlar to'plamini nashr etdilar.

  • TREC07 2007-yil 8-apreldan 6-iyulgacha internetda chop etilgan koʻplab akkauntlari va honeypots akkauntlariga ega boʻlgan maʼlum bir serverning barcha elektron pochta xabarlarini oʻz ichiga oladi. Bu korpus spam-filtrni yaratish boʻyicha tanlov ishtirokchilariga tarqatilgan.

  • CSDMC - bu ICONIP 2010 bilan bog'liq ma'lumotlarni qidirish musobaqasi uchun foydalaniladigan ma'lumotlar to'plami va barcha xabarlar ommaviy forumlarda nashr etilgan va spam-tuzoq bo'lmagan manbalardan olingan, ya'ni SpamAssassin va Ling-Spam kabi shaxsiylashtirilmagan elektron pochta ma'lumotlar to'plamiga mos keladi.

    Bundan tashqari, modellarni baholash uchun biz Bryus Guenterning spam arxividan olingan ikkita ma'lumotlar to'plamidan ham foydalandik,Izoh8. 1998 yildan beri har oyda oʻz pochta qutisidan spam xatlarni ommaviy ravishda baham koʻradigan ombor. Biz ushbu tajriba uchun 2010 va 2018 yil papkalarini oldik, soʻnggi oʻn yillikdagi maʼlumotlar toʻplamlari va maʼlumotlar toʻplamlari boʻyicha oʻqitilgan modellarning soʻnggi spam xatlarining joriy ish faoliyatini aniqlash uchun. ularning spam muhitiga nisbatan umumlashtirilishi.
    4 -jadvalda har bir ma'lumotlar to'plamining asosiy xarakteristikalari, jumladan elektron pochta xabarlarining umumiy soni, jambon va spam xatlar soni, spam tezligi, rasm va boshqa biriktirilgan fayllarni o'z ichiga olgan elektron pochta xabarlarining foizi va ingliz tilida yozilgan elektron pochta xabarlarining foizi ko'rsatilgan.

    Download 1.35 Mb.

    Do'stlaringiz bilan baham:
  • 1   ...   7   8   9   10   11   12   13   14   15




    Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
    ma'muriyatiga murojaat qiling