Ma’ruza №2 Mavzu: Data Mining usullari va rivojlanish bosqichlari Reja: 1
Tahlilga ma’lumotlarni tayyorlash
Download 147.18 Kb.
|
2- maruza
Tahlilga ma’lumotlarni tayyorlash. MIT da asosiy rolni ma’lumotlarni o’zi o’ynaydi. Agarda ma’lumotlarning sifati past bo’lsa, unda eng yaxshi amalga oshirilgan tahlil ham maqbul natija bermaydi. Odatda tahlil vazifasi uchun ma’lumotlarni jadval ko’rinishidan foydalaniladi. Har bir qator alohida kuzatuv tavsifiga ega ma’lumot elementi kabi ko’rinadi, har bir ustun esa uning tavsifi uchun o’zgaruvchini o’z ichiga oladi. O’zgaruvchilar atributlar, belgilar yoki hajmdorlik deb ham nomlanadi.
O’zgaruvchilarni asosiy to’rt toifasi mavjud (2.1-jadval). Qayta ishlanuvchi ma’lumotning har bir toifasi ma’lum qayta ishlash va tahlillash usullarini qo’llashni nazarda tutadi, shu sababli kiruvchi ma’lumotlarga tanlangan algoritmlar qo’llanilishiga ishonch hosil qilish lozim. 2.1-jadval MIT da ishlatiladigan o’zgaruvchilarni asosiy toifalari
Misol, tariqasida Telnet protokoli tarmoq trafigini tahlillash uchun binar o’zgartiruvchilarni to’plamini ko’rib chiqamiz: Shifrlangan ma’lumotlar alomati; Qayd qilishga bo’lgan muvaffaqiyatsiz urinishlar; Qayd qilishga bo’lgan muvaffaqiyatli urinishlar; Root foydalanuvchi ruxsat huquqlarini olishga urinishlar; Root foydalanuvchi ruxsat huquqini olish dalili; Mehmon qayd yozuvi belgilari; Fayl yaratish amalini bajarilishi. Sanab o’tilgan belgilardan har biri faqat ikki qiymatni qabul qilishi mumkin – ha/yo’q (True/False, 1/0). Ma’lumotlarni dastlabki to’plamida ko’plab har xil o’zgaruvchilar bo’lishi mumkin bo’lsa ham, algoritmda ko’p miqdorda ularni qo’llanilishi hisoblashni sekinlashishiga yoki axboriy shovqin sababli xato bashoratlarga olibh keladi. Shu sababli natijaga eng ko’p hissa qo’shadigan eng muhim o’zgaruvshilarni qisqa ro’yhatini shakllantirish lozim. O’zgaruvchilar tanlovi odatda urinish va xatoliklar yoki hajmdorlilikni qisqartirish (dimension reduction) usuli yordamida amalga oshiriladi. Ularni qo’shish va olib tashlash oraliq natijalar hisobga olgan holda ma’noga ega. Boshlanishiga keyingi tahlil uchun eng istiqbolli bo’lganlarini tanlab, o’zgaruvchilar orasida korrelyatsiyani aniqlash uchun sodda grafiklardan foydalanish mumkin. MIT jarayonida tez-tez to’liq bo’lmagan ma’lumotlar bilan to’qnashishga to’g’ri kerak bo’ladi. To’liq bo’lmagan ma’lumotlar tahlilni sezilarli darajada qiyinlashtirishi mumkin, bu esa bir qator analitik usullarni qo’llanilishini imkonsiz qiladi, shu sababli har qanday imkoniyatda quyidagi yo’llardan birini qo’llash bilan keyinchalik foydalanish masalasini yechish lozim. Download 147.18 Kb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling