Podatkovno rudarjenje


Download 224.49 Kb.
bet1/3
Sana18.06.2023
Hajmi224.49 Kb.
#1568921
  1   2   3
Bog'liq
Practice3 - Preparing the Data

Ma'lumotlarni tayyorlash

  • Qadriyatlar etishmayotgan
  • Sana formati
  • Nominal  raqamli
  • Raqamli  nominal
  • Chet elliklar
  • Maydonni qisqartirish ("tegishli" atributlarni tanlash)
  • Balanssiz ma'lumotlar

Qadriyatlar etishmayotgan

  • Ko'p turli "kodlar",
  • Ko'p turli sabablar,
  • Qo'llash uchun juda ko'p turli xil usullar

KSP sana formati

1-yanvardan_boshlangan kunlar - 0,5

KSP sanasi = YYYY + ------------------------------------------

365 + 1_kabisa_yil


Kabisa yili, agar :
    • 4 ga bo'linadigan,
      • bundan mustasno, agar 100 ga bo'linsa (kabisa yili emas 1900)
        • bundan mustasno, agar 400 ga bo'linadigan bo'lsa (2000 - kabisa yili)

Nominal  Raqamli

  • Nima uchun atribut turini o'zgartirishimiz kerak?
    • Chunki ba'zi algoritmlar faqat bitta turdagi ma'lumotlar bilan ishlay oladi,
    • Chunki ba'zida turli xil ma'lumotlar turlari turli xil tushunchalarni taklif qilishi mumkin,
    • Chunki algoritmlarni tezroq bajarish uchun ba'zan yig'ish kerak bo'ladi.

Nominal  raqamli

  • Yondashuvlar:
    • Ikki qiymat (ikkilik)  0 va 1 ga o'zgaradi
    • (ikkidan ortiq) qiymatlar:
      • Buyurtma qilingan  tartibni saqlang
      • Tartibsiz  har bir qiymat o'zining 0-1 atributiga ega bo'ladi
    • "Juda ko'p" tartibsiz qiymatlar:

Misol: so'rov javoblari

  • Jins:
    • Erkak ayol
    • Erkak = 0, ayol = 1
  • Daromad:
    • unchalik emas, biroz, o‘rtacha, o‘rtachadan yuqori, ko‘p
    • 1 2 3 4 5
  • Avtomobilingiz rangi:

Download 224.49 Kb.

Do'stlaringiz bilan baham:
  1   2   3




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling