Podatkovno rudarjenje


Sinfga bog'liq diskretizatsiya


Download 224.49 Kb.
bet3/3
Sana18.06.2023
Hajmi224.49 Kb.
#1568921
1   2   3
Bog'liq
Practice3 - Preparing the Data

Sinfga bog'liq diskretizatsiya

  • Axlat qutilari soni oldindan belgilanmagan
  • 2 oddiy qoida:
    • Min.ni belgilang. yo'q. qutidagi misollar
    • Bin bir xil sinf qiymatiga ega bo'lgan ikkita misol o'rtasida o'zgarmasligi kerak

Misol


12

15

20

21

29

35

101

102

110

120

c2

c1

c1

c1

c2

c1

c3

c2

c2

c1

Minimal raqam. ning qutidagi misollar = 2 _

12

15

20

21

29

35

101

102

110

120

c2

c1

c1

c1

c2

c1

c3

c2

c2

c1

I1 = [12,21]
I2 = [29,35]
I3 = [101,120]

Chet elliklar

  • Qo'lda/vizual tekshirish :
    • Quti syujeti
    • Gistogramma
    • Tarqalish sxemasi
  • Avtomatik texnikalar :
    • " 1,5 x IQR " qoidasi
    • Ma'lumotlarga bog'liq bo'lgan boshqa ko'plab texnikalar

"1,5 x IQR" qoidasi

  • IQR = 3 - kvartil - 1 - kvartilni hisoblang
  • Quyidagi atribut qiymatlari bo'lgan barcha misollarni chetlab o'tish deb hisoblang:
    • 1 - kvartildan past - 1,5 x IQR yoki
    • 3 - kvartildan yuqori + 1,5 x IQR
  • Ba'zi dasturiy ta'minot avtomatik ravishda chiziqli diagrammada (masalan, R) o'zgaruvchan qiymatlarni belgilaydi.

Maydonni qisqartirish / xususiyatni tanlash

  • "Kichik" yoki o'zgaruvchanligi bo'lmagan atributlarni olib tashlang
  • "Juda ko'p" o'zgaruvchanligi bo'lgan atributlarni olib tashlang
  • Faqat "eng yaxshi" atributlarni saqlang
    • sinf bilan "yuqori bog'liq" bo'lganlar
  • Misol : zoo.tab

Balanssiz ma'lumotlar to'plamlari

  • Misol : ko'krak saratoni
  • Yechim = ma'lumotlarni "muvozanat" qilishga harakat qiling

I

D

D_d

200

12.3.2019


201

7.4.2013


202

23.5.2012


Javob: 2019+(71-0,5)/(365+0)=2019,193;
2013+(97-0,5)/(365+0)=2013,264;
2012+(143-0,5)/(365+1)=2012,390;
KSP formati

Diskretlashtirish


Javob: W=(2020-2000)/4;
W=5;
D1=[2000, 2005);
D2=[2005, 2010);
D3=[2010, 2015);
D4=[2015, 2020);
N_e_b =11/3; N_e_b = trunc (3);
2000, 2001, 2003, 2005 , 2007, 2011, 2012, 2013 , 2017, 2018, 2020
D1=[2000, 2005]
D2=[2007, 2013]
D3=[2017, 2020]

Diskretlashtirish


Javob: W=(2020-2000)/4
W=5;
B1=[2000, 2005);
B2=[2005, 2010);
B3=[2010, 2015);
B4=[2015, 2020];
Download 224.49 Kb.

Do'stlaringiz bilan baham:
1   2   3




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling