Mavzu: Qarorlar daraxti


Download 0.96 Mb.
bet3/3
Sana19.06.2023
Hajmi0.96 Mb.
#1602579
1   2   3
Bog'liq
mustaqil ish

Kun

Holat

Temperatura

Namlik

Shamol

Tennis o‘ynash

K1

Quyoshli

Issiq

Yuqori

Yolg‘on

Yo‘q

K2

Quyoshli

Issiq

Yuqori

Rost

Yo‘q

K3

Bulutli

Issiq

Yuqori

Yolg‘on

Ha

K4

Yomg‘irli

Iliq

Yuqori

Yolg‘on

Ha

K5

Yomg‘irli

Sovuq

O‘rtacha

Yolg‘on

Ha

K6

Yomg‘irli

Sovuq

O‘rtacha

Rost

Yo‘q

K7

Bulutli

Sovuq

O‘rtacha

Yolg‘on

Ha

K8

Quyoshli

Iliq

Yuqori

Yolg‘on

Yo‘q

K9

Quyoshli

Sovuq

O‘rtacha

Yolg‘on

Ha

K10

Yomg‘irli

Iliq

O‘rtacha

Rost

Ha

K11

Quyoshli

Iliq

O‘rtacha

Rost

Ha

K12

Bulutli

Iliq

Yuqori

Rost

Ha

K13

Bulutli

Issiq

O‘rtacha

Yolg‘on

Ha

K14

Yomg‘irli

Iliq

Yuqori

Rost

Yo‘q

Ushbu ma’lumotlar to‘plami uchun entropiya 0,94 ga teng. Buni “Tennis o‘ynash” “Ha” bo‘lgan kunlar nisbatini topish orqali hisoblash mumkin, bu 9/14 va “Tennis o‘ynash” “Yo‘q” bo‘lgan kunlar nisbati 5/14. Keyin, bu qiymatlarni yuqoridagi entropiya formulasiga kiritish mumkin.


Entropy (Tennis) = -(9/14) log2(9/14) – (5/14) log2 (5/14) = 0.94
Keyin biz har bir atribut uchun ma’lumot daromadini alohida hisoblashimiz mumkin. Misol uchun, “Namlik” atributi uchun ma’lumot daromadi quyidagicha bo‘ladi:
Gain (Tennis, Namlik) = (0.94) - (7/14) * (0.985) – (7/14) * (0.592) = 0.151
Xulosa sifatida,
- 7/14 namlik “yuqori” ga teng bo‘lgan qiymatlarning namlik qiymatlarining umumiy soniga nisbatini bildiradi. Bunday holda, namlik “yuqori” ga teng bo‘lgan qiymatlar soni namlik “o‘rtacha” ga teng bo‘lgan qiymatlar soni bilan bir xil bo‘ladi.
- 0,985 - namlik = “yuqori” bo‘lganda entropiya
- Namlik = “o‘rtacha” bo‘lganda 0,59 – entropiya
Keyin, yuqoridagi jadvaldagi har bir atribut uchun ma’lumot olish uchun hisob-kitobni takrorlaymiz va qaror daraxtida birinchi bo‘linish nuqtasi bo‘lish uchun eng yuqori ma’lumot daromadiga ega atributni tanlaymiz. Bunday holda, holat eng yuqori ma’lumotni beradi. U yerdan har bir kichik daraxt uchun jarayon takrorlanadi.
Gini impurity
Gini impurity - bu ma’lumotlar to‘plamidagi tasodifiy ma’lumotlar nuqtasini noto‘g‘ri tasniflash ehtimoli, agar u ma’lumotlar to‘plamining sinf taqsimoti asosida etiketlangan bo‘lsa. Entropiyaga o‘xshash (S agar o‘rnatilgan bo‘lsa, sof, ya’ni bir sinfga mansub) bo‘lsa, uning impurity nolga teng. Bu quyidagi formula bilan ifodalanadi:

Gini impurity formulasi


Qaror daraxtlarining afzalliklari va kamchiliklari
Qaror daraxtlari turli xil foydalanish holatlarida ishlatilishi mumkin bo‘lsa-da, boshqa algoritmlar odatda qarorlar daraxti algoritmlaridan ustun turadi. Ya’ni, qaror daraxtlari, ayniqsa, ma’lumotlarni qidirish va bilimlarni kashf qilish vazifalari uchun foydalidir. Keling, qaror daraxtlaridan foydalanishning asosiy afzalliklari va kamchiliklarini quyida ko‘rib chiqaylik:
Afzalliklar
- Sharhlash oson: Mantiqiy mantiq va qaror daraxtlarining vizual tasvirlari ularni tushunish va iste’mol qilishni osonlashtiradi. Qarorlar daraxtining ierarxik tabiati, shuningdek, qaysi atributlar eng muhimligini ko‘rishni osonlashtiradi, bu neyron tarmoqlar kabi boshqa algoritmlar bilan har doim ham tushunarli emas.
- Ma’lumotni tayyorlash juda kam yoki umuman talab qilinmaydi: Qaror daraxtlari boshqa tasniflagichlarga qaraganda ancha moslashuvchan bo‘lgan bir qator xususiyatlarga ega. U turli xil ma’lumotlar turlarini boshqarishi mumkin, ya’ni diskret yoki uzluksiz qiymatlar, uzluksiz qiymatlar esa chegaralar yordamida kategorik qiymatlarga aylantirilishi mumkin. Bundan tashqari, u yetishmayotgan qiymatlarga ega bo‘lgan qiymatlarni ham boshqarishi mumkin, bu esa boshqa tasniflagichlar uchun muammoli bo‘lishi mumkin, masalan - Naive Bayes.
- Ko‘proq moslashuvchan: Qaror daraxtlari tasniflash va regressiya vazifalari uchun ishlatilishi mumkin, bu uni boshqa algoritmlarga qaraganda ko‘proq moslashuvchan qiladi. Bundan tashqari, atributlar orasidagi asosiy munosabatlarga befarq; bu shuni anglatadiki, agar ikkita o‘zgaruvchi o‘zaro bog‘liq bo‘lsa, algoritm faqat bo‘linadigan xususiyatlardan birini tanlaydi.
Kamchiliklari
- Haddan tashqari moslashishga moyil: Murakkab qarorlar daraxtlari haddan tashqari moslashadi va yangi ma’lumotlarni yaxshi umumlashtirmaydi. Ushbu ssenariyni kesishdan oldingi yoki keyingi kesish jarayonlari orqali oldini olish mumkin. Oldindan kesish ma’lumotlar yetarli bo‘lmaganda daraxt o‘sishini to‘xtatadi, keyingi kesish esa daraxt qurishdan keyin yetarli ma’lumotga ega bo‘lmagan pastki daraxtlarni olib tashlaydi.
- Yuqori tafovut hisoblagichlari: Ma’lumotlardagi kichik o‘zgarishlar juda boshqacha qaror daraxtini keltirib chiqarishi mumkin. Qoplash yoki hisob-kitoblarni o‘rtacha hisoblash qarorlar daraxtlarining farqini kamaytirish usuli bo‘lishi mumkin. Biroq, bu yondashuv cheklangan, chunki u yuqori korrelyatsiya qiluvchi prognozlarga olib kelishi mumkin.
- Ko‘proq qimmat: qaror daraxtlari qurilish vaqtida ochko‘z qidiruv yondashuvini hisobga olsak, boshqa algoritmlarga nisbatan ularni o‘qitish qimmatroq bo‘lishi mumkin.
- Scikit-learn-da to‘liq qo‘llab-quvvatlanmaydi: Scikit-learn - bu Python-da asoslangan mashhur mashina o‘rganish kutubxonasi. Ushbu kutubxonada Qarorlar daraxti moduli mavjud boʻlsa-da, joriy dastur toifali oʻzgaruvchilarni qoʻllab-quvvatlamaydi.
Download 0.96 Mb.

Do'stlaringiz bilan baham:
1   2   3




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling