Mavzu: Qarorlar daraxti
Qaror daraxtlarining turlari
Download 0.96 Mb.
|
mustaqil ish
- Bu sahifa navigatsiya:
- Har bir tugunda eng yaxshi atributni qanday tanlash mumkin
- Entropiya va ma’lumot olish
Qaror daraxtlarining turlari
1960-yillarda psixologiyada insonning o‘rganishini modellashtirish uchun ishlab chiqilgan Hunt algoritmi ko‘plab mashhur qarorlar daraxti algoritmlarining asosini tashkil qiladi, masalan: ID3: Ross Quinlan ID3-ni ishlab chiqishda ishtirok etadi, bu “Iterative Dichotomizer 3” ning qisqartmasi. Ushbu algoritm nomzodlarning bo‘linishini baholash uchun ko‘rsatkichlar sifatida entropiya va ma’lumot olishdan foydalanadi. C4.5: Bu algoritm ID3 ning keyingi iteratsiyasi hisoblanadi, u ham Quinlan tomonidan ishlab chiqilgan. Qaror daraxtlari ichidagi bo‘linish nuqtalarini baholash uchun ma’lumot olish yoki daromad nisbatlaridan foydalanishi mumkin. CART: CART atamasi “tasniflash va regressiya daraxtlari” ning qisqartmasi bo‘lib, Leo Breyman tomonidan kiritilgan. Ushbu algoritm odatda bo‘linish uchun ideal atributni aniqlash uchun Gini impurity dan foydalanadi. Gini impurity tasodifiy tanlangan atributning noto‘g‘ri tasniflanishini o‘lchaydi. Gini impurity dan foydalanishni baholashda pastroq qiymat idealroq bo‘ladi. Har bir tugunda eng yaxshi atributni qanday tanlash mumkin Har bir tugunda eng yaxshi atributni tanlashning bir necha yo‘li mavjud bo‘lsa-da, ikkita usul, ma’lumot olish va Gini impurity qaror daraxti modellari uchun mashhur bo‘linish mezoni bo‘lib xizmat qiladi. Ular har bir sinov shartining sifatini va u namunalarni sinfga qanchalik yaxshi tasniflay olishini baholashga yordam beradi. Entropiya va ma’lumot olish Avval entropiyani muhokama qilmasdan turib, ma’lumot olishini tushuntirish qiyin. Entropiya - bu namunaviy qiymatlarning impurity sini o‘lchaydigan axborot nazariyasidan kelib chiqadigan tushuncha. U quyidagi formula bilan aniqlanadi, bunda: Entropiya formulasi - S entropiya hisoblangan ma’lumotlar to‘plamini ifodalaydi; - c to‘plamdagi sinflarni ifodalaydi, S; - p(c) c sinfiga tegishli ma’lumotlar nuqtalarining to‘plamdagi umumiy ma’lumotlar nuqtalari soniga nisbatini ifodalaydi, S. Entropiya qiymatlari 0 dan 1 gacha tushishi mumkin. Agar ma’lumotlar to‘plamidagi barcha namunalar S, bitta sinfga tegishli bo‘lsa, entropiya nolga teng bo‘ladi. Agar namunalarning yarmi bitta sinfga, ikkinchi yarmi esa boshqa sinfga kirsa, entropiya 1da eng yuqori bo‘ladi. Bo‘lish uchun eng yaxshi xususiyatni tanlash va optimal qaror daraxtini topish uchun, eng kichigi bo‘lgan atribut entropiya miqdoridan foydalanish kerak. Axborot daromadi berilgan atribut bo‘yicha bo‘linishdan oldin va keyin entropiyadagi farqni ifodalaydi. Eng yuqori ma’lumotga ega bo‘lgan atribut eng yaxshi bo‘linishni keltirib chiqaradi, chunki u o‘quv ma’lumotlarini maqsadli tasnifiga ko‘ra tasniflashda eng yaxshi ishni bajaradi. Axborot olish odatda quyidagi formula bilan ifodalanadi, bu yerda: Axborot olish formulasi - a muayyan atribut yoki sinf yorlig‘ini ifodalaydi - Entropiya (S) – ma’lumotlar to‘plamining entropiyasi, S - |Sv|/ |S| Sv dagi qiymatlarning ma’lumotlar to‘plamidagi qiymatlar soniga nisbatini ifodalaydi, S - Entropiya (Sv) – ma’lumotlar to‘plamining entropiyasi, Sv Keling, ushbu tushunchalarni mustahkamlash uchun misolni ko‘rib chiqaylik. Tasavvur qilaylik, bizda quyidagi ixtiyoriy ma’lumotlar to‘plami bor:
Download 0.96 Mb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling