Ma’ruza №2 Mavzu: Data Mining usullari va rivojlanish bosqichlari Reja: 1


Download 147.18 Kb.
bet6/14
Sana24.12.2022
Hajmi147.18 Kb.
#1061174
1   2   3   4   5   6   7   8   9   ...   14
Bog'liq
2- maruza

Regression tahlil – natijaviy o’zgaruvchi va prediktorlar orasidagi bog’liqliklarni qayta tiklash usulidir. Ma’lumotlar elementlarini eng katta soniga maksimal yaqin keluvchi eng mos kelgan chiziq topiladi. Bunday trend chizig’i ta’sir qiluvchi belgilarni o’lchangan kombinatsiyasi asosida hisoblanadi.
Ko’p o’lchamli regression tahlil chiquvchi belgilarni miqdoriy qiymatini bashoratlash uchun juda foydali va keng qo’llaniladigan model hisoblanadi. Regression tahlil belhilar orasidagi bog’liqliklarni aniqlash; bashoratlash va sinflashtirish (sinflar orasida ajratuvchi tekisliklarni berish uchun regression bog’liqlikdan foydalanilinganda) vazifasini yechish imkonini beradi.
Regression tahlilga quyidagi umumlashgan ko’p bosqichlik yondashuvlarni ajratishadi:

  • Vazifani shakllantirish – tadqiq qilinayotgan hodisalarni bog’liqlilgi to’g’risida ehtimoliy gipotezalar ta’kidlanadi;

  • Bog’liq va mustaqil o’zgaruvchilarni aniqlash (ta’siq qiluvchi);

  • Statistik ma’lumotlarni yig’ish – ma’lumotlar regression modelga kirgan o’zgaruvchilarni har birini o’zgarishini akslantirishi lozim;

  • Aloqa shakli (sodda yoki ko’p, chiziqli yoki nochiziq) va regression tenglama tuzish to’g’risida gipotezni shakllantirish;

  • Regressiya funksiyasini aniqlash – regression tenglama sonli parametrini hisoblash;

  • Regression tahlil aniqligini baholash;

  • Olingan natijalar interpretatsiyasi – olingan bog’liqlikni dastlabki gipoteza bilan taqqoslash, to’g’rilikni va haqiqatga yaqinlilikni baholash;

  • O’zgaruvchi noma’lum qiymatlarini bashoratlash.

2.4-jadval
O’qituvchi bilan o’qitish algoritmlari

Kategoriya

Asosiy xususiyatlar

Regression tahlil

k-yaqin qo’shnilar usuli

Tayanch vektorlar usuli

Yechimlar daraxti

Tasodifiy o`rmon

Neyron tarmoqlar

Bashoratlash

Binar o’zgaruvchilar







Kategorial o’zgaruvchilar











Ehtimoliy sinflar









Uzluksiz o’zgaruvchilar









Nochiziq munosabat









Tahlil

O’zgaruvchilarni katta soni











Foydalanish soddaligi













Hisoblashni yuqori tezligi













Natijalar

Yuqori aniqlik















Interpretatsiyalanishi













Regressiya ta’sir qiluvchi belgilar qiymatlarini buzilishiga sezgir va natija beruvchi o’zgaruvchilarni qiymatlarini buzilishiga deyarli bardoshli.
k-yaqin qo’shnilar usuli. Ma’lumot elementlari qo’shni elementlarga yaqinliligidan kelib chiqib sinflashtiriladi. Yaqin qo’shnilar soni k teng qilib beriladi.
k-yaqin qo’shnilar usuli asosida sinovdan o’tuvchi obyekt o’zining yaqin atrofidagi lokal sohada o’qitiladigan obyektlar sinfi kabi belgisi bo’lishini nazarda tutuvchi kompaktlik gipotezasi yotadi. Bunda har bir obyekt yaqin qo’shnisini sinfiga taalluqli.
ka) 1 bo’lganda o’qiuvchi tanlov misollarini to’g’ri tanib olishga erishiladi (eng yaqin qo’shni – bu obyektni o’zi), biroq noma’lum ma’lumotlarda qisman xatoliklar bo’ladi. k>1 ma’lum chegaradan oshganda nazorat tanlovida tanib olish o’sadi. Optimal nuqtai-nazardan k qiymatini bashoratlash kesishma tekshiruvidan foydalanilib topilishi mumkin. Buning uchun k ni aniq turli qiymatlari uchun k-yaqin qo’shnilar modeli quriladi va sinflashtirish xatoliklari baholanadi. So’ngra eng kam xatolikka mos keladigan k qiymat tanlanadi.
Tayanch vektorlar usuli. Ma'lumotlar elementlarini ikki guruhga ajratadi, ular orasidagi chegara ma'lumotlarning qo’shimcha elementlari, ya'ni har ikki guruhning qo'llab-quvvatlovchi vektorlari o'rtasida yotadi. Qo'llab-quvvatlash vektoridagi klassifikatorning asosiy g'oyasi - ajratish uchun juda muhim bo'lgan zonada joylashgan nuqtalarning faqat kichik qismini ishlatib, ajratuvchi sirtni yaratishdir, qolgan qismi esa ushbu hududdan tashqarida o'qitiladigan namunaning to'g'ri tasniflangan kuzatuvlarini e'tiborsiz qoldiriladi (aniqroq aytganda, optimallash algoritmi uchun "zahira"). Aslida, tayanch vektorlari to'g'ridan-to'g'ri ajratish yuzasining chegarasida yoki bo'sh joy chegaralariga nisbatan o'z sinfining noto'g'ri tomonida joylashgan kuzatishlarga aytiladi.
Yadro vazifalari — nochiziqlikni hisoblash uchun egri chegaralar bilan ishlashda, odatda, boshlang'ich prognozlarda turli funksional o'zgarishlar, shu jumladan, o'zgaruvchilar oralig’i kengaytiriladi. Har bir yadro optimallashtirilishi kerak bo'lgan parametrlar bilan tavsiflanadi. Yadrolardan foydalanishning asosiy g'oyasi shundaki, ma'lumotlarni yuqori o'lchamli maydonga ko'rsatishda dastlabki nuqta to'plami chiziqli ravishda ajratilishi mumkin. Katta o'lchamdagi kengaygan joylarda optimallashtirish muammosini hal qilish mumkin edi, chunki yadro faqat cheklangan tayanch vektorlari uchun yaratilgan. Bu turli xil shakllarning ajratuvchi sirtlari yordamida modellarni yaratish imkonini beradi.
Giper tekislikning joylashuvi faqat bo'shliq chegaralarida joylashgan yoki uni buzadigan kuzatishlar ta'sir qilganligi sababli, bunday tasniflashning hal qiluvchi qoidasi bo'linishning "favqulotda hudud"dan tashqarida joylashgan ko'pchilik nuqtalarning tashlab yuborilishiga juda chidamli. Bu xususiyat tayanch vektorlarning usulini boshqa tasniflagichlardan ajratib turadi.

Download 147.18 Kb.

Do'stlaringiz bilan baham:
1   2   3   4   5   6   7   8   9   ...   14




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling