51. O‘qituvchili o‘qitish (Supervised learning) algoritmlaridan chiziqli regressiyani kengroq yoritib bering

mustaqil o'zgaruvchilar bashorat qiluvchilardir

bet	3/7
Sana	23.01.2023
Hajmi	33.99 Kb.
	#1111442

1 2 3 4 5 6 7

55. Ma’lumotlarning intellektual tahlilida modeilni o‘qitish jarayonida ma’lumotlar to’plami (Data set) qanday qismlarga ajratiladi va ularning ahamiyati nimada

mustaqil o'zgaruvchilar bashorat qiluvchilardir;
qaram o'zgaruvchilar - bir yoki bir nechta bashorat qiluvchilar asosida hisoblangan maqsadli xususiyatlar.
Xususiyat tavsifi, namuna mavjud bo'lganda tasniflash muammolari uchun xosdir - ular qaysi sinflarga tegishliligi ma'lum bo'lgan ob'ektlarning cheklangan to'plami. Qolgan ob'ektlarning sinfga mansubligi noma'lum. Mashinani o'rganish jarayonida ixtiyoriy ob'ektni dastlabki to'plamdan tasniflay oladigan model quriladi [2]. Tasniflash vazifalarining amaliy ma'nosi kirish o'zgaruvchilari to'plamiga asoslangan mumkin bo'lgan natijalarni bashorat qilishdir, masalan, kasallik diagnostikasi, foydali qazilmalar konlari samaradorligini dastlabki baholash, kredit reytingi, nutqni aniqlash, mijozlarning ishlamay qolishini prognozlash (Churn Rate) va boshqalar.

Tasniflash vazifasining variantiga qarab, maqsadli xususiyat boshqacha ko'rinishi mumkin [1]:

ikkilik qiymatlari bo'lgan bitta ustun (1/0, TRUE/FALSE va boshqalar): har bir ob'ekt faqat bitta sinfga tegishli bo'lgan ikki sinfli tasnif (ikkilik tasnifi);
ikkilik qiymatli bir nechta ustunlar: bir ob'ekt bir nechta sinflarga tegishli bo'lishi mumkin bo'lgan ko'p yorliqli tasniflash muammosi;
haqiqiy qiymatlarga ega bitta ustun: bitta qiymat bashorat qilinganda regressiya tahlili;
Haqiqiy qiymatlarga ega bir nechta ustunlar: bir nechta qiymatlar bashorat qilinadigan bir nechta regressiya muammosi.
55. Ma’lumotlarning intellektual tahlilida modeilni o‘qitish jarayonida ma’lumotlar to’plami (Data set) qanday qismlarga ajratiladi va ularning ahamiyati nimada?
MA'LUMOTLAR TO'PLAMI NIMA: TURLARNI TANLASH
Dastlabki ma'lumotlarning birlamchi to'plami umumiy populyatsiya deb ataladi. Umumiy populyatsiyadan namunalarni shakllantirish jarayoni ma'lumotlarni ishlab chiqarish deb ataladi [3]. Namuna - bu umumiy to'plam elementlarining cheklangan kichik to'plami bo'lib, uni o'rganish orqali asl to'plamning xatti-harakatlarini tushunish mumkin. Masalan, umumiy aholi soni 150 ming saytga tashrif buyuruvchilardan iborat bo'lib, ulardan 250 nafari namunaga kiritilgan.
Ehtimoliy ma'lumotlarni yaratish modeli umumiy populyatsiyadan namuna tasodifiy shakllantirilishini nazarda tutadi. Agar uning barcha elementlari dastlabki to'plamga (umumiy to'plamga) teng ravishda tasodifiy va mustaqil ravishda taqsimlangan bo'lsa, tanlama oddiy deb ataladi. Oddiy namuna bir qator mustaqil tajribalarning matematik modeli bo'lib, odatda mashinani o'rganish uchun ishlatiladi. Shu bilan birga, Machine Learningning har bir bosqichi o'ziga xos ma'lumotlar to'plamini talab qiladi [3]:
modelni to'g'ridan-to'g'ri o'qitish uchun o'quv namunasi kerak bo'ladi, unga ko'ra algoritmni sozlash (parametrlarni optimallashtirish) amalga oshiriladi;
model sifatini baholash uchun test (nazorat) namunasi qo'llaniladi, bu ideal holatda o'qitishga bog'liq bo'lmasligi kerak;
Mashinani o'rganishning eng yaxshi modelini tanlash uchun sizga tekshirish namunasi kerak bo'ladi, u ham trening modeli bilan mos kelmasligi kerak.
MA'LUMOTLARNI QAZIB OLISH UCHUN NAMUNA QANDAY SHAKLLANISH MUMKIN
O'qitish va baholash namunalarini shakllantirish usullari mashinani o'rganish yordamida hal qilingan muammoning sinfiga bog'liq [1]:
tasniflash masalalari uchun ma'lumotlarni shunday bo'lish kerakki, natijada olingan to'plamlarda turli sinflar ob'ektlarining son nisbati dastlabki umumiy populyatsiyadagi kabi bo'ladi;
regressiya tahlili vazifalari uchun natijaviy to'plamlarda maqsadli o'zgaruvchining bir xil taqsimlanishi talab qilinadi, ular o'qitish va sifat nazorati uchun ishlatiladi.
Agar ushbu shartlar bajarilsa, o'qitish va baholash namunalarining hajmlari sezilarli darajada farq qilishi mumkin. Misol uchun, tekshirish ma'lumotlar to'plamining hajmi aholining 10% gacha bo'lishi mumkin. Namunalarni shakllantirishda asosiy narsa hech qanday holatda o'quv ma'lumotlar to'plamini baholash ma'lumotlar to'plami (sinov va tekshirish) bilan birlashtirmaslikdir, chunki bu Machine Learning modelini qayta tayyorlashga tahdid soladi. Bunday holda, model trening davomida yuqori sifatli ball oladi, lekin haqiqiy ma'lumotlarda bunday natijani ko'rsatmaydi.
Namuna hosil bo'lgandan so'ng, quyidagi CRISP-DM jarayonlari boshlanadi: ma'lumotlarni tozalash va xususiyatlar bilan ishlash: omillarning multikollinearligini yo'q qilish va Machine Learning modeli hajmini kamaytirish uchun keraksiz o'zgaruvchilarni yaratish, o'zgartirish, normallashtirish va yo'q qilish

Download 33.99 Kb.

Do'stlaringiz bilan baham:

1 2 3 4 5 6 7