“kompyuter injiniring” fakulteti IV bosqich ki 11-19 guruh talabasining


Download 147.71 Kb.
Pdf ko'rish
bet2/4
Sana09.06.2023
Hajmi147.71 Kb.
#1474971
1   2   3   4
Bog'liq
2-mustaqil ishni davomi p

MO’ning ehtimolli tizimlarida obyektlarni tanib olish masalalarini yechishda 
ehtimolli o’xshashlik o’lchovlaridan foydalaniladi va belgilar bilan sinflar 
orasidagi bog’liqlik e’tiborga olinadi. 
MO’ning mantiqiy tizimlarda belgilar sifatini mantiqiy qiymatlar qaraladi va 
bu belgilar asosida mulohazalar tuziladi. Bu mulohazalar Bul tenglamalar tizimi 
ko’rinishida ifodalanga bo’lib , o’zgaruvchilar sifatini belgilar va noma’lum 
qiymatlar sinflar deb qaraladi. 
MO’ning strukturali tizimlarda tanib olish masalalarining yechish usuli 
sifatida obyektlarni tavsiflovchi so’zlarning Grammatik tahlili qaraladi. Sinflar 
sifatida obyektlarni tavsiflovchi so’zlarning to’plami qaraladi. 
MO’ning kombinatsiyalashgan tizimlarda tanib olish masalalarining 
yechish usuli sifatida mahsus baholarni hisoblash usullari nazarda tutiladi . 


sinflarni tashkil etuvchi obyektlar aralash belgilardan , ya’ni determinalli, 
strukturali, ehtimolli va mantiqiy belgilardan iborat bo’ladi. 
Regulyarizatsiya (англ. regularization) (tartibga solish)- statistikada, mashinani 
o'rganishda, teskari vazifalar nazariyasida-noto'g'ri vazifani hal qilish yoki qayta 
o'qitishni oldini olish uchun vaziyatga qo'shimcha cheklovlar qo'shish usuli. 
Ko'pincha, bu ma'lumot modelning murakkabligi uchun jarima shakliga ega.
Regulyarizatsiya shuningdek, neyron tarmoqlarda ham juda katta tarmoq 
og'irliklari va qayta o'qitish bilan kurashish uchun ishlatiladi. Biroq, bu holda, L1-
regulyator yordamida koeffitsientlarni nollash chiziqli modellarda bo'lgani kabi, 
"belgilarni tanlash" ma'nosini ham o'z ichiga olmaydi. Afsuski, regulyarizatsiya 
parametrlarning sonini kamaytirmaydi va tarmoq tuzilishini soddalashtirmaydi.
Neyron tarmog'i uchun ampirik xavfga nisbatan jazo muddatini qo'shib 
qo'yishdan tashqari, qayta o'qitishga qarshi kurashning yana bir usuli — tarmoqni 
yupatish (ingliz tili. xato funktsiyasi o'zgarmaydi bo'lsa, tarmoq yanada 
soddalashtirish mumkin — qoida asosida, tarmoq soddalashtirish qaysi davomida 
dropout).
Regulyarizatsiya qayta jihozlashni kamaytirish orqali modellarni yanada foydali 
qilishi mumkin.
Regulyarizatsiya sizning neyron tarmoqingizning ish faoliyatini sezilarli darajada 
oshirishi, qayta jihozlashni kamaytirish mumkin.
Qayta o'qitish-bu neyron tarmoq umumiy qo'llaniladigan principlarni o'rganish 
o'rniga ta'lim ma'lumotlarining noyob xususiyatlarini (masalan, o'quv 
ma'lumotlarining shovqini) yodlashni boshlaydigan bir hodisa. "Qayta o'qitish" 
modeli o'quv ma'lumotlarida yuqori ko'rsatkichlarga ega bo'ladi, ammo sinovdan 
o'tgan ma'lumotlarning yomon ishlashi, ya'ni bu model haqiqiy dunyoda foydali 
bo'lmaydi, chunki u hech qachon ko'rmagan ma'lumotlarga yaxshi ishlamaydi 
oldin. Neyron tarmoq modellarining butun nuqtasi yangi ma'lumotlar bilan haqiqiy 
muammolarni hal qilishdir, chunki biz deyarli foydali modelni olish uchun qayta 
jihozlashdan qochmoqchimiz.
Sinflash vazifasida qayta jihozlash misoli:
Ushbu sinflash vazifasida biz qizil nuqtalarni ko'kdan ajratib turadigan chiziqni 
o'rganishni istaymiz. Qora chiziq kosmosdagi ko'k va qizil nuqtalarning 
joylashuvining umumiy tamoyilini aks ettiradigan yaxshi tasniflovchi hisoblanadi. 
Yashil chiziq qizil va ko'k nuqtalarning aniq o'quv to'plamiga juda xos bo'lganligi 
sababli, qayta jihozlashdan ta'sirlangan tasnifni ifodalaydi.
Yashil klassifikator chizig'i ko'zga ko'rinmas testlar to'plamida qanchalik yomon 
ishlayotganiga e'tibor bering, hatto ko'zga ko'rinmas testlar to'plami ko'k va qizil 
nuqtalarning umumiy joylashuvi sxemasiga mos keladi. Shuni ham ta'kidlash 
kerakki, hech qanday qoplamaga ega bo'lmagan qora chiziq hali ham sinov 
to'plamida yaxshi ishlaydi:
Qayta jihozlashning eng haddan tashqari versiyasi qachon sodir bo'ladi neyron 
tarmoqbuning barcha mashg'ulotlariga mos keladi. Bu neyron tarmoq juda ko'p 
parametrlarga ega bo'lganda va juda uzoq vaqt davomida o'qitilganda sodir bo'lishi 
mumkin.


Regulyarizatsiya ta'lim algoritmiga barqarorlikni qo'shib, ma'lumotlar va o'quv 
jarayonlariga nisbatan kamroq sezgir bo'ladi. Bizning baholash funktsiyamizni 
taqqoslash uchun biz foydalana oladigan haqiqiy xususiyatni bilmasligimiz yoki 
bilmasligimiz sababli, eng yaxshi strategiya o'quv ma'lumotlariga (qayta jihozlash) 
juda yaxshi mos keladigan juda murakkab modelni yaratish va uni tartibga 
solishdir. Tartibga solishdan foydalanib, biz umumlashma xatosini kamaytirishga 
harakat qilamiz va bu jarayonda o'rganish xatosining oshishiga olib kelishi 
mumkin va bu odatiy holdir, chunki biz modelning qanchalik yaxshi 
umumlashtirilishiga qiziqamiz. Regularizatsiya yordamida biz juda murakkab 
modelni qaytarib olishga harakat qilmoqdamiz, bu esa yaxshi modelga qayta 
moslashishga, ofsetlarni oshirishga va farqni kamaytirishga olib keladi. Bu 
murakkab modeldagi katta parametrlarga ega bo'lgan va oddiy model kichik 
parametrlarga ega bo'lgan taxminga asoslanadi.
Regulyarizatsiya-qayta jihozlashni bartaraf etishning samarali usuli. Haqiqiy 
ma'lumot taqsimotini bilmasligimiz sababli, ampirik taqsimotga asoslangan 
ampirik xavf qayta o'qitishga moyil. Shunday qilib, eng yaxshi strategiya, albatta, 
ta'lim ma'lumotlariga juda mos keladi va keyin modelni yaxshi umumlashtirishi 
uchun Regulyarizatsiya usulini qo'llaydi. L2 parametrini tartibga solish, Dropout 
bilan birga, mashinani o'rganishda eng ko'p ishlatiladigan regulyarizatsiya usullari 
hisoblanadi.
2. Regulyarizatsiya uchun ishlatiladigan ba'zi usullar
L2 parametrini regulyarizatsiya: shuningdek, vazn yo'qotish sifatida ham tanilgan, 
bu usul L2 me'yorini og'irlik stavkalarini boshlang'ich nuqtaga olib kelish uchun 
maqsadli funkciyaga qo'shib qo'yadi. Bu usul noldan bir xil nisbatda barcha 
og'irliklari kesadi-da; ammo, bu aniq nol bo'lishi uchun hech qanday vazn bor hech 
qachon.
L1 (Lasso) parametrini regulyarizatsiya: bu funktsiyani tanlash usuli sifatida 
qaralishi mumkin, chunki; l2ni tartibga solishdan farqli o'laroq, ba'zi og'irliklar 
aslida nolga teng bo'ladi. L1 me'yorini maqsadli funktsiyaga qo'shib, barcha 
og'irliklarni bir xil miqdorda kamaytiradi.
Chiqish: otpusk qoplarga qadoqlash texnikasi bir yondashuv sifatida qaralishi 
mumkin. Har bir yinelemede tasodifiy ravishda har bir qatlamda ba'zi neyronlarni 
o'chirib qo'yamiz va bu neyronlarni to'g'ridan-to'g'ri va teskari tarqatishda 
ishlatmaymiz. Bu neyron tarmog'ini og'irliklarni taqsimlashga va muayyan 
neyronlarga e'tibor bermaslikka olib keladi, chunki u har bir iteratsiyada qaysi 
neyronlarning paydo bo'lishini hech qachon bilmaydi. Shunday qilib, bu har bir 
iteratsiya bo'yicha turli modellarni o'qitish sifatida qaralishi mumkin. Bundan 
tashqari, biz har bir iteratsiya bo'yicha bir nechta neyronlarni olib tashlaganimiz 
sababli, bu tarmoqning pasayishiga olib keladi, bu esa o'z navbatida tarmoqni 
soddalashtirishni anglatadi.
Kattalashtirish: ta'lim misollarini ishlatib, noto'g'ri ma'lumotlarni qo'shing va 
tasvirni tanib olishda o'lchovni o'zgartirish va tasvirni aylantirish kabi buzilishlarni 
qo'shing. Fikr, yaxshi ishlashga erishish uchun modelni ko'proq ma'lumotlarga 
o'rgatish har doim ham yaxshi. Shuni esda tutingki, ilg'or misollar modelga 
mustaqil misollar sifatida juda ko'p ma'lumot qo'shmaydi, ammo bu ko'proq 


ma'lumotni yig'ish mumkin bo'lmaganda hali ham to'g'ri alternativ.
Erta to'xtash: bu usul xarajat funkciyasini optimallashtirishga va uni tartibga 
solishga harakat qiladi, shuning uchun u kamroq umumlashma xatosiga ega. Bu 
har bir iteraciya bo'yicha tasdiqlash xatosini yozib olish uchun ishlaydi. Tekshirish 
xatosi yaxshilansa, biz parametrlarning nusxasini saqlaymiz va optimallashtirish 
algoritmi tugamaguncha davom etamiz. Hisoblash vaqti va resurslari biz uchun 
muammo bo'lsa, bu yaxshi usul.
Biz L2 parametrlarini tartibga solishni ko'rib chiqamiz.
L2 parametrini regulyarizatsiyalash.
Odatda biz ofsetlarni tartibga solmaymiz va faqat og'irliklarni tuzatmaymiz. 
Hessen matritsasidan va o'z qadriyatlaridan va o'z vektorlaridan vazn 
yo'qotishining sezuvchanligini ko'rish uchun foydalanishimiz mumkin. Wi ning 
og'irligi (λi / λi + α) bilan o'zgartiriladi, bu erda λi (o'z qiymati) bu yo'nalishda 
Gessian matritsasining sezuvchanligini (o'z vektori) va a tartibga soluvchi 
giperparametrni o'lchaydi. Shuning uchun,
Agar λi 
≫ α a qiymati funktsiyasi bu yo'nalishda juda sezgir bo'lsa va tegishli 
og'irlik xarajatlarni sezilarli darajada kamaytirsa - juda kam (qisqaradi).
Agar λi
≪ α a qiymati funktsiyasi bu yo'nalishda sezgir bo'lmasa va tegishli og'irlik 
qiymatning sezilarli pasayishiga olib kelmasa, u nolga kamayadi (kamayadi).
Keyin maqsadli funktsiya (ikkilik o'zaro faoliyat entropiya) o'zgaradi:
Uchun:
Bundan tashqari, yangi gradyanlar va yangilanish tengligi bo'ladi:
Shuni esda tutingki, bu erda a-o'rganish tezligi va λ -tartibga soluvchi 
giperparametr. λ oshgani sayin, quyidagi ekstremal holatlar bilan ofset kuchayadi 
(va model kamroq moslashuvchan bo'ladi) (qarang: shakl 2):
λ = 0, tartibga solinmagan holda.
λ → ∞, model juda oddiy bo'lib, barcha og'irliklar aslida nolga teng. Regressiya 
holatida biz faqat maqsadli o'zgaruvchining o'rtacha qiymatiga teng bo'lgan 
ushlashni olamiz.
Ba'zan L2 parametrining regulyatsiyasi normal tenglama yordamida qanday 
ishlashini ko'rish foydali bo'ladi. Oddiy talab:
Bu degani:
Dispersiyaga λ qo'shilishi vazni kamaytiradi
X ^ TX qayta tiklanmasa ham, har bir funktsiyaga λ qo'shilishi uni to'liq darajadagi 
matritsaga aylantiradi.
Regulyarizatsiyabizni umumlashma xatosini kamaytirishga qanday yordam 
berishini ko'rsatish uchun cats_vs_dogs ma'lumotlar to'plamidan foydalanamiz. 
Ma'lumotlar to'plamida mushuk va itlar uchun tasvirlar mavjud. Rasmda mushuk 
yoki it borligini sinflash uchun neyron tarmoqni yaratishga harakat qilamiz. Har bir 
tasvir RGB o'lchamida 64 x 64 pikselga ega.
Biz yozgan xususiyatlardan foydalanamiz "neyron kodlash tarmog'i - to'g'ridan- 
to'g'ri tarqatish va teskari tarqatish" parametrlarni ishga tushirish, to'g'ridan-to'g'ri 
tarqatishni hisoblash, o'zaro faoliyat entropiya, gradyanlar va boshqalar.
Keling, ma'lumotlarni import qilaylik va shaklni, shuningdek, o'quv to'plamidan 
mushukning namunasini ko'rib chiqaylik.


O‘qitish ma’lumotlar o‘lchamlari:
O‘lcham X: (12288, 209), o‘lcham Y: (1, 209)
Test ma’lumotlar o‘lchamlari:
Hajmi X: (12288, 50), hajmi Y: (1, 50)
O'quv to'plamida 209 ta misol va test to'plamida 50 ta misol mavjud. Keling, 
ko'p qatlamli neyron tarmoqni yozishga yordam beradigan barcha yordamchi 
funktsiyalarni yozamiz.
L2 va L1 parametrlarini regulyarizatsiya kabi regulyarizatsiya usullarining 
bevosita taxminlaridan biri parametrlarning qiymati nolga teng bo'lishi va barcha 
parametrlarni nolga kamaytirishga harakat qilishdir. Bu shuni anglatadiki, ta'lim 
ma'lumotlariga juda yaxshi amal qilishdan qochish kerak, bu esa o'quv algoritmini 
ko'rinmas ma'lumotlarga nisbatan foydasiz bo'lgan ba'zi shovqinlarni ta'kidlashga 
olib keladi.
Neyron tarmoqlarni regulyarizatsiyalash
Birinchidan, tartibga solinmagan holda neyron tarmoqni quramiz, keyin 
regulyarizatsiyabilan, qaysi biri kamroq umumlashma xatosiga ega ekanligini 
ko'rishimiz mumkin. λ eng yaxshi natijalarni olish uchun moslashtirilishi 
kerakligini unutmang, lekin bu erda kontseptsiyani ko'rsatish uchun 
o'zboshimchalik bilan qiymatni tanlaymiz. Har ikki neyron tarmoqlari bo'ladi 2 har 
bir yashirin qatlami bor qaerda yashirin qatlamlari 5 ta.
# Qatlam ulchamlarini sozlash
layer_dims=X_train. shape0,5,5,1
# poezd NN
parametrlar = model_with_regularization (X_train, Y_train, layer_dims, 
learning_rate=0,03, num_epochs=2500, print_cost
=True, hidden_layers_activation_fn="tanh", lambd=0)
print (« O‘qitishning aniqlik darajasi: {}». format (aniqlik (X_train, parametrlar, 
Y_train, «tanh»)-7:))
print («Testning aniqlik darajasi: {}». format (aniqlik (X_test, parametrlar, Y_test, 
«tanh») -7:))
Narxi 100 iteratsiyadan so‘ng: 0.6555634398145331
Narxi 200 iteratsiyadan so‘ng: 0,6467746423961933
Narxi 300 iteratsiyadan so‘ng:0.6446638811282552
Narxi 400 iteratsiyadan so‘ng: 0.6441400737542232
O‘qitishning aniqlik koeffitsienti: 82,30%. Testning aniqligi:78,00%.
Treningning aniqligi 82,30%, sinov aniqligi esa 78%. Ta'lim va test aniqligi 
o'rtasidagi farq juda katta emas, ya'ni bizda juda ko'p narsa yo'q. Shuning uchun, 
kichik Regulyarizatsiyayordam berishi mumkin, masalan λ = 0,02. Amaliyotlarni 
tavsiya etadigan ls qiymatlari: 0,02, 0,04, 0,08, 0,16, 0,32, 0,64, 1,28, 2,56, 5,12, 
10,24.
#Poezd NN s regulyarizatsiey
parametrlar = model_with_regularization (X_train, 
Y_train,layer_dims,learning_rate=0,03,num_epochs=2500,print_cost
= True, hidden_layers_activation_fn = "tanh", lambd = 0,02)print («O‘qitishning 
aniqlik darajasi: {}». format (aniqlik (X_train, parametrlar,Y_train,«tanh»)-7:))


print («Testning aniqlik darajasi: {}». format (aniqlik 
(X_test,parametrlar,Y_test,«tanh») -7:))
Narxi 100 iteratsiyadan so‘ng: 0.6558634554205135
O‘qitishning aniqligi: 65,55%.
Testning aniqligi: 80,00%.
Yuqorida keltirilgan natijalar shuni ko'rsatadiki, biz 78% dan 80% gacha bo'lgan 
sinov aniqligini oshirib, umumlashma xatosini yaxshiladik. Boshqa tomondan, 
ta'limning aniqligi 82,30% dan 65,55% gacha kamaydi.
4. Logistik regressiya va uni tartibga solish
Logistik regressiya - bu taxminiy o'zgaruvchilar asosida ikkilik javob 
o'zgaruvchisini modellashtirish uchun ishlatiladigan statistik usul. Dastlab ikki 
sinfli yoki ikkilik javob muammolari uchun ishlab chiqilgan bo'lsa-da, bu usulni 
ko'p sinfli masalalar uchun umumlashtirish mumkin. Shunga qaramay, bizning 
misolimizdagi o'sma namunalari ma'lumotlari ikkitomonlama javob yoki ikki sinfli 
muammodir.
Logistik regressiya kontseptsiya sifatida chiziqli regressiyaga juda o'xshaydi va 
biz uni qiziqishning statistik taqsimotidan namuna olinadigan kuzatiladigan 
ma'lumotlarning ehtimolligini maksimal darajaga ko'taradigan statistik 
parametrlarni topishga harakat qiladigan "maksimal ehtimollarni baholash" 
muammosi deb hisoblashimiz mumkin. Bu, shuningdek, biz boshqariladigan 
mashinalarni o'rganish algoritmlarida ko'riladigan umumiy xarajatlar / zararlar 
funktsiyasi yondashuvi bilan juda bog'liq. Ikkilik javob o'zgaruvchilari bo'lsa, 
oddiy chiziqli regressiya modeli, masalan y men 
∼β0+β1x , bu noto'g'ri tanlov 
bo'ladi, chunki u osongina tashqarida qadriyatlarni yaratishi mumkin 0 dan 1 
chegara. Bizga kerak bo'lgan narsa - bashoratning pastki chegarasini nolga, yuqori 
chegarasini cheklaydigan model 1. Ushbu talabga birinchi navbatda muammoni 
boshqacha shakllantirish kerak. Agar y men faqat bo'lishi mumkin 0 yoki 1 , biz 
shakllantirishimiz mumkin y men ehtimolliklar bilan bitta va nol qiymatlarni qabul 
qila oladigan tasodifiy o'zgaruvchini amalga oshirish sifatida p men va 1- p navbati 
bilan. Ushbu tasodifiy o'zgaruvchi Bernulli taqsimotiga amal qiladi va ikkilik 
o'zgaruvchini bashorat qilish o'rniga biz muammoni quyidagicha shakllantirishimiz 
mumkin p men 
∼0+β1x . Biroq, bizning boshlang'ich muammomiz hanuzgacha 
davom etmoqda, oddiy chiziqli regressiya hali ham yuqori qiymatlarga olib keladi 
0 va 1 chegaralar. Chegaraviy talabni qondiradigan model quyida keltirilgan 
logistik tenglama hisoblanadi.
p men = e(β0+β1x ) va 1+e(β0+β1x)
Ushbu tenglamani quyidagi transformatsiya bilan chiziqlash mumkin
Logit (p ) = ln (p1-p) = β0+β1x
Chap tomon logit deb ataladi, ya'ni "logistika birligi" degan ma'noni anglatadi. 
Bundan tashqari, log stavkalari deb ham ataladi. Bunday holda, bizning modelimiz 
log miqyosida qiymatlarni hosil qiladi va yuqoridagi logistik tenglama bilan biz 
qiymatlarni 0 va 1 oralig'ida olamiz. Endi savol qoladi: "Bizning o'quv to'plamimiz 
uchun eng yaxshi parametrlarning taxminlari qanday". Biz maksimal ehtimollik 
doirasi bo'yicha eng yaxshi parametrlarni baholash statistik modelning haqiqatan 
ham kuzatilgan ma'lumotlarni ishlab chiqarish ehtimolini maksimal darajaga 


ko'tarishdir. Siz ushbu moslamani kuzatilgan ma'lumotlar to'plamiga ehtimollik 
taqsimoti deb o'ylashingiz mumkin. Ehtimollarni taqsimlash parametrlari 
kuzatilayotgan ma'lumotlarning ushbu taqsimotdan kelib chiqish ehtimolini 
maksimal darajada oshirishi kerak. Agar biz Gauss taqsimotidan foydalangan 
bo'lsak, kuzatilgan ma'lumotlar ushbu Gauss taqsimotidan olinishi yanada aniqroq 
bo'lguncha o'rtacha va dispersiya parametrlarini o'zgartirgan bo'lar edik. Logistik 
regressiyada javob o'zgaruvchisi binomial taqsimot yoki uning maxsus holati 
Bernulli taqsimoti bilan modellashtirilgan. Har bir javob o'zgaruvchining qiymati, 
y , 0 yoki 1 ga teng va biz parametrni aniqlashimiz kerak p 0 va 1 sonlarning 
bunday taqsimlanishini yaratishi mumkin bo'lgan qiymatlar. Agar biz eng 
yaxshisini topa olsak p men har bir o'sma namunasi uchun qiymatlar men , biz 
kuzatilgan ma'lumotlarga qaraganda modelning jurnalga kirish ehtimolligini 
maksimal darajaga ko'targan bo'lardik. Ikkilik javob o'zgaruvchisi uchun maksimal 
jurnalga o'xshashlik funktsiyasi tenglama sifatida ko'rsatilgan
ln(L)=N∑=1[ln(1-p)+y ln(p1-p)]
Ushbu tenglamani maksimal darajaga ko'tarish uchun biz tegmaslikni topishimiz 
kerak p parametrlarga bog'liq bo'lgan qiymatlar β0 va β1 shuningdek, taxminiy 
o'zgaruvchilar qiymatlariga bog'liq x .
Tenglamani almashtirishni qayta tuzishimiz mumkin p logistik tenglama bilan. 
Bundan tashqari, ko'plab optimallash funktsiyalari maksimal darajaga emas, balki 
minimallashtirishga imkon beradi. Shuning uchun biz salbiy jurnal ehtimolidan 
foydalanamiz, bu "log yo'qotish" yoki "logistik yo'qotish" funktsiyasi deb ham 
ataladi. Quyidagi funktsiya "jurnalni yo'qotish" funktsiyasidir. Biz almashtirdir p 
logistik tenglama bilan va ifodani soddalashtirdi. Keling, bu amalda qanday 
ishlashini ko'rib chiqaylik. Birinchidan, yuqoridagi misolda bo'lgani kabi, biz 
o'simta namunalarini "CIMP" va "no CIMP" subtiplariga tasniflash uchun bitta 
genning ekspressioni, bitta taxminiy o'zgaruvchidan foydalanamiz. Biz tasodifiy 
o'rmon modelidagi eng muhim o'zgaruvchilardan biri bo'lgan PDPN gen 
ekspressionidan foydalanamiz. Biz karetada formulalar interfeysidan 
foydalanamiz, bu erda javoblarning nomlarini va formulada taxminiy 
o'zgaruvchilarni taqdim etamiz. Bunday holda, biz stats to'plamidan yadroli R 
funktsiyasidan foydalanamiz, glm(). "Glm" umumlashtirilgan chiziqli modellarni 
anglatadi va u R ning har xil turdagi regressiyalari uchun asosiy interfeys 
hisoblanadi.
# mos logistik regressiya modeli
# usul a
O'ziga mos kelmaslik uchun tartibni tartibga solish
Agar biz modelning egiluvchanligini cheklay olsak, bu ko'rinmaydigan, yangi 
ma'lumotlar to'plamidagi ishlashga yordam beradi.


O’qitiluvchi va testlanivchi ma’lumotlar to’plami
Ma’lumotlar to’plami (Data set). Ma’lumotlar to’plami - bu o’qitish uchun kerakli 
bo’lgan ma'lumotlar to'plamidir. Boshqacha aytganda, ma'lumotlar to'plami 
ma'lumotlar bazasi jadvalining yoki bitta statistik ma'lumotlar 
matritsasining qiymatlari hisoblanib, bunda jadvalning har bir ustuni ma'lum 
o'zgaruvchini yoki parametr (x1, x2, ... , xn) qiymatini ifodalasa, har bir satr esa 
berilgan parametrlar asosidagi obyekt qiymatiga (X1, X2, ..., X N) to'g'ri keladi.
Machinali o’qitish loyihalarida biz o'quv ma'lumotlari to'plamidan (training 
dataset) foydalanamiz. Bu turli xil harakatlarni bajarish uchun modelni o\qitish 
uchun ishlatiladigan haqiqiy ma'lumotlar to'plami hisoblanadi.
Ma’lumot to’plamlari (data set) turlari. Mashinan io’qitish jarayonida va 
modelning to’liq ishlashini ta’minlash maqsadida quyidagi ma’lumotlar to’plami 
turlaridan foydalaniladi:
o'quv tanlanmasi - to'plami (training set);
qvalifikatsiya tanlanmasi - to’plami (qvalidation set);
test tanlanma - to'plami (qtesting set).
 
O’qitiluvchi va testlanuvchi ma’lumotlar to’plami. Ma'lumotlarni yig'ish - bu 
neyron tarmoqlar kabi tushunchalarni qanday qo'llashni o'rganish, natijalarni 
o'rganish uchun algoritmni tayyorlash uchun ishlatiladigan to'plamdir. Bunga 
ma'lumotlar va kutiladigan natijalar kiradi. O’quv tanlanma umumiy 
ma'lumotlarning ko'p qismini tashkil etadi, ya’ni taxminan 60-80%. Sinov 
tanlanma modellarning parametrlariga mos keladigan og'irliklarni sozlash deb 
nomlanadigan jarayon hisoblanadi.
Sinov ma'lumotlari to'plami algoritmning o'quv ma'lumotlari bilan qanchalik 
yaxshi o'qitilganligini baholash uchun ishlatiladi.
AI-loyihalar(AIprojects)da biz sinov bosqichida o'quv ma'lumotlari to'plamidan 
foydalana olmaymiz, chunki algoritm oldindan kutilgan natijani oldindan bilib 
oladi, bu bizning maqsadimiz emas.
Sinov to'plamlari ma'lumotlarning 20% ni tashkil etadi, testlar to'plami ma'lumotlar 
kiritilishi bilan tasdiqlangan to'g'ri natijalar bilan birgalikda guruhlangan 
ma'lumotlarni kiritish, odatda inson tomonidan tekshirilishi bilan ta'minlanadi.
Ma’lumotlarga dastlabki ishlov berish. Shaklni aniqlash: ma'lumotlar turli xil 
fayllarda tarqalishi mumkin. Masalan, turli xil valyutalar, tillar va hokazolarga ega 


bo'lgan turli mamlakatlardagi savdo natijalari ma'lumotlar to'plamini shakllantirish 
uchun bir joyga to'planadi.
Ma'lumotlarni tozalash: Ushbu bosqichda bizning maqsadimiz etishmayotgan 
qiymatlar bilan ishlash va keraksiz belgilarni ma'lumotlardan olib tashlashdan 
iborat.
Xususiyatlarni tanlash: Ushbu bosqichda biz funksiyalar sonini tahlil qilish va 
optimallashtirishga e'tibor qaratamiz. Odatda, jamoaning a'zosi bashorat qilish 
uchun qaysi xususiyatlar muhimligini aniqlab, tezroq hisoblash va kam xotira sarf 
qilish uchun ularni tanlashi kerak.
Ma'lumotlarni tozalash
Malumotlarni vizualizatsiyalsh  
Operatsiyalar
Modelni 
joylashtirish 
 
Modelni tasdiqlash
O’qitish
modeli
Mashinali o’qitish 
Ma'lumotlarni 
tayyorlash 
 
Ma'lumotlar 
muhandisligi
  
Ma'lumotlar 
tekshirish 
 
Dastlabki ma’lumotlar
Ma’lumotlarga dastlabki ishlov berish 10.1-rasmda keltirilgan.
10.1-rasm. Ma’lumotlarga dastlabki ishlov berish sxemasi.
2. 
Data Set

Data Table
, Data Row va Data 
Column haqida tushunchalar
  
DataSet - ma'lumotlar manbalaridan qat'i nazar, izchil dasturlash modelini 
ta'minlaydigan oddiy, doimiy ma'lumotlar bazasi. DataSet 
- bu tegishli jadvallar

cheklovlar va jadvallar o'rtasidagi munosabatlarni o'z ichiga olgan to'liq 
ma'lumotlar to'plami.
Odatda ma'lumotlar to'plami (DataSet) RelationsCollection obyekti tomonidan 
aniqlangan munosabatlarni o'z ichiga oladi. DataRelation obyekti xaritasi bir 
jadvaldagi qatorlar bilan boshqa ma'lumotlar jadvalidagi satrlar bilan ifodalangan 
munosabatlar. Bu relyatsion ma'lumotlar bazasidagi tashqi kalitlarga o'xshash 
ishlaydi.
DataRelation ikkita DataSets-dagi ustunlarning mosligini aniqlaydi. Aloqalar 
DataSet ichida bir jadvaldan boshqasiga o'tishga imkon beradi. DataRelation-ning 
asosiy elementlari quyidagilardir: 
munosabatlarning nomi
, ikkita jadvalning o'zlari 
bilan bog'lanishi, shuningdek jadvallarda birlamchi kalit va chet el kalitlari 
ustunlari. Aloqalar 
jadvaldagi bir nechta ustunlar
, birlamchi va chet el kalitlari 
uchun DataColumn moslamalari qatori asosida o'rnatilishi mumkin. 
DataRelation 
yaratilganda
, ADO.NET munosabatlar o'rnatilishi mumkinligini tekshiradi. 


ADO.NET munosabatlarga salbiy ta'sir ko'rsatishi mumkin bo'lgan keyingi 
o'zgarishlardan qochib, faqat bir marta RelationsCollectionga aloqalarni qo'shadi.
DataTable System. Data tomonidan belgilanadi va jadvalning sxemasi va satrlarini 
belgilaydigan ColumnsCollection obyekti tomonidan taqdim etilgan ustunlar 
to'plamini o'z ichiga olgan xotirada doimiy joylashgan ma'lumotlar jadvalini aks 
ettiradi. DataTable jadvalga ma'lumotlarni olib keladigan RowsCollection obyekti 
tomonidan namoyish etilgan qatorlar to'plamini o'z ichiga oladi. Joriy holat bilan 
bir qatorda DataTable obyekti asl holatini saqlab qoladi va ma'lumotlar bilan sodir 
bo'lgan barcha o'zgarishlarni kuzatib boradi. DataSet XML orqali tarkibni aks 
ettiruvchi ma'lumotlarni saqlashi va qayta yuklashi mumkin.
3. Ma'lumotlarni 
tahlil qilish Data Setlar
  
 
Ma'lumotlarni tahlil qilish va mashinada o’qitish juda ko'p ma'lumotlarni talab 
qiladi. Siz ularni o'zingiz 
birlashtira olasiz
, ammo bu zerikarli. Bu erda turli 
toifadagi tayyor ma'lumotlar to'plamlari bizning yordamimizga keladi va Datasetlar 
yordamida quyidagi ma’lumotlar tahlil qiliniishi mumkun: 
 
• Davlat ma'lumotlar to'plamlari;
• Uy-joy ma'lumotlari;
• 
Iqtisodiyot va moliya
;
• Kompyuterni ko'rish 
qobiliyati
;
• Tuyg'ularni 
tahlil qilish
;
• 
Tabiiy tilni qayta ishlash
;
• Avtopilotlar;
• Tibbiy ma'lumotlar va h.k.
Data set qidirish tizimlari. Bunday qidiruv tizimlari quyidagilardan iborat.
Google Dataset Search. Dataset Search kalit so'z bilan butun Internetda 
ma'lumotlar to'plamlarini qidirishga imkon beradi.
Kaggle. Ko'plab qiziqarli ma'lumotlar to'plamiga ega bo'lgan mashinasozlik 
musobaqalari maydonchasi. Ma'lumotlar to'plami ro'yxatida ramen reytingidan 
tortib NCAA basketbol ma'lumotlariga va Sietlning uy hayvonlari litsenziyasining 
ma'lumotlar bazasiga qadar turli xil namunalar mavjud.
UCI Machine Learning Repository. Internetdagi ma'lumotlar to'plamlarining eng 
qadimgi manbalaridan biri va qiziqarli ma'lumotlar to'plamini izlash uchun birinchi 
o'rinda turadi. Garchi ular foydalanuvchilar tomonidan qo'shilsa va shuning uchun 
har xil darajadagi "poklik" ga ega bo'lsa ham, aksariyati tozalanadi. Ma'lumotlarni 
ro'yxatdan o'tmasdan darhol yuklab olish mumkin.
Visual Data. Datasetlar kompyuterni ko'rish uchun, toifalarga ajratilgan va qidiruv 
mavjud.
Find Datasets | CMU Libraries. Karnegi Mellon universiteti tomonidan taqdim 
etilgan Datasetlar to'plami.
Davlat Datasetlari. Data.gov. Bu erda siz turli davlat idoralari ma'lumotlarini 


topishingiz mumkin. Bular davlat byudjetidan tortib barcha iforalar ma'lumotlarini 
yiginfisy mavjud.
Turar joy ma'lumotlari. Boston Housing Dataset. Shet davlati Qo'shma 
Shtatlarning aholini ro'yxatga olish byurosi tomonidan tuzilgan Bostondagi uy-joy 
haqida ma'lumot mavjud. U StatLib arxividan olingan va algoritmlarni baholashda 
adabiyotda keng qo'llanilgan.
Iqtisodiyot va moliyadagi Data setlar. Bularga quyidagilar kiradi: 
Quandl. Iqtisodiy va moliyaviy ma'lumotlarning yaxshi manbai - Iqtisodiy 
ko'rsatkichlarni yoki aksiyalar narxlarini bashorat qilish modellarini tuzishda 
foydalidir.

Download 147.71 Kb.

Do'stlaringiz bilan baham:
1   2   3   4




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling