“kompyuter injiniring” fakulteti IV bosqich ki 11-19 guruh talabasining
Download 147.71 Kb. Pdf ko'rish
|
2-mustaqil ishni davomi p
MO’ning ehtimolli tizimlarida obyektlarni tanib olish masalalarini yechishda
ehtimolli o’xshashlik o’lchovlaridan foydalaniladi va belgilar bilan sinflar orasidagi bog’liqlik e’tiborga olinadi. MO’ning mantiqiy tizimlarda belgilar sifatini mantiqiy qiymatlar qaraladi va bu belgilar asosida mulohazalar tuziladi. Bu mulohazalar Bul tenglamalar tizimi ko’rinishida ifodalanga bo’lib , o’zgaruvchilar sifatini belgilar va noma’lum qiymatlar sinflar deb qaraladi. MO’ning strukturali tizimlarda tanib olish masalalarining yechish usuli sifatida obyektlarni tavsiflovchi so’zlarning Grammatik tahlili qaraladi. Sinflar sifatida obyektlarni tavsiflovchi so’zlarning to’plami qaraladi. MO’ning kombinatsiyalashgan tizimlarda tanib olish masalalarining yechish usuli sifatida mahsus baholarni hisoblash usullari nazarda tutiladi . sinflarni tashkil etuvchi obyektlar aralash belgilardan , ya’ni determinalli, strukturali, ehtimolli va mantiqiy belgilardan iborat bo’ladi. Regulyarizatsiya (англ. regularization) (tartibga solish)- statistikada, mashinani o'rganishda, teskari vazifalar nazariyasida-noto'g'ri vazifani hal qilish yoki qayta o'qitishni oldini olish uchun vaziyatga qo'shimcha cheklovlar qo'shish usuli. Ko'pincha, bu ma'lumot modelning murakkabligi uchun jarima shakliga ega. Regulyarizatsiya shuningdek, neyron tarmoqlarda ham juda katta tarmoq og'irliklari va qayta o'qitish bilan kurashish uchun ishlatiladi. Biroq, bu holda, L1- regulyator yordamida koeffitsientlarni nollash chiziqli modellarda bo'lgani kabi, "belgilarni tanlash" ma'nosini ham o'z ichiga olmaydi. Afsuski, regulyarizatsiya parametrlarning sonini kamaytirmaydi va tarmoq tuzilishini soddalashtirmaydi. Neyron tarmog'i uchun ampirik xavfga nisbatan jazo muddatini qo'shib qo'yishdan tashqari, qayta o'qitishga qarshi kurashning yana bir usuli — tarmoqni yupatish (ingliz tili. xato funktsiyasi o'zgarmaydi bo'lsa, tarmoq yanada soddalashtirish mumkin — qoida asosida, tarmoq soddalashtirish qaysi davomida dropout). Regulyarizatsiya qayta jihozlashni kamaytirish orqali modellarni yanada foydali qilishi mumkin. Regulyarizatsiya sizning neyron tarmoqingizning ish faoliyatini sezilarli darajada oshirishi, qayta jihozlashni kamaytirish mumkin. Qayta o'qitish-bu neyron tarmoq umumiy qo'llaniladigan principlarni o'rganish o'rniga ta'lim ma'lumotlarining noyob xususiyatlarini (masalan, o'quv ma'lumotlarining shovqini) yodlashni boshlaydigan bir hodisa. "Qayta o'qitish" modeli o'quv ma'lumotlarida yuqori ko'rsatkichlarga ega bo'ladi, ammo sinovdan o'tgan ma'lumotlarning yomon ishlashi, ya'ni bu model haqiqiy dunyoda foydali bo'lmaydi, chunki u hech qachon ko'rmagan ma'lumotlarga yaxshi ishlamaydi oldin. Neyron tarmoq modellarining butun nuqtasi yangi ma'lumotlar bilan haqiqiy muammolarni hal qilishdir, chunki biz deyarli foydali modelni olish uchun qayta jihozlashdan qochmoqchimiz. Sinflash vazifasida qayta jihozlash misoli: Ushbu sinflash vazifasida biz qizil nuqtalarni ko'kdan ajratib turadigan chiziqni o'rganishni istaymiz. Qora chiziq kosmosdagi ko'k va qizil nuqtalarning joylashuvining umumiy tamoyilini aks ettiradigan yaxshi tasniflovchi hisoblanadi. Yashil chiziq qizil va ko'k nuqtalarning aniq o'quv to'plamiga juda xos bo'lganligi sababli, qayta jihozlashdan ta'sirlangan tasnifni ifodalaydi. Yashil klassifikator chizig'i ko'zga ko'rinmas testlar to'plamida qanchalik yomon ishlayotganiga e'tibor bering, hatto ko'zga ko'rinmas testlar to'plami ko'k va qizil nuqtalarning umumiy joylashuvi sxemasiga mos keladi. Shuni ham ta'kidlash kerakki, hech qanday qoplamaga ega bo'lmagan qora chiziq hali ham sinov to'plamida yaxshi ishlaydi: Qayta jihozlashning eng haddan tashqari versiyasi qachon sodir bo'ladi neyron tarmoqbuning barcha mashg'ulotlariga mos keladi. Bu neyron tarmoq juda ko'p parametrlarga ega bo'lganda va juda uzoq vaqt davomida o'qitilganda sodir bo'lishi mumkin. Regulyarizatsiya ta'lim algoritmiga barqarorlikni qo'shib, ma'lumotlar va o'quv jarayonlariga nisbatan kamroq sezgir bo'ladi. Bizning baholash funktsiyamizni taqqoslash uchun biz foydalana oladigan haqiqiy xususiyatni bilmasligimiz yoki bilmasligimiz sababli, eng yaxshi strategiya o'quv ma'lumotlariga (qayta jihozlash) juda yaxshi mos keladigan juda murakkab modelni yaratish va uni tartibga solishdir. Tartibga solishdan foydalanib, biz umumlashma xatosini kamaytirishga harakat qilamiz va bu jarayonda o'rganish xatosining oshishiga olib kelishi mumkin va bu odatiy holdir, chunki biz modelning qanchalik yaxshi umumlashtirilishiga qiziqamiz. Regularizatsiya yordamida biz juda murakkab modelni qaytarib olishga harakat qilmoqdamiz, bu esa yaxshi modelga qayta moslashishga, ofsetlarni oshirishga va farqni kamaytirishga olib keladi. Bu murakkab modeldagi katta parametrlarga ega bo'lgan va oddiy model kichik parametrlarga ega bo'lgan taxminga asoslanadi. Regulyarizatsiya-qayta jihozlashni bartaraf etishning samarali usuli. Haqiqiy ma'lumot taqsimotini bilmasligimiz sababli, ampirik taqsimotga asoslangan ampirik xavf qayta o'qitishga moyil. Shunday qilib, eng yaxshi strategiya, albatta, ta'lim ma'lumotlariga juda mos keladi va keyin modelni yaxshi umumlashtirishi uchun Regulyarizatsiya usulini qo'llaydi. L2 parametrini tartibga solish, Dropout bilan birga, mashinani o'rganishda eng ko'p ishlatiladigan regulyarizatsiya usullari hisoblanadi. 2. Regulyarizatsiya uchun ishlatiladigan ba'zi usullar L2 parametrini regulyarizatsiya: shuningdek, vazn yo'qotish sifatida ham tanilgan, bu usul L2 me'yorini og'irlik stavkalarini boshlang'ich nuqtaga olib kelish uchun maqsadli funkciyaga qo'shib qo'yadi. Bu usul noldan bir xil nisbatda barcha og'irliklari kesadi-da; ammo, bu aniq nol bo'lishi uchun hech qanday vazn bor hech qachon. L1 (Lasso) parametrini regulyarizatsiya: bu funktsiyani tanlash usuli sifatida qaralishi mumkin, chunki; l2ni tartibga solishdan farqli o'laroq, ba'zi og'irliklar aslida nolga teng bo'ladi. L1 me'yorini maqsadli funktsiyaga qo'shib, barcha og'irliklarni bir xil miqdorda kamaytiradi. Chiqish: otpusk qoplarga qadoqlash texnikasi bir yondashuv sifatida qaralishi mumkin. Har bir yinelemede tasodifiy ravishda har bir qatlamda ba'zi neyronlarni o'chirib qo'yamiz va bu neyronlarni to'g'ridan-to'g'ri va teskari tarqatishda ishlatmaymiz. Bu neyron tarmog'ini og'irliklarni taqsimlashga va muayyan neyronlarga e'tibor bermaslikka olib keladi, chunki u har bir iteratsiyada qaysi neyronlarning paydo bo'lishini hech qachon bilmaydi. Shunday qilib, bu har bir iteratsiya bo'yicha turli modellarni o'qitish sifatida qaralishi mumkin. Bundan tashqari, biz har bir iteratsiya bo'yicha bir nechta neyronlarni olib tashlaganimiz sababli, bu tarmoqning pasayishiga olib keladi, bu esa o'z navbatida tarmoqni soddalashtirishni anglatadi. Kattalashtirish: ta'lim misollarini ishlatib, noto'g'ri ma'lumotlarni qo'shing va tasvirni tanib olishda o'lchovni o'zgartirish va tasvirni aylantirish kabi buzilishlarni qo'shing. Fikr, yaxshi ishlashga erishish uchun modelni ko'proq ma'lumotlarga o'rgatish har doim ham yaxshi. Shuni esda tutingki, ilg'or misollar modelga mustaqil misollar sifatida juda ko'p ma'lumot qo'shmaydi, ammo bu ko'proq ma'lumotni yig'ish mumkin bo'lmaganda hali ham to'g'ri alternativ. Erta to'xtash: bu usul xarajat funkciyasini optimallashtirishga va uni tartibga solishga harakat qiladi, shuning uchun u kamroq umumlashma xatosiga ega. Bu har bir iteraciya bo'yicha tasdiqlash xatosini yozib olish uchun ishlaydi. Tekshirish xatosi yaxshilansa, biz parametrlarning nusxasini saqlaymiz va optimallashtirish algoritmi tugamaguncha davom etamiz. Hisoblash vaqti va resurslari biz uchun muammo bo'lsa, bu yaxshi usul. Biz L2 parametrlarini tartibga solishni ko'rib chiqamiz. L2 parametrini regulyarizatsiyalash. Odatda biz ofsetlarni tartibga solmaymiz va faqat og'irliklarni tuzatmaymiz. Hessen matritsasidan va o'z qadriyatlaridan va o'z vektorlaridan vazn yo'qotishining sezuvchanligini ko'rish uchun foydalanishimiz mumkin. Wi ning og'irligi (λi / λi + α) bilan o'zgartiriladi, bu erda λi (o'z qiymati) bu yo'nalishda Gessian matritsasining sezuvchanligini (o'z vektori) va a tartibga soluvchi giperparametrni o'lchaydi. Shuning uchun, Agar λi ≫ α a qiymati funktsiyasi bu yo'nalishda juda sezgir bo'lsa va tegishli og'irlik xarajatlarni sezilarli darajada kamaytirsa - juda kam (qisqaradi). Agar λi ≪ α a qiymati funktsiyasi bu yo'nalishda sezgir bo'lmasa va tegishli og'irlik qiymatning sezilarli pasayishiga olib kelmasa, u nolga kamayadi (kamayadi). Keyin maqsadli funktsiya (ikkilik o'zaro faoliyat entropiya) o'zgaradi: Uchun: Bundan tashqari, yangi gradyanlar va yangilanish tengligi bo'ladi: Shuni esda tutingki, bu erda a-o'rganish tezligi va λ -tartibga soluvchi giperparametr. λ oshgani sayin, quyidagi ekstremal holatlar bilan ofset kuchayadi (va model kamroq moslashuvchan bo'ladi) (qarang: shakl 2): λ = 0, tartibga solinmagan holda. λ → ∞, model juda oddiy bo'lib, barcha og'irliklar aslida nolga teng. Regressiya holatida biz faqat maqsadli o'zgaruvchining o'rtacha qiymatiga teng bo'lgan ushlashni olamiz. Ba'zan L2 parametrining regulyatsiyasi normal tenglama yordamida qanday ishlashini ko'rish foydali bo'ladi. Oddiy talab: Bu degani: Dispersiyaga λ qo'shilishi vazni kamaytiradi X ^ TX qayta tiklanmasa ham, har bir funktsiyaga λ qo'shilishi uni to'liq darajadagi matritsaga aylantiradi. Regulyarizatsiyabizni umumlashma xatosini kamaytirishga qanday yordam berishini ko'rsatish uchun cats_vs_dogs ma'lumotlar to'plamidan foydalanamiz. Ma'lumotlar to'plamida mushuk va itlar uchun tasvirlar mavjud. Rasmda mushuk yoki it borligini sinflash uchun neyron tarmoqni yaratishga harakat qilamiz. Har bir tasvir RGB o'lchamida 64 x 64 pikselga ega. Biz yozgan xususiyatlardan foydalanamiz "neyron kodlash tarmog'i - to'g'ridan- to'g'ri tarqatish va teskari tarqatish" parametrlarni ishga tushirish, to'g'ridan-to'g'ri tarqatishni hisoblash, o'zaro faoliyat entropiya, gradyanlar va boshqalar. Keling, ma'lumotlarni import qilaylik va shaklni, shuningdek, o'quv to'plamidan mushukning namunasini ko'rib chiqaylik. O‘qitish ma’lumotlar o‘lchamlari: O‘lcham X: (12288, 209), o‘lcham Y: (1, 209) Test ma’lumotlar o‘lchamlari: Hajmi X: (12288, 50), hajmi Y: (1, 50) O'quv to'plamida 209 ta misol va test to'plamida 50 ta misol mavjud. Keling, ko'p qatlamli neyron tarmoqni yozishga yordam beradigan barcha yordamchi funktsiyalarni yozamiz. L2 va L1 parametrlarini regulyarizatsiya kabi regulyarizatsiya usullarining bevosita taxminlaridan biri parametrlarning qiymati nolga teng bo'lishi va barcha parametrlarni nolga kamaytirishga harakat qilishdir. Bu shuni anglatadiki, ta'lim ma'lumotlariga juda yaxshi amal qilishdan qochish kerak, bu esa o'quv algoritmini ko'rinmas ma'lumotlarga nisbatan foydasiz bo'lgan ba'zi shovqinlarni ta'kidlashga olib keladi. Neyron tarmoqlarni regulyarizatsiyalash Birinchidan, tartibga solinmagan holda neyron tarmoqni quramiz, keyin regulyarizatsiyabilan, qaysi biri kamroq umumlashma xatosiga ega ekanligini ko'rishimiz mumkin. λ eng yaxshi natijalarni olish uchun moslashtirilishi kerakligini unutmang, lekin bu erda kontseptsiyani ko'rsatish uchun o'zboshimchalik bilan qiymatni tanlaymiz. Har ikki neyron tarmoqlari bo'ladi 2 har bir yashirin qatlami bor qaerda yashirin qatlamlari 5 ta. # Qatlam ulchamlarini sozlash layer_dims=X_train. shape0,5,5,1 # poezd NN parametrlar = model_with_regularization (X_train, Y_train, layer_dims, learning_rate=0,03, num_epochs=2500, print_cost =True, hidden_layers_activation_fn="tanh", lambd=0) print (« O‘qitishning aniqlik darajasi: {}». format (aniqlik (X_train, parametrlar, Y_train, «tanh»)-7:)) print («Testning aniqlik darajasi: {}». format (aniqlik (X_test, parametrlar, Y_test, «tanh») -7:)) Narxi 100 iteratsiyadan so‘ng: 0.6555634398145331 Narxi 200 iteratsiyadan so‘ng: 0,6467746423961933 Narxi 300 iteratsiyadan so‘ng:0.6446638811282552 Narxi 400 iteratsiyadan so‘ng: 0.6441400737542232 O‘qitishning aniqlik koeffitsienti: 82,30%. Testning aniqligi:78,00%. Treningning aniqligi 82,30%, sinov aniqligi esa 78%. Ta'lim va test aniqligi o'rtasidagi farq juda katta emas, ya'ni bizda juda ko'p narsa yo'q. Shuning uchun, kichik Regulyarizatsiyayordam berishi mumkin, masalan λ = 0,02. Amaliyotlarni tavsiya etadigan ls qiymatlari: 0,02, 0,04, 0,08, 0,16, 0,32, 0,64, 1,28, 2,56, 5,12, 10,24. #Poezd NN s regulyarizatsiey parametrlar = model_with_regularization (X_train, Y_train,layer_dims,learning_rate=0,03,num_epochs=2500,print_cost = True, hidden_layers_activation_fn = "tanh", lambd = 0,02)print («O‘qitishning aniqlik darajasi: {}». format (aniqlik (X_train, parametrlar,Y_train,«tanh»)-7:)) print («Testning aniqlik darajasi: {}». format (aniqlik (X_test,parametrlar,Y_test,«tanh») -7:)) Narxi 100 iteratsiyadan so‘ng: 0.6558634554205135 O‘qitishning aniqligi: 65,55%. Testning aniqligi: 80,00%. Yuqorida keltirilgan natijalar shuni ko'rsatadiki, biz 78% dan 80% gacha bo'lgan sinov aniqligini oshirib, umumlashma xatosini yaxshiladik. Boshqa tomondan, ta'limning aniqligi 82,30% dan 65,55% gacha kamaydi. 4. Logistik regressiya va uni tartibga solish Logistik regressiya - bu taxminiy o'zgaruvchilar asosida ikkilik javob o'zgaruvchisini modellashtirish uchun ishlatiladigan statistik usul. Dastlab ikki sinfli yoki ikkilik javob muammolari uchun ishlab chiqilgan bo'lsa-da, bu usulni ko'p sinfli masalalar uchun umumlashtirish mumkin. Shunga qaramay, bizning misolimizdagi o'sma namunalari ma'lumotlari ikkitomonlama javob yoki ikki sinfli muammodir. Logistik regressiya kontseptsiya sifatida chiziqli regressiyaga juda o'xshaydi va biz uni qiziqishning statistik taqsimotidan namuna olinadigan kuzatiladigan ma'lumotlarning ehtimolligini maksimal darajaga ko'taradigan statistik parametrlarni topishga harakat qiladigan "maksimal ehtimollarni baholash" muammosi deb hisoblashimiz mumkin. Bu, shuningdek, biz boshqariladigan mashinalarni o'rganish algoritmlarida ko'riladigan umumiy xarajatlar / zararlar funktsiyasi yondashuvi bilan juda bog'liq. Ikkilik javob o'zgaruvchilari bo'lsa, oddiy chiziqli regressiya modeli, masalan y men ∼β0+β1x , bu noto'g'ri tanlov bo'ladi, chunki u osongina tashqarida qadriyatlarni yaratishi mumkin 0 dan 1 chegara. Bizga kerak bo'lgan narsa - bashoratning pastki chegarasini nolga, yuqori chegarasini cheklaydigan model 1. Ushbu talabga birinchi navbatda muammoni boshqacha shakllantirish kerak. Agar y men faqat bo'lishi mumkin 0 yoki 1 , biz shakllantirishimiz mumkin y men ehtimolliklar bilan bitta va nol qiymatlarni qabul qila oladigan tasodifiy o'zgaruvchini amalga oshirish sifatida p men va 1- p navbati bilan. Ushbu tasodifiy o'zgaruvchi Bernulli taqsimotiga amal qiladi va ikkilik o'zgaruvchini bashorat qilish o'rniga biz muammoni quyidagicha shakllantirishimiz mumkin p men ∼0+β1x . Biroq, bizning boshlang'ich muammomiz hanuzgacha davom etmoqda, oddiy chiziqli regressiya hali ham yuqori qiymatlarga olib keladi 0 va 1 chegaralar. Chegaraviy talabni qondiradigan model quyida keltirilgan logistik tenglama hisoblanadi. p men = e(β0+β1x ) va 1+e(β0+β1x) Ushbu tenglamani quyidagi transformatsiya bilan chiziqlash mumkin Logit (p ) = ln (p1-p) = β0+β1x Chap tomon logit deb ataladi, ya'ni "logistika birligi" degan ma'noni anglatadi. Bundan tashqari, log stavkalari deb ham ataladi. Bunday holda, bizning modelimiz log miqyosida qiymatlarni hosil qiladi va yuqoridagi logistik tenglama bilan biz qiymatlarni 0 va 1 oralig'ida olamiz. Endi savol qoladi: "Bizning o'quv to'plamimiz uchun eng yaxshi parametrlarning taxminlari qanday". Biz maksimal ehtimollik doirasi bo'yicha eng yaxshi parametrlarni baholash statistik modelning haqiqatan ham kuzatilgan ma'lumotlarni ishlab chiqarish ehtimolini maksimal darajaga ko'tarishdir. Siz ushbu moslamani kuzatilgan ma'lumotlar to'plamiga ehtimollik taqsimoti deb o'ylashingiz mumkin. Ehtimollarni taqsimlash parametrlari kuzatilayotgan ma'lumotlarning ushbu taqsimotdan kelib chiqish ehtimolini maksimal darajada oshirishi kerak. Agar biz Gauss taqsimotidan foydalangan bo'lsak, kuzatilgan ma'lumotlar ushbu Gauss taqsimotidan olinishi yanada aniqroq bo'lguncha o'rtacha va dispersiya parametrlarini o'zgartirgan bo'lar edik. Logistik regressiyada javob o'zgaruvchisi binomial taqsimot yoki uning maxsus holati Bernulli taqsimoti bilan modellashtirilgan. Har bir javob o'zgaruvchining qiymati, y , 0 yoki 1 ga teng va biz parametrni aniqlashimiz kerak p 0 va 1 sonlarning bunday taqsimlanishini yaratishi mumkin bo'lgan qiymatlar. Agar biz eng yaxshisini topa olsak p men har bir o'sma namunasi uchun qiymatlar men , biz kuzatilgan ma'lumotlarga qaraganda modelning jurnalga kirish ehtimolligini maksimal darajaga ko'targan bo'lardik. Ikkilik javob o'zgaruvchisi uchun maksimal jurnalga o'xshashlik funktsiyasi tenglama sifatida ko'rsatilgan ln(L)=N∑=1[ln(1-p)+y ln(p1-p)] Ushbu tenglamani maksimal darajaga ko'tarish uchun biz tegmaslikni topishimiz kerak p parametrlarga bog'liq bo'lgan qiymatlar β0 va β1 shuningdek, taxminiy o'zgaruvchilar qiymatlariga bog'liq x . Tenglamani almashtirishni qayta tuzishimiz mumkin p logistik tenglama bilan. Bundan tashqari, ko'plab optimallash funktsiyalari maksimal darajaga emas, balki minimallashtirishga imkon beradi. Shuning uchun biz salbiy jurnal ehtimolidan foydalanamiz, bu "log yo'qotish" yoki "logistik yo'qotish" funktsiyasi deb ham ataladi. Quyidagi funktsiya "jurnalni yo'qotish" funktsiyasidir. Biz almashtirdir p logistik tenglama bilan va ifodani soddalashtirdi. Keling, bu amalda qanday ishlashini ko'rib chiqaylik. Birinchidan, yuqoridagi misolda bo'lgani kabi, biz o'simta namunalarini "CIMP" va "no CIMP" subtiplariga tasniflash uchun bitta genning ekspressioni, bitta taxminiy o'zgaruvchidan foydalanamiz. Biz tasodifiy o'rmon modelidagi eng muhim o'zgaruvchilardan biri bo'lgan PDPN gen ekspressionidan foydalanamiz. Biz karetada formulalar interfeysidan foydalanamiz, bu erda javoblarning nomlarini va formulada taxminiy o'zgaruvchilarni taqdim etamiz. Bunday holda, biz stats to'plamidan yadroli R funktsiyasidan foydalanamiz, glm(). "Glm" umumlashtirilgan chiziqli modellarni anglatadi va u R ning har xil turdagi regressiyalari uchun asosiy interfeys hisoblanadi. # mos logistik regressiya modeli # usul a O'ziga mos kelmaslik uchun tartibni tartibga solish Agar biz modelning egiluvchanligini cheklay olsak, bu ko'rinmaydigan, yangi ma'lumotlar to'plamidagi ishlashga yordam beradi. O’qitiluvchi va testlanivchi ma’lumotlar to’plami Ma’lumotlar to’plami (Data set). Ma’lumotlar to’plami - bu o’qitish uchun kerakli bo’lgan ma'lumotlar to'plamidir. Boshqacha aytganda, ma'lumotlar to'plami ma'lumotlar bazasi jadvalining yoki bitta statistik ma'lumotlar matritsasining qiymatlari hisoblanib, bunda jadvalning har bir ustuni ma'lum o'zgaruvchini yoki parametr (x1, x2, ... , xn) qiymatini ifodalasa, har bir satr esa berilgan parametrlar asosidagi obyekt qiymatiga (X1, X2, ..., X N) to'g'ri keladi. Machinali o’qitish loyihalarida biz o'quv ma'lumotlari to'plamidan (training dataset) foydalanamiz. Bu turli xil harakatlarni bajarish uchun modelni o\qitish uchun ishlatiladigan haqiqiy ma'lumotlar to'plami hisoblanadi. Ma’lumot to’plamlari (data set) turlari. Mashinan io’qitish jarayonida va modelning to’liq ishlashini ta’minlash maqsadida quyidagi ma’lumotlar to’plami turlaridan foydalaniladi: o'quv tanlanmasi - to'plami (training set); qvalifikatsiya tanlanmasi - to’plami (qvalidation set); test tanlanma - to'plami (qtesting set). O’qitiluvchi va testlanuvchi ma’lumotlar to’plami. Ma'lumotlarni yig'ish - bu neyron tarmoqlar kabi tushunchalarni qanday qo'llashni o'rganish, natijalarni o'rganish uchun algoritmni tayyorlash uchun ishlatiladigan to'plamdir. Bunga ma'lumotlar va kutiladigan natijalar kiradi. O’quv tanlanma umumiy ma'lumotlarning ko'p qismini tashkil etadi, ya’ni taxminan 60-80%. Sinov tanlanma modellarning parametrlariga mos keladigan og'irliklarni sozlash deb nomlanadigan jarayon hisoblanadi. Sinov ma'lumotlari to'plami algoritmning o'quv ma'lumotlari bilan qanchalik yaxshi o'qitilganligini baholash uchun ishlatiladi. AI-loyihalar(AIprojects)da biz sinov bosqichida o'quv ma'lumotlari to'plamidan foydalana olmaymiz, chunki algoritm oldindan kutilgan natijani oldindan bilib oladi, bu bizning maqsadimiz emas. Sinov to'plamlari ma'lumotlarning 20% ni tashkil etadi, testlar to'plami ma'lumotlar kiritilishi bilan tasdiqlangan to'g'ri natijalar bilan birgalikda guruhlangan ma'lumotlarni kiritish, odatda inson tomonidan tekshirilishi bilan ta'minlanadi. Ma’lumotlarga dastlabki ishlov berish. Shaklni aniqlash: ma'lumotlar turli xil fayllarda tarqalishi mumkin. Masalan, turli xil valyutalar, tillar va hokazolarga ega bo'lgan turli mamlakatlardagi savdo natijalari ma'lumotlar to'plamini shakllantirish uchun bir joyga to'planadi. Ma'lumotlarni tozalash: Ushbu bosqichda bizning maqsadimiz etishmayotgan qiymatlar bilan ishlash va keraksiz belgilarni ma'lumotlardan olib tashlashdan iborat. Xususiyatlarni tanlash: Ushbu bosqichda biz funksiyalar sonini tahlil qilish va optimallashtirishga e'tibor qaratamiz. Odatda, jamoaning a'zosi bashorat qilish uchun qaysi xususiyatlar muhimligini aniqlab, tezroq hisoblash va kam xotira sarf qilish uchun ularni tanlashi kerak. Ma'lumotlarni tozalash Malumotlarni vizualizatsiyalsh Operatsiyalar Modelni joylashtirish Modelni tasdiqlash O’qitish modeli Mashinali o’qitish Ma'lumotlarni tayyorlash Ma'lumotlar muhandisligi Ma'lumotlar tekshirish Dastlabki ma’lumotlar Ma’lumotlarga dastlabki ishlov berish 10.1-rasmda keltirilgan. 10.1-rasm. Ma’lumotlarga dastlabki ishlov berish sxemasi. 2. Data Set , Data Table , Data Row va Data Column haqida tushunchalar DataSet - ma'lumotlar manbalaridan qat'i nazar, izchil dasturlash modelini ta'minlaydigan oddiy, doimiy ma'lumotlar bazasi. DataSet - bu tegishli jadvallar , cheklovlar va jadvallar o'rtasidagi munosabatlarni o'z ichiga olgan to'liq ma'lumotlar to'plami. Odatda ma'lumotlar to'plami (DataSet) RelationsCollection obyekti tomonidan aniqlangan munosabatlarni o'z ichiga oladi. DataRelation obyekti xaritasi bir jadvaldagi qatorlar bilan boshqa ma'lumotlar jadvalidagi satrlar bilan ifodalangan munosabatlar. Bu relyatsion ma'lumotlar bazasidagi tashqi kalitlarga o'xshash ishlaydi. DataRelation ikkita DataSets-dagi ustunlarning mosligini aniqlaydi. Aloqalar DataSet ichida bir jadvaldan boshqasiga o'tishga imkon beradi. DataRelation-ning asosiy elementlari quyidagilardir: munosabatlarning nomi , ikkita jadvalning o'zlari bilan bog'lanishi, shuningdek jadvallarda birlamchi kalit va chet el kalitlari ustunlari. Aloqalar jadvaldagi bir nechta ustunlar , birlamchi va chet el kalitlari uchun DataColumn moslamalari qatori asosida o'rnatilishi mumkin. DataRelation yaratilganda , ADO.NET munosabatlar o'rnatilishi mumkinligini tekshiradi. ADO.NET munosabatlarga salbiy ta'sir ko'rsatishi mumkin bo'lgan keyingi o'zgarishlardan qochib, faqat bir marta RelationsCollectionga aloqalarni qo'shadi. DataTable System. Data tomonidan belgilanadi va jadvalning sxemasi va satrlarini belgilaydigan ColumnsCollection obyekti tomonidan taqdim etilgan ustunlar to'plamini o'z ichiga olgan xotirada doimiy joylashgan ma'lumotlar jadvalini aks ettiradi. DataTable jadvalga ma'lumotlarni olib keladigan RowsCollection obyekti tomonidan namoyish etilgan qatorlar to'plamini o'z ichiga oladi. Joriy holat bilan bir qatorda DataTable obyekti asl holatini saqlab qoladi va ma'lumotlar bilan sodir bo'lgan barcha o'zgarishlarni kuzatib boradi. DataSet XML orqali tarkibni aks ettiruvchi ma'lumotlarni saqlashi va qayta yuklashi mumkin. 3. Ma'lumotlarni tahlil qilish Data Setlar Ma'lumotlarni tahlil qilish va mashinada o’qitish juda ko'p ma'lumotlarni talab qiladi. Siz ularni o'zingiz birlashtira olasiz , ammo bu zerikarli. Bu erda turli toifadagi tayyor ma'lumotlar to'plamlari bizning yordamimizga keladi va Datasetlar yordamida quyidagi ma’lumotlar tahlil qiliniishi mumkun: • Davlat ma'lumotlar to'plamlari; • Uy-joy ma'lumotlari; • Iqtisodiyot va moliya ; • Kompyuterni ko'rish qobiliyati ; • Tuyg'ularni tahlil qilish ; • Tabiiy tilni qayta ishlash ; • Avtopilotlar; • Tibbiy ma'lumotlar va h.k. Data set qidirish tizimlari. Bunday qidiruv tizimlari quyidagilardan iborat. Google Dataset Search. Dataset Search kalit so'z bilan butun Internetda ma'lumotlar to'plamlarini qidirishga imkon beradi. Kaggle. Ko'plab qiziqarli ma'lumotlar to'plamiga ega bo'lgan mashinasozlik musobaqalari maydonchasi. Ma'lumotlar to'plami ro'yxatida ramen reytingidan tortib NCAA basketbol ma'lumotlariga va Sietlning uy hayvonlari litsenziyasining ma'lumotlar bazasiga qadar turli xil namunalar mavjud. UCI Machine Learning Repository. Internetdagi ma'lumotlar to'plamlarining eng qadimgi manbalaridan biri va qiziqarli ma'lumotlar to'plamini izlash uchun birinchi o'rinda turadi. Garchi ular foydalanuvchilar tomonidan qo'shilsa va shuning uchun har xil darajadagi "poklik" ga ega bo'lsa ham, aksariyati tozalanadi. Ma'lumotlarni ro'yxatdan o'tmasdan darhol yuklab olish mumkin. Visual Data. Datasetlar kompyuterni ko'rish uchun, toifalarga ajratilgan va qidiruv mavjud. Find Datasets | CMU Libraries. Karnegi Mellon universiteti tomonidan taqdim etilgan Datasetlar to'plami. Davlat Datasetlari. Data.gov. Bu erda siz turli davlat idoralari ma'lumotlarini topishingiz mumkin. Bular davlat byudjetidan tortib barcha iforalar ma'lumotlarini yiginfisy mavjud. Turar joy ma'lumotlari. Boston Housing Dataset. Shet davlati Qo'shma Shtatlarning aholini ro'yxatga olish byurosi tomonidan tuzilgan Bostondagi uy-joy haqida ma'lumot mavjud. U StatLib arxividan olingan va algoritmlarni baholashda adabiyotda keng qo'llanilgan. Iqtisodiyot va moliyadagi Data setlar. Bularga quyidagilar kiradi: Quandl. Iqtisodiy va moliyaviy ma'lumotlarning yaxshi manbai - Iqtisodiy ko'rsatkichlarni yoki aksiyalar narxlarini bashorat qilish modellarini tuzishda foydalidir. Download 147.71 Kb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling