Mavzu: Sinflashtirsh tushunchasi. Sinflashtirish mashinali o’qitishnig asosiy yondashuvlaridan biri sifatida

Download 273.4 Kb.

Sana	18.06.2023
Hajmi	273.4 Kb.
	#1565910

Bog'liq
613(6)

Mustaqil ish

Mavzu: Sinflashtirsh tushunchasi. Sinflashtirish mashinali o’qitishnig asosiy yondashuvlaridan biri sifatida.

Reja:

Sinflashtirish tushunchasi
MNIST o’quv tanlanma tuzilishi
Sinflashtirish masalasi uchun logistik va softmax regressiya funksiyalaridan foydalanish
Samaradorlikni baxolash usullari tartibsizlik matritsasi (confusion matrix)

Sinflashtirish tushunchasi - bu biror vazifani bajarish uchun ishlatiladigan mashinani o'rganish algoritmining bir turi kirish ma'lumotlariga asoslangan kategorik yoki diskret chiqish o'zgaruvchisi. Boshqacha aytganda, sinflashtirish kuzatishning qaysi toifaga mansubligini uning asosida aniqlash jarayonidir xususiyatlar yoki atributlar.

Sinflashtirishning asosiy g'oyasi kirish o'zgaruvchilaridan xaritalash funktsiyasini o'rganishdir etiketli misollar to'plamini tahlil qilish orqali o'zgaruvchilarni chiqarish uchun. Bu etiketli misollar xususiyatlar deb ham ataladigan kirish ma'lumotlar nuqtalari to'plamidan va ularning mos keladigan chiqishidan iborat teglar yoki toifalar. Xaritalash funktsiyasi o'rganilgandan so'ng, u yangi uchun chiqish yorlig'ini bashorat qilish uchun ishlatilishi mumkin, ko'rinmaydigan kirish ma'lumotlar nuqtalari.
Sinflashtirish - ma'lum bir kirish ma'lumot nuqtasining sinf yorlig'ini bashorat qilish uchun keng qo'llaniladigan mashinani o'rganish usuli. Biroq, tasniflash muammolari bilan ishlashda bir nechta muammolar paydo bo'lishi mumkin. Ushbu muammolardan ba'zilari: Ma'lumotlar tasniflash muammolarida keng tarqalgan muammo bo'lib, unda bir sinf ma'lumotlar to'plamida sezilarli darajada kam ifodalanadi. Bu ozchiliklar sinfida yomon ishlaydigan noxolis modellarga olib kelishi mumkin. Ushbu muammoni hal qilish uchun ortiqcha tanlash, kam tanlanish va xarajatlarni hisobga oluvchi o'rganish kabi usullardan foydalanish mumkin.
To’g’ri moslashish: Model juda murakkab bo'lsa va o'quv ma'lumotlariga juda yaqin moslashishni o'rgansa, ortiqcha moslama paydo bo'ladi, natijada yangi, ko'rinmas ma'lumotlarga yomon umumlashtiriladi. L1 va L2 tartibga solish kabi tartibga solish texnikasi ortiqcha moslamani oldini olish uchun ishlatilishi mumkin.
Noto'g'ri moslash: Model juda oddiy bo'lsa va ma'lumotlardagi asosiy naqshlarni ushlay olmasa, o'quv va test ma'lumotlarida yomon ishlashga olib keladi. Modelning murakkabligini oshirish yoki kuchliroq algoritmdan foydalanish noto'g'ri ishlashga yordam beradi.
Xususiyatlarni tanlash: Xususiyatlarni tanlash - bu tasniflash vazifasi uchun eng informatsion bo'lgan tegishli xususiyatlarning kichik to'plamini tanlash jarayoni. To'g'ri xususiyatlar to'plamini tanlash modelning ish faoliyatini sezilarli darajada yaxshilashi mumkin.
Model tanlash: Turli xil tasniflash algoritmlari mavjud va ma'lum bir muammo uchun to'g'risini tanlash qiyin bo'lishi mumkin. Bir nechta algoritmlarning ishlashini diqqat bilan baholash va aniq vazifani eng yaxshi bajaradiganini tanlash muhimdir.
Interpretability: Ba'zi tasniflash algoritmlari, masalan, chuqur neyron tarmoqlari, juda murakkab va izohlash qiyin, bu esa izohlash muhim bo'lgan ilovalarda qiyinchilik tug'dirishi mumkin.
Ma'lumotlar sifati: Modelni o'qitish uchun foydalaniladigan ma'lumotlarning sifati modelning ishlashiga sezilarli ta'sir ko'rsatishi mumkin. Sifatsiz ma'lumotlar noaniq yoki noto'g'ri modellarga olib kelishi mumkin.
Ushbu muammolarni hal qilish muammo sohasini, ma'lumotlar xususiyatlarini va kerakli natijani diqqat bilan ko'rib chiqishni talab qiladi. Eng yaxshi yondashuvni topish uchun turli xil algoritmlar, xususiyatlarni tanlash texnikasi va baholash ko'rsatkichlari bilan tajriba o'tkazish talab qilinishi mumkin.
Sinflashtirish haqiqatan ham mashinani o'rganishning asosiy usullaridan biridir. Bu yangi A namunaning sinf yorlig'ini bashorat qilishni o'z ichiga olgan nazorat ostida o'rganish texnikasi etiketli misollar to'plamiga asoslanadi. Ushbu yondashuvda ma'lumotlar ikki to'plamga bo'linadi: A o'quv to'plami va test to'plami. Trening to'plami bashorat qila oladigan modelni o'rgatish uchun ishlatiladi yangi, ko'rinmagan holatlarning sinf yorlig'i, test to'plami esa baholash uchun ishlatiladi modelning ishlashi.
Sinflashtirish algoritmlari tasvir kabi turli ilovalarda keng qo'llaniladi tanib olish, nutqni aniqlash, tabiiy tilni qayta ishlash va firibgarlikni aniqlash. Ular sog'liqni saqlash, moliya va marketing kabi ko'plab sohalarda ham qo'llaniladi.
Mashhur sinflashtirish algoritmlarining ba'zilari qaror daraxtlarini o'z ichiga oladi, k-eng yaqin qo'shnilar (KNN), logistik regressiya, vektorli mashinalarni qo'llab-quvvatlash (SVM) va neyron tarmoqlar. Har bir algoritmning o'ziga xos kuchli va zaif tomonlari va tanlovi mavjud algoritm ma'lumotlarning o'ziga xos xususiyatlariga va ko'rib chiqilayotgan muammoga bog'liq. Xulosa qilib aytganda, tasniflash mashinani o'rganishga imkon beradigan kuchli yondashuvdir avtomatlashtirilgan qarorlar qabul qilish, samaradorlikni oshiradi va foydalanish mumkin bo'lgan tushunchalarni beradi strategik qarorlarni qabul qilish uchun.
O’qitish masalasi - bu o'qitishni o'z ichiga olgan aniq vazifadir muayyan vazifani bajarish uchun model. Mashinani o'rganish muammolari keng bo'lishi mumkin uchta asosiy turga bo'linadi: O’qituvchili o'rganish, O’qituvchisiz o'rganish va mustahkamlash o'rganish.
O’qituvchili o'rganish - bu model o'qitilgan mashinani o'rganish muammosining bir turi etiketli ma'lumotlar to'plamidan foydalanish. Maqsad, kirish xususiyatlari va o'rtasidagi xaritalashni o'rganishdir chiqish yorliqlari. O’qituvchili o'quv muammolariga misollar orasida tasniflash va regressiya vazifalari.
O’qituvchisiz o'rganish - bu model mavjud bo'lgan mashinani o'rganish muammosining bir turi etiketlanmagan ma'lumotlar to'plamida o'qitilgan. Maqsad - ma'lumotlarning asosiy tuzilishini o'rganish sinf yorliqlari haqida oldindan ma'lumotga ega bo'lmagan holda. O’qituvchisiz ta'limga misollar muammolarga klasterlash va anomaliyalarni aniqlash kiradi.
Kuchaytirishni o'rganish - bu model o'rganadigan mashinani o'rganish muammosining bir turi atrof-muhitdan olingan fikr-mulohazalar asosida qarorlar qabul qilish. Maqsad -vaqt o'tishi bilan mukofot funktsiyasini maksimal darajada oshiradigan siyosatni o'rganing. Mustahkamlashga misollar o'rganish muammolari o'yin o'ynash va robototexnikani o'z ichiga oladi. Muammo turiga qo'shimcha ravishda, mashinani o'rganish muammolari ham tavsiflanishi mumkin ma'lumotlarning hajmi va murakkabligi, algoritm tanlash kabi boshqa omillar bilan va modelni baholash uchun foydalaniladigan ishlash ko'rsatkichlari.
Muammoning tegishli turini aniqlash va tegishli algoritmni tanlash va baholash ko'rsatkichlari mashinani o'rganish loyihasining muvaffaqiyati uchun juda muhimdir. Bu talab qiladi muammo sohasini, ma'lumotlar xususiyatlarini va kerakli narsalarni diqqat bilan ko'rib chiqish natija.

MNIST ma'lumotlar bazasi (O'zgartirilgan Milliy standartlar va texnologiyalar institutining qisqartmasi) qo'lda yozilgan raqamlar namunalarining to'liq ma'lumotlar bazasidir. Maʼlumotlar bazasi AQSh Milliy standartlar va texnologiyalar instituti tomonidan birinchi navbatda neyron tarmoqlarga asoslangan mashinani oʻrganishdan foydalangan holda tasvirni aniqlash usullarini kalibrlash va solishtirish maqsadida taklif qilingan standartdir. Ma'lumotlar oldindan tayyorlangan misol tasvirlaridan iborat bo'lib, ular asosida tizimlar o'qitiladi va sinovdan o'tkaziladi[3][4]. Ma'lumotlar bazasi NIST 20x20 pikselli qora va oq namunalarning asl to'plamini qayta ishlashdan so'ng yaratilgan. NIST ma'lumotlar bazasini yaratuvchilar, o'z navbatida, AQSh aholini ro'yxatga olish byurosining namunalari to'plamidan foydalanganlar, ularga amerikalik universitet talabalari tomonidan yozilgan ko'proq test namunalari qo'shilgan . NIST to'plamidan olingan namunalar normallashtirildi, antialiased qilindi va 28x28 pikselli kulrang rangdagi tasvirga qisqartirildi.

MNIST ma'lumotlar bazasida o'qitish uchun 60 000 ta rasm va sinov uchun 10 000 ta rasm mavjud[6]. O'quv va sinov namunalarining yarmi NIST o'quv to'plamidan, qolgan yarmi esa NIST test to'plamidan edi.

MNIST ma'lumotlar bazasida o'qitilgandan so'ng minimal xatolikka erishish uchun ko'plab urinishlar bo'lgan va ilmiy adabiyotlarda muhokama qilingan. Rekord natijalar konvolyutsion neyron tarmoqlardan foydalanish bo'yicha nashrlarda ko'rsatilgan, xatolik darajasi 0,23% gacha ko'tarilgan. Ma'lumotlar bazasini yaratuvchilarning o'zlari bir nechta sinov usullarini taqdim etdilar . Asl ish shuni ko'rsatadiki, qo'llab-quvvatlovchi vektor mashinasidan foydalanish 0,8% xato darajasiga erishishi mumkin. U ikkita asosiy kichik to'plamga bo'lingan: 60 000 ta o'quv to'plami tasvirlar va 10 000 ta rasmdan iborat test to'plami. Trening to'plami modelni o'rgatish uchun ishlatiladi, test to'plami esa modelning ishlashini baholash uchun ishlatiladi.

MNIST ma'lumotlar to'plamidagi har bir namunaning tuzilishi quyidagicha: Har bir tasvir 28x28 o‘lchamdagi kulrang shkala piksel qiymatlari matritsasi sifatida taqdim etiladi, bunda har biri piksel qiymati 0 dan 255 gacha bo'lgan butun sondir. Har bir rasm bilan bog‘langan yorliq 0 dan 9 gacha bo‘lgan bitta butun son qiymatidan iborat, tasvir ko'rsatadigan raqamni ko'rsatadi.
MNIST ma'lumotlar to'plami tasvirni aniqlash va tasniflash vazifalari uchun keng qo'llaniladi va unga juda ko'p turli xil algoritmlar, shu jumladan chuqur neyron tarmoqlari, qo'llab-quvvatlash vektor mashinalari, qaror daraxtlari va k-eng yaqin qo'shnilar. Ma'lumotlar to'plami mavjud yangi algoritmlarning ish faoliyatini baholash uchun standart etalonga aylanadi mashinani o'rganish va kompyuterni ko'rish sohasi.
Logistik regressiya va softmax regressiyasi

Logistik regressiya - bu maqsadli o'zgaruvchiga ega bo'lganda ishlatiladigan ikkilik tasniflash algoritmi faqat ikkita mumkin bo'lgan natija. U ma'lum bir narsaga tegishli kirish ehtimolini modellashtiradi logistik funktsiyani kirish xususiyatlariga moslash orqali sinf. Logistik funktsiya S- deb talqin qilinishi mumkin bo'lgan 0 dan 1 gacha bo'lgan qiymatni chiqaradigan shaklli egri chiziq ijobiy sinfga tegishli kirish ehtimoli. Logistik regressiyani o'rgatish mumkin

maksimal ehtimollikni baholashdan foydalangan holda va model parametrlari optimallashtiriladi bashorat qilingan ehtimollar va haqiqiy belgilar o'rtasidagi farqni minimallashtirish.

Boshqa tomondan, Softmax regressiyasi ko'p sinfli sinflashtirish algoritmidir maqsadli o'zgaruvchi ikkitadan ortiq mumkin bo'lgan natijalarga ega bo'lganda. U ehtimollikni modellashtiradi kirishga softmax funksiyasini o'rnatish orqali har bir mumkin bo'lgan sinfga tegishli kirishning Xususiyatlari. Softmax funktsiyasi a ni chiqaradigan logistik funktsiyaning kengaytmasidir barcha mumkin bo'lgan sinflar bo'yicha ehtimollik taqsimoti. Softmax regressiyasi ham o'qitilishi mumkin
maksimal ehtimollikni baholashdan foydalangan holda va model parametrlari optimallashtiriladi bashorat qilingan ehtimollar va haqiqiy belgilar o'rtasidagi farqni minimallashtirish.

Logistik va softmax regressiyasi ham sinflashtirish vazifalari uchun mashhur algoritmlardir ularning soddaligi, samaradorligi va tushunarliligi uchun. Ular turli sohalarda keng qo'llaniladi tasvir tasnifi, tabiiy tilni qayta ishlash va hissiyot kabi ilovalar tahlil. Biroq, ular murakkab yoki yuqori chiziqli bo'lmagan ma'lumotlarda yaxshi ishlamasligi mumkin va xususiyatlari muhandislik yoki neyron tarmoqlar kabi murakkabroq modellarni talab qilishi mumkin yuqori aniqlikka erishish.

Ishlashni baholash mashinani o'rganishda muhim qadam bo'lib, u baholashni o'z ichiga oladi o'qitilgan modelning aniqligi va umumlashtirish qobiliyati. Bir necha usullar mavjud mashinani o'rganish modelining ishlashini baholash uchun, shu jumladan:
1. O'quv va test to'plamlari: Ushbu yondashuvda mavjud ma'lumotlar to'plami ikki qismga bo'linadi: a o'quv to'plami va test to'plami. Model o'quv majmuasi va uning ishlashi bo'yicha o'qitiladi test majmuasida baholanadi. Ushbu usulning afzalligi shundaki, u o'lchovni ta'minlaydi model ko'rinmas ma'lumotlarga qanchalik yaxshi umumlashtirilganligi.
2. O'zaro tekshirish: o'zaro tekshirish - bu qiymatni baholash uchun ishlatiladigan qayta namuna olish usuli modelning ishlashi. Bu ma'lumotlar to'plamini k kichik to'plamga bo'lish va o'qitishni o'z ichiga oladi model k marta, har safar test to'plami va qolganlari sifatida boshqa kichik to'plamdan foydalaniladi quyi to'plamlar o'quv to'plami sifatida. Keyin ishlash k iteratsiya bo'yicha o'rtacha hisoblanadi. Ushbu usul ma'lumotlar to'plami kichik bo'lsa va ishonchliroq taxminni taqdim etganda foydalidir modelning ishlashi haqida.
3. tartibsizlik matritsasi: tartibsizlik matritsasi - bu ish faoliyatini umumlashtiruvchi jadval bashorat qilingan teglarni haqiqiy teglar bilan solishtirish orqali tasniflash modeli.
4. ROC egri chizig'i va AUC balli: ROC (Qabul qiluvchining ishlash xarakteristikasi) egri chizig'i haqiqiy ijobiy stavkaning (TPR) noto'g'ri musbat ko'rsatkichga (FPR) nisbatan syujeti tasniflash chegaralari. AUC (egri chiziq ostidagi maydon) balli bitta raqamdan iborat barcha mumkin bo'lgan tasniflash chegaralarida modelning ishlashini umumlashtiradi. Bu usul odatda ikkilik tasniflash muammolari uchun ishlatiladi.
5. Aniqlik-eslab qolish egri chizig'i: Aniqlik-eslash egri chizig'i aniqlik va eslab qolishning syujetidir turli tasniflash chegaralari. Bu modelning ko'proq ma'lumotli o'lchovini beradi muvozanatsiz ma'lumotlar to'plamlari uchun ishlash.
Tegishli baholash usulini tanlash o'ziga xos xususiyatlarga bog'liq ma'lumotlar to'plami va mavjud muammo. Savdolarni diqqat bilan ko'rib chiqish muhimdir turli usullar o'rtasida va olish uchun bir nechta baholash ko'rsatkichlaridan foydalanish modelning ishlashini har tomonlama tushunish.
Mashinani o'rganishda tartibsizlik matritsasi

Mashinani o'rganishda tartibsizlik matritsasi a ning ishlashini umumlashtiruvchi jadvaldir bashorat qilingan teglarni haqiqiy teglar bilan solishtirish orqali sinflashtirish modeli. Buning bir usuli tasniflash natijalarini tasavvur qiling va model qanchalik yaxshi ishlashini tushuning. Tartibsizlik matritsasi to'rtta qiymatdan iborat: haqiqiy ijobiy (TP), noto'g'ri musbat (FP), haqiqiy salbiy (TN) va noto'g'ri salbiy (FN). Bu qiymatlar quyidagilarga asoslanadi ta'riflar:

Haqiqiy ijobiy (TP): Model ijobiy sinfni to'g'ri bashorat qiladi.
Noto‘g‘ri musbat (FP): Haqiqiy sinf bo‘lganda model ijobiy sinfni bashorat qiladi salbiy.
Haqiqiy salbiy (TN): Model salbiy sinfni to'g'ri bashorat qiladi.
False Negative (FN): Model haqiqiy sinf bo'lganda salbiy sinfni bashorat qiladi ijobiy.
tartibsizlik matritsasi odatda jadval formatida taqdim etiladi, bu erda haqiqiy sinf belgilari mavjud qatorlarda, bashorat qilingan sinf belgilari esa ustunlarda keltirilgan. Matritsadan turli xil ishlash ko'rsatkichlarini hisoblash uchun foydalanish mumkin, masalan, aniqlik, aniqlik, eslab qolish. Ikkilik sinflashtirish muammosi uchun tartibsizlik matritsasiga misol:

Ushbu tartibsizlik matritsasidan foydalanib, biz turli xil ishlash ko'rsatkichlarini quyidagicha hisoblashimiz mumkin:
Aniqlik: (TP + TN) / (TP + FP + TN + FN)
Aniqlik: TP / (TP + FP)
Eslab qoling: TP / (TP + FN)
F1 balli: 2 * Aniqlik * Eslab qolish / (Aniqlik + Qayta chaqirish)
tartibsizlik matritsasi tasniflash samaradorligini baholash uchun foydali vositadir model, ayniqsa sinflarning taqsimlanishi bo'lmagan nomutanosib ma'lumotlar to'plamlari uchun forma. U modelning tasnifini aniq va aniq ifodalaydi natijalar va modelni yaxshilash kerak bo'lgan sohalarni aniqlashga yordam beradi.

Xulosa:

Sinflashtirish haqiqatan ham mashinani o'rganishning asosiy usullaridan biridir. Bu yangi A namunaning sinf yorlig'ini bashorat qilishni o'z ichiga olgan nazorat ostida o'rganish texnikasi etiketli misollar to'plamiga asoslanadi. Ushbu yondashuvda ma'lumotlar ikki to'plamga bo'linadi: A o'quv to'plami va test to'plami. Sinflashtirish algoritmlari tasvir kabi turli ilovalarda keng qo'llaniladi tanib olish, nutqni aniqlash, tabiiy tilni qayta ishlash va firibgarlikni aniqlash. Ular sog'liqni saqlash, moliya va marketing kabi ko'plab sohalarda ham qo'llaniladi.

Download 273.4 Kb.

Do'stlaringiz bilan baham: