8-mavzu: mashinada o'qitish turlari va klassifikatsiyasi
Download 33.53 Kb.
|
5. Klassifikatsiya va regressiya
5- Amaliy ish. Klassifikatsiya va regressiya (Statistik usullar) Mashinada o'qitish turlari va klassifikatsiyasi Mashinali o'qitish tufayli dasturchi barcha mumkin bo'lgan muammolarni hisobga olgan va barcha echimlarni o'z ichiga olgan ko'rsatmalar yozishi shart emas. Buning o'rniga, kompyuterga (yoki alohida dasturga) statistik ma'lumotlardan kompleks foydalanish orqali mustaqil ravishda echimlarni topish algoritmi yuklanadi, ulardan naqshlar olinadi va ular asosida bashorat qilinadi. Ma'lumotlarni tahlil qilish asosida mashinalarni o'rganish texnologiyasi 1950 yilda, shashka o'yini uchun birinchi dasturlar ishlab chiqila boshlangandan boshlanadi. So'nggi o'n yilliklarda umumiy tamoyil o'zgarmadi. Ammo kompyuterlarning hisoblash qudratining portlovchi o'sishi tufayli ular yaratgan naqshlar va bashoratlar bir necha bor murakkablashdi va mashinada o'qitish yordamida echilishi mumkin bo'lgan muammolar va vazifalar doirasi kengaytirildi. Mashinada o'qitish jarayonini boshlash uchun avval kompyuterga ma'lumotlar to'plamini (dastlabki ma'lumotlarning bir qismini) yuklab olish kerak, bu algoritm so'rovlarni qayta ishlashni o'rganadi. Masalan, itlar va mushuklarning fotosuratlari bo'lishi mumkin, ular allaqachon kimga tegishli ekanligini ko'rsatadigan yorliqlarga ega. O'quv jarayonidan so'ng dasturning o'zi it va mushuklarni yangi rasmlarda tegsiz taniy oladi. Prognozlar chiqarilgandan so'ng o'quv jarayoni davom etadi, biz dastur tomonidan qanchalik ko'p ma'lumotlarni tahlil qilsak, u kerakli rasmlarni shunchalik aniqroq taniydi. Mashinali o'qitish orqali kompyuterlar nafaqat yuzlarni, balki landshaftlar, ob'ektlar, matn va raqamlarni fotosuratlar va chizmalarda ham tanib olishga o'rganadilar. Matn haqida gap ketganda, kompyuterda o'rganish ham muhim ahamiyatga ega: grammatikani tekshirish funktsiyasi endi har qanday matn muharririda va hattoki telefonlarda mavjud. Bundan tashqari, nafaqat so'zlarning imlosi, balki kontekst, ma'no soyalari va boshqa nozik lingvistik jihatlar ham hisobga olinadi. Bundan tashqari, allaqachon odamlarning aralashuvisiz (iqtisodiy va masalan, sport mavzusida) yangiliklar maqolalarini yozish uchun dasturiy ta'minot mavjud. 2 Mashinada o'qitish muammolari turlari ML bilan hal qilingan barcha vazifalar quyidagi toifalardan biriga kiradi. 1) Regressiya vazifasi - har xil xususiyatlarga ega bo'lgan ob'ektlar namunasi asosida prognoz qilish. Chiqarilgan mahsulot haqiqiy songa (2, 35, 76.454 va boshqalar) to'g'ri kelishi kerak, masalan, kvartira narxi, olti oydan keyin xavfsizlik qiymati, do'konning keyingi oy uchun kutilayotgan daromadi, ko'r-ko'rona sinovlarda sharob sifati. 2) Tasniflashning vazifasi - bu xususiyatlar to'plamiga asoslangan kategorik javobni olishdir. Javoblarning cheklangan soniga ega (odatda "ha" yoki "yo'q" formatida): fotosuratda mushuk bormi, inson qiyofasi tasvirlanganmi yoki bemor saraton kasalligiga chalinganmi? 3) Klasterlash vazifasi - ma'lumotlarni guruhlarga taqsimlash: uyali aloqa operatorining barcha mijozlarini to'lov qobiliyati darajasiga bo'lish, kosmik ob'ektlarni u yoki bu toifaga (sayyora, yulduz, qora tuynuk va boshqalar) ajratish. 4) o'lchovni qisqartirish vazifasi, keyinchalik ularni vizualizatsiya qilish uchun qulay bo'lishi uchun (masalan, ma'lumotlarni siqish) ko'p sonli xususiyatlarni kichikroq (odatda 2-3) ga kamaytirishdir. 5) Anomaliyalarni aniqlashning vazifasi anomaliyalarni standart holatlardan ajratishdir. Bir qarashda, bu tasniflash vazifasiga to'g'ri keladi, ammo bitta muhim farq bor: anomaliyalar kamdan-kam uchraydigan hodisa bo'lib, bunday ob'ektlarni aniqlash uchun mashina o'rganish modelini o'rgatish mumkin bo'lgan o'qitish misollari yo yo'qolib qoladi, yoki shunchaki emas, shuning uchun tasniflash usullari bu erda ishlamaydi. ... Amalda bunday vazifa, masalan, bank kartalari bilan firibgarlikni aniqlashdir. 3 Mashinada o'qitishning asosiy turlari Mashinada o'qitish usullari yordamida hal qilingan muammolarning asosiy qismi ikki xil: o'qituvchi bilan o'rganish (nazorat ostida o'qitish) yoki u holda (nazoratsiz o'rganish). Biroq, bu o'qituvchi, albatta, kompyuterning ustida turgan va dasturdagi har qanday harakatlarni boshqaradigan dasturchining o'zi emas. Mashinada o'qitish nuqtai nazaridan "o'qituvchi" insonning axborotni qayta ishlash jarayoniga aralashishi hisoblanadi. Ikkala turdagi mashg'ulotlarda ham mashina dastlabki ma'lumotlar bilan ta'minlanadi, ular tahlil qiladi va naqshlarni topadi. Faqatgina farq shundaki, o'qituvchi bilan dars berishda rad etish yoki tasdiqlash kerak bo'lgan bir qator farazlar mavjud. Farqni misollar bilan tushunish oson. Mashinalarni o'rganish boshqariladi Bizning qo'limizda o'n mingta Moskvaning kvartiralari: maydoni, qavati, tumani, uy yaqinida to'xtash joyining borligi yoki yo'qligi, metrodan masofa, kvartira narxi va boshqalar haqida ma'lumotlar mavjud deb taxmin qilaylik. Biz uning parametrlariga qarab kvartiraning bozor qiymatini taxmin qiladigan modelni yaratishimiz kerak. Bu avtomatlashtirilgan nazoratni o'rganishning eng yaxshi namunasidir: bizda dastlabki ma'lumotlar (xonadonlar soni va ularning xususiyatlari deb ataladigan xususiyatlar) va kvartiralarning har biri uchun tayyor javob - uning narxi. Dastur regressiya muammosini hal qilishi kerak. Amaliyotdan yana bir misol: bemorning barcha tibbiy ko'rsatkichlarini bilib, saraton kasalligini tasdiqlash yoki rad etish. Kiruvchi elektron pochta xabarlarini spam ekanligini uning matnini tahlil qilish orqali bilib oling. Bularning barchasi tasniflash vazifalari. Nazorat qilinmasdan mashinalarni o'rganish Nazorat qilinmasdan o'rganish holatida, tizimga tayyor "to'g'ri javoblar" berilmaganida, barchasi yanada qiziqroq. Masalan, bizda ma'lum miqdordagi odamlarning vazni va bo'yi haqida ma'lumot bor va bu ma'lumotlarni uch guruhga bo'lish kerak, ularning har biri uchun mos o'lchamdagi ko'ylak tikishimiz kerak. Bu klasterlash vazifasi. Bunday holda, barcha ma'lumotlarni 3 ta klasterga bo'lish kerak bo'ladi (lekin, qoida tariqasida, bunday qat'iy va faqat bo'linish mumkin emas). Agar biz boshqa vaziyatni olsak, namunadagi har bir ob'ekt yuz xil xususiyatga ega bo'lsa, unda asosiy qiyinchilik bunday namunaning grafik ko'rinishi bo'ladi. Shuning uchun funktsiyalar soni ikkitaga yoki uchtaga qisqartiriladi va ularni tekislikda yoki 3D-da tasavvur qilish mumkin bo'ladi. Bu o'lchovni kamaytirish muammosi. 4 Mashinali o'rganish modellarining asosiy algoritmlari 1. Qaror daraxti Bu daraxtga o'xshash grafikadan foydalanishga asoslangan qarorlarni qo'llab-quvvatlash usuli: ularning potentsial oqibatlarini hisobga olgan holda qaror qabul qilish modeli (hodisa yuzaga kelishi ehtimolini hisoblash bilan), samaradorlik, resurslarni sarflash. Biznes-jarayonlar uchun ushbu daraxt minimal miqdordagi savollardan iborat bo'lib, ular aniq javobni talab qiladi - "ha" yoki "yo'q". Bu savollarning barchasiga doimiy ravishda javob berib, to'g'ri tanlovga kelamiz. Qaror daraxtining uslubiy afzalliklari shundaki, u muammoni tuzadi va tizimga soladi va yakuniy qaror mantiqiy xulosalar asosida qabul qilinadi. 2. Bayeslarning sodda tasnifi Bayescha sodda tasniflagichlar oddiy ehtimollik klassifikatorlari oilasiga kiradi va Bayes teoremasidan kelib chiqadi, bu holda funktsiyalarni mustaqil deb hisoblaydi (bu qat'iy yoki sodda, taxmin deb ataladi). Amalda, u mashinasozlikning quyidagi yo'nalishlarida qo'llaniladi: elektron pochtaga yuborilgan spamni aniqlash; yangiliklar maqolalarini tematik sarlavhalarga avtomatik ravishda bog'lash; matnning hissiy ranglarini ochib berish; tasvirlardagi yuzlar va boshqa naqshlarni tanib olish. 3. Eng kam kvadratchalar usuli Statistikani kamida ozgina o'rgangan har bir kishi chiziqli regressiya tushunchasini yaxshi biladi. Eng kichik kvadratchalar ham uni amalga oshirish variantlariga tegishli. Odatda, chiziqli regressiya ko'plab nuqtalardan o'tgan to'g'ri chiziqni o'rnatish masalalarini hal qilish uchun ishlatiladi. Bu eng kichik kvadratlar usuli yordamida amalga oshiriladi: to'g'ri chiziqni torting, undan har bir nuqtaga qadar masofani o'lchang (nuqtalar va chiziq vertikal segmentlar bilan bog'langan), natijada olingan summani ko'chiring. Natijada, masofalar yig'indisi eng kichik bo'ladigan egri chiziq kerakli bo'ladi (bu chiziq haqiqiy qiymatdan normal taqsimlangan og'ish bilan nuqtalar orqali o'tadi). Ma'lumotlarni mashinada o'rganish uchun moslashtirishda chiziqli funktsiya odatda qo'llaniladi va xato metrikasini yaratish orqali xatolarni minimallashtirish uchun eng kichik kvadratchalar usuli qo'llaniladi. 4. Logistik regressiya Logistik regressiya bu o'zgaruvchilardan o'zaro bog'liqlikni aniqlash usulidir, ulardan biri qat'iyan bog'liq, boshqalari esa mustaqil. Buning uchun logistik funktsiyadan (akkumulyativ logistik taqsimot) foydalaniladi. Logistik regressiyaning amaliy qiymati shundaki, u bir yoki bir nechta mustaqil o'zgaruvchini o'z ichiga olgan voqealarni bashorat qilishning kuchli statistik usuli hisoblanadi. Bu quyidagi holatlarda foydalidir: kredit skoringi; reklama kampaniyalarining muvaffaqiyatini o'lchash; ma'lum bir mahsulot uchun foyda prognozi; ma'lum bir sanada zilzila ehtimolini taxmin qilish. 5. Vektorli mashinani qo'llab-quvvatlash (SVM) Bu tasniflash va regressiya tahlili masalalarini hal qilish uchun zarur bo'lgan algoritmlarning butun to'plamidir. N o'lchovli kosmosdagi ob'ekt ikki sinfdan biriga tegishli ekanligiga asoslanib, qo'llab-quvvatlovchi vektor mashinasi barcha ob'ektlar ikki guruhdan birida bo'lishi uchun (N - 1) o'lchovli giperplan tuzadi. Qog'ozda uni quyidagicha ifodalash mumkin: ikki xil nuqtalar mavjud va ularni chiziqli ajratish mumkin. Ushbu usul nuqtalarni ajratishdan tashqari, har bir guruhning eng yaqin nuqtasidan iloji boricha giperplane hosil qiladi. SVM va uning modifikatsiyalari DNKning birikishi, fotosuratdan odamning jinsini aniqlash, veb-saytlarda reklama bannerlarini namoyish qilish kabi murakkab mashina o'rganish muammolarini hal qilishga yordam beradi. 6. Ansambllar usuli Bu tasniflagichlar to'plamini yaratadigan va ularning o'rtacha yoki ovoz berish natijalariga ko'ra barcha olingan ob'ektlardan yangi ob'ektlarni ajratib turadigan mashinalarni o'rganish algoritmlariga asoslanadi. Dastlab ansambl usuli Bayesning o'rtacha ko'rsatkichi bo'lgan, ammo keyinchalik u yanada murakkablashdi va qo'shimcha algoritmlar bilan to'lib toshdi: kuchaytirish - klassifikatorlar ansamblini shakllantirish orqali zaif modellarni kuchli modellarga aylantiradi (matematik nuqtai nazardan, bu yaxshilanadigan kesishma); sumkalash - murakkab klassifikatorlarni yig'adi, shu bilan bir vaqtda asosiylarini tayyorlash (kasaba uyushmasini takomillashtirish); chiqishni kodlash xatolarini tuzatish. Ansambl usuli mustaqil prognozlash modellariga qaraganda kuchliroqdir, chunki: har bir tayanch tasniflagichining xatolarini o'rtacha hisoblash orqali tasodif ta'sirini minimallashtiradi; farqni kamaytiradi, chunki har xil farazlarga asoslangan bir nechta turli xil modellar alohida olingan natijalarga qaraganda to'g'ri natijaga erishish ehtimoli ko'proq; to'plamdan tashqariga chiqishni istisno qiladi: agar jamlangan gipoteza asosiy farazlar to'plamidan tashqariga chiqsa, u holda birlashtirilgan gipotezani shakllantirish bosqichida u u yoki bu usul yordamida kengayadi va gipoteza allaqachon unga kiritilgan. Download 33.53 Kb. Do'stlaringiz bilan baham: |
ma'muriyatiga murojaat qiling