Mashinaviy o'rganishdagi 10 ta keng tarqalgan xatolar va ulardan qanday qochish kerak
Download 3.03 Mb.
|
Mashinaviy o
Mashinaviy o'rganishdagi 10 ta keng tarqalgan xatolar va ulardan qanday qochish kerak Maʼlumotlar, modellashtirish va jarayon bilan bogʻliq muammolar mashinaviy oʻrganishga toʻsqinlik qilishi mumkin, ammo bu shart emas Men Morgan Stenlidagi algoritmik savdodan tortib, Sun'iy intellektni rivojlantirish assotsiatsiyasining Feigenbaum mukofotini qo'lga kiritgan IBM kompaniyasining Uotsonigacha, tabiiy til bo'yicha yordamchimiz Capital One'dan Enogacha bo'lgan loyihalarda bir necha o'n yillar davomida mashinani o'rganish sohasida ishladim. bu sizning savollaringizga javob beradi va sizga va pulingizga 24/7 e'tibor beradi. Ushbu va boshqa loyihalarni amalga oshirishda men tez-tez uchraydigan bir qator tuzoqlarni kuzatdim. Mashinani o'rganish bo'yicha loyihalaringizda muvaffaqiyat qozonishingizga yordam berish uchun men mashinani o'rganishdagi ushbu tuzoqlarni va ulardan qanday qochish kerakligini muhokama qilishni yaxshi deb o'yladim. Men mashinani o'rganishda tez-tez sodir bo'ladigan o'nta xatoni muhokama qilaman, ular muammoning turiga qarab uchta bo'limga ajratiladi: Ma'lumotlar bilan bog'liq muammolar # 1 - Ma'lumotlarga qaramaslik # 2 - Ma'lumotlar sizib chiqishini qidirmayapsiz Modellashtirish masalalari №3 - Sinov to'plamini ishlab chiqish # 4 - Modelga qaramaslik №5 - Oddiy bazaviy model bilan solishtirmaslik Jarayon muammolari №6 - Foydalanish holatiga mos kelmaydi #7 - Foydalanuvchini tushunmaslik №8 - Texnologiya uchun texnologiyani ishlab chiqish # 9 - Mavjud echimlardan foydalanmaslik # 10 - Muvaffaqiyatsizlik tahlilini bajarmaslik Keling, ma'lumotlar bilan bog'liq muammolardan boshlaylik. Mashinani o'rganishda ma'lumotlar muammolari Ma'lumotlar bilan bog'liq muammolar muhim, chunki mashinani o'rganish modellari o'qitiladi, sinovdan o'tkaziladi va ma'lumotlarga qo'llaniladi. Mashinani o'rganishda ma'lumotlar haqida gap ketganda ikkita asosiy muammo mavjud: ma'lumotlarga qaramaslik va ma'lumotlar sizib chiqishini qidirmaslik. Mashinani o'rganishda keng tarqalgan xato №1: Ma'lumotlarga qaramaslik Ma'lumotlarga diqqat bilan qaramasangiz, foydali tushunchalarni o'tkazib yuborishingiz mumkin. Ingliz statisti Frensis Anskomb Anskomb kvarteti bilan mashhur bo'lgan - deyarli bir xil tavsiflovchi statistik ma'lumotlarga ega bo'lgan to'rtta ma'lumotlar to'plamining namunasi - o'rtacha, dispersiya, korrelyatsiya, regressiya chizig'i, R kvadrati - lekin juda boshqacha taqsimotga ega va grafikda juda boshqacha ko'rinadi. Agar siz ma'lumotlaringizni noto'g'ri tanlasangiz, o'zingizni aldash juda oson bo'lishi mumkin. Misol uchun, agar siz qaram o'zgaruvchining qiymatlarini tanlasangiz, mustaqil va qaram o'zgaruvchilar o'rtasidagi haqiqiy munosabatlarning noto'g'ri bahosini olishingiz mumkin. scatterplot va ikkita turli regressiya chizig'i, biri barcha ma'lumotlarga asoslangan, ikkinchisi faqat chiziq ustidagi ma'lumotlarga asoslangan. Yechim - Ma'lumotlarga qanday qarash kerak Grafik bo'lmagan (masalan, o'rtacha, dispersiya, min, maks va korrelyatsiya matritsalari) va grafik (masalan, tarqalish, gistogramma, issiqlik xaritasi va o'lchamlarni kamaytirish) tadqiqotchi ma'lumotlarni tahlil qilish (EDA) usullaridan foydalaning. Ma'lumotlar xatolari, etishmayotgan ma'lumotlar, har doim bir xil qiymatga ega bo'lgan maydonlar, takroriy misollar, muvozanatsiz ma'lumotlar, tanlab olishning noto'g'riligi, bog'liq o'zgaruvchi bo'yicha tanlash va oson o'ynaladigan ma'lumotlar kabi narsalarni diqqat bilan qidiring. Maydonlarda siz kutgan ma'lumotlar mavjudligiga ishonch hosil qiling. Ma'lumotlar model ishlab chiqarishda ko'radigan ma'lumotlarning vakili ekanligini tekshiring. Tasniflash muammolari uchun har bir bo'linishda har bir sinf uchun etarli misollar mavjudligiga ishonch hosil qiling. Ma'lumotlarni yaxshiroq tushunish uchun ma'lumotlar yaratuvchilari va egalari bilan suhbatlashing. Ma'lumotlarga oid savollar ro'yxatini keltiring. Mashinani o'rganishda keng tarqalgan xato №2: Ma'lumotlar sizib chiqishini izlamaslik Ma'lumotlarning sizib chiqishi mashg'ulot ma'lumotlar to'plamida bashorat qilish vaqtida mavjud bo'lmagan ma'lumotlar yoki maslahatlar mavjud bo'lganda sodir bo'ladi. Ma'lumotlarning sizib chiqishi misolini quyida joylashgan Kaggle tanlovida ko'rish mumkin, bu erda Egri chiziq ostidagi maydon (AUC) uch turdagi oqish aniqlangan va olib tashlanganidan keyin 0,9973 dan 0,59 gacha ko'tarilgan (AUC yuqoriroq bo'lsa yaxshi). Mashinani o'rganishdagi umumiy xato №3: Sinov to'plamini ishlab chiqish Agar siz bitta test to'plamida (Kaggle "Ommaviy") samaradorlikni oshirishga harakat qilsangiz, natijalaringiz yangi ko'r to'plamdagidan (Kaggle "Private") ko'ra yaxshiroq deb o'ylab o'zingizni aldashingiz mumkin. Quyidagi ikkita diagrammada haddan tashqari moslashish xavfi: Kaggle postmortem, siz ko'p marta topshirgan raqobatchilar Ommaviy yetakchilar jadvalida past darajaga (yaxshiroq ishlash) ega bo'lishganini ko'rishingiz mumkin. Ammo o'sha raqobatchilar yangi ko'r-ko'rona ma'lumotlarni baholagandan so'ng, Xususiy peshqadamlar jadvalida ancha yuqori darajaga (pastroq ko'rsatkichlarga) ega bo'lishdi. O'rtacha miqdordagi (taxminan 10 ta) taqdim etgan raqobatchilar Xususiy peshqadamlar jadvalida eng past darajaga erisha oldilar. Shuni yodda tutingki, sizning test to'plamingizdagi natijalaringiz (Kaggle "Ommaviy") quyidagi misoldagi kabi ko'r to'plam(Blind Set)dagi (Kaggle "Private") natijalaringizdan sezilarli darajada farq qilishi mumkin. Yechim - Sinov to'plamiga rivojlanishdan qanday qochish kerak Yetarli ma'lumotlarga ega ekanligingizga ishonch hosil qiling. Boshida bir nechta test to'plamlarini ajratib qo'ying. Yakuniy baholash uchun boshida bir nechta ko'r to'plamlarni ajratib qo'ying. Sinov to'plamini ko'p marta ishlatishdan saqlaning. Sinov to'plamidagi natijalaringizga har safar qaraganingizda, siz modelga singib ketishi mumkin bo'lgan u haqida ma'lumotga ega bo'lasiz. Vaqti-vaqti bilan yangi test to'plamlarini chiqaring. Sinov to'plamini juda ko'p marta qayta ishlatish ortiqcha moslashishga olib kelishi mumkin. Sinov to'plamidagi natijalar dastlabki ekanligini tan oling. Ular ishlab chiqarishda nima bo'lishini aks ettirmasligi mumkin. Eng yangi giperparametrlarni optimallashtirish usullaridan foydalaning. Haqiqiy sinov uchun, ishlab chiqarishda sinab ko'ring! A/B testi yoki tegishli usullardan foydalaning. Mashinani o'rganishda keng tarqalgan xato №4: Modelga qaramaslik Sizning modelingiz nima qilayotganini bilasizmi? Agar qaramasangiz, buni qilmasligingiz mumkin. Diqqat issiqlik xaritalari va boshqa neyron tarmoqni vizualizatsiya qilish usullari sizga model ishlashini tushunishga yordam beradi. Quyida keltirilgan misolda (b) modeli yaxshiroq ishlaydi, chunki u (a) modelga qaraganda ko'rib chiqishning muhim qismlariga yaxshiroq qatnashadi. Yechim - Modelingizga qanday qarash kerak Issiqlik xaritalari, ajratib ko'rsatish, klasterlash, t-tarqatilgan stokastik qo'shni joylashtirish (t-SNE), bir xil manifolt yaqinlashuvi va proyeksiyasi (UMAP) va o'rnatish proyektori kabi vizualizatsiya usullaridan foydalanishni ko'rib chiqing. Regressiya modellari uchun og'irliklarga qarang. Qaror daraxtlari uchun bo'linishlarga qarang. Neyron tarmoqlar uchun faollashtirish atlasi, xususiyat vizualizatsiyasi va katta sayohat kabi neyron tarmoqlarini vizualizatsiya qilish usullaridan foydalaning. Mashinani o'rganishda keng tarqalgan xato №5: Oddiy bazaviy model bilan solishtirmaslik Murakkab modeldan boshlashni xohlash tabiiydir. Ammo ba'zida bitta neyron (aks holda logistik regressiya deb ataladi) oltita yashirin qatlamli chuqur neyron tarmog'i kabi ishlaydi. Zilzilalarni bashorat qilishda neyron tarmoq ilovalari (1994-2019): Ularning cheklovlari bo'yicha meta-analitik ma'lumotlardan quyidagi rasmda biz zilziladan keyingi zilzila joylarini bashorat qilish uchun ishlatiladigan to'rtta neyron tarmoqni ko'ramiz. Oltita yashirin qatlamli tarmoqning ishlashi (DeVries 18 DNN) kichikroq tarmoqlar (soddalashtirilgan DNN, ANN va logistik regressiya) bilan mos keldi. Yechim - Oddiy bazaviy model bilan qanday solishtirish mumkin Murakkab model bilan boshlamang. Avval oddiy asosiy modelni sinab ko'ring. Tasniflash muammolari uchun ko'pchilik sinfining asosiy chizig'ini hisoblang. Keyin murakkabroq modellarni sinab ko'ring. Arxitekturangizning har bir qismining hissasini va arxitekturaning qaysi qismlari haqiqatda zarurligini aniqlash uchun ablasyon tadqiqotlarini bajaring. Mashinani o'rganishdagi jarayon muammolari Nihoyat, kamroq texnik va siz kuzatayotgan jarayon bilan bog'liq bo'lgan bir nechta muammolar mavjud. Jarayonning beshta muammosi mavjud: foydalanish holatini talab qilmaslik, foydalanuvchini tushunmaslik, texnologiya uchun texnologiyani ishlab chiqish, mavjud echimlardan foydalanmaslik va nosozliklarni tahlil qilmaslik. Mashinani o'rganishda keng tarqalgan xato №6: Foydalanish holatiga mos kelmaslik Mashinani o'rganish loyihasini boshlashdan oldin, loyihani amalga oshirishga arziydimi yoki yo'qligini aniqlash va uning oqibatlarini ko'rib chiqish muhimdir. 2014-yildagi ushbu misolda, talabalar faoliyati to'g'risidagi ma'lumotlarni to'plash va tahlil qilish uchun 100 million dollarlik loyiha yopildi. Loyiha o'qituvchilarga talabalarning bilimini yaxshilashga yordam berish uchun mo'ljallangan edi. Afsuski, jamoatchilikning maʼlumotlardan notoʻgʻri foydalanish haqidagi xavotirlari tufayli u yopildi. Yechim - Mashinani o'rganishdan foydalanish misolini qanday aniqlash mumkin Loyihaning boshida bir nechta savollarni ko'rib chiqish orqali foydalanish holatiga mos kelishiga ishonch hosil qiling. .Muammo nimada? Muammo aniq belgilanganmi? Muammo qanchalik tez-tez yuzaga keladi? Taklif etilayotgan yechim nima? Nima uchun muvaffaqiyatga erishish kutilmoqda? Muammo bo'yicha avval qanday ishlar bajarilgan? Aniq muvaffaqiyat ko'rsatkichi bormi? Muvaffaqiyat ko'rsatkichi avtomatik ravishda baholanishi mumkinmi yoki u inson izohini talab qiladimi? Sizda kontseptsiya isboti (POC) modeli kabi dastlabki natijalaringiz bormi? Ular qanday ko'rinishga ega? Kerakli ma'lumotlar mavjudmi? Modelni o'rgatish uchun sizga odatda tarixiy ma'lumotlar va modelni ishlab chiqarishda ishlatish uchun real vaqt ma'lumotlari kerak bo'ladi. Ma'lumotlarni manba qilish va/yoki yaratish qancha turadi? Loyihaning xavf-xatarlari qanday? Ma'lumotlarning maxfiyligi, tarafkashlik va adolatlilik, shaffoflik va foydalanuvchilarni qabul qilish masalalarini ko'rib chiqing. Loyihaning iqtisodiy foydasi nimada? Loyihaning dastlabki va texnik xarajatlari qancha? Minimal hayotiy mahsulot (MVP) nima? Tasavvur qiling, u ishlaydi. Keyin nima? Mashinani o'rganishda keng tarqalgan xato №7: foydalanuvchini tushunmaslik Sizning foydalanuvchi (mijoz va/yoki biznes) haqiqatan nimaga muhtoj va nimani xohlaydi? Bu erda foydalanuvchilar bilan dastlab umid qilganidek muvaffaqiyatli bo'lmagan tizimning misoli. 1990-yillarning oxirida giyohvand moddalar va giyohvand moddalarning o'zaro ta'siri haqida ogohlantirish tizimlari joriy etilgandan so'ng, Veteranlar ishlari bo'yicha shifokorlarning atigi 44 foizi ularning aniqligidan mamnun edi. 13% hatto ogohlantirishlarni "vaqtni behuda sarflash" deb atagan. Boshqa tomondan, ogohlantirish tizimlari foydalanuvchilarni bezovta qiladimi yoki yo'qmi, muhim muammolarni aniqlash va oldini olish uchun foydalidir. Yechim - foydalanuvchini qanday tushunish mumkin Siz foydalanuvchilar qanday ishlashini, ular nimaga muhtoj va nima istashlarini o'rganish orqali tizimingizni yaxshilashingiz mumkin. Bu an'anaviy dasturiy ta'minot uchun bo'lgani kabi, mashinani o'rganishda ham xuddi shunday. Sog'liqni saqlash sohasida 1970-yillardan boshlab ishlab chiqilgan erta tibbiy qarorlarni qo'llab-quvvatlash tizimlari qabul qilina olmadi, chunki tizimlar klinisyenlarning ish jarayoniga yaxshi integratsiyalanmagan. Klinisyenlarni diqqat bilan tinglash orqali ishlab chiquvchilar ushbu tizimlarni yaxshiladilar. 2016 yildagi ushbu misolda SimulConsult tizimi diagnostika roʻyxatini taqdim etuvchi anʼanaviy diagnostika tizimlaridan farqli oʻlaroq, kasallik belgilari, belgilari va topilmalari vaqt oʻtishi bilan qanday kechishini koʻrsatadigan jadvallarni yaratadi. Mashinani o'rganishda keng tarqalgan xato №8: Texnologiya uchun texnologiyani ishlab chiqish Siz texnologiya uchun texnologiyani ishlab chiqyapsizmi? 2016-yilda MITdan Kalyan Veeramachaneni mashinani o'rganish bo'yicha mutaxassislar qanday qilib ko'pincha o'z ishlarining biznes qiymatini hal qila olmasligini tasvirlab berdi. Mashina o‘rganish ishqibozlari bilan to‘ldirilgan yaqinda bo‘lib o‘tgan panelda men 150 ga yaqin tomoshabinlar orasida so‘rov o‘tkazdim va “Sizlardan qanchangiz mashinani o‘rganish modelini yaratdingiz?” deb so‘radim. Taxminan uchdan bir qismi qo'llarini ko'tardi. Keyin men so'radim: "Sizlardan qanchasi ushbu modelni qiymat yaratish uchun ishlatgan va/yoki foydalangan va uni baholagan?" Hech kim qo'lini ko'tarmadi. Nima uchun siz Data Science manbangizdan qiymat olmaysiz: https://hbr.org/2016/12/why-youre-not-getting-value-from-your-data-science Yechim - Texnologiya uchun texnologiyani rivojlantirishdan qanday qochish kerak Loyihaning boshida biznesning dolzarbligini baholang. Manfaatdor tomonlar bilan tez-tez muloqot qiling va hamkorlik qiling. Daromadlar, mijozlar ehtiyojini qondirish uchun foyda va xarajatlarni taxmin qiling. Loyihani amalga oshirishga arziydimi? Faqat ajoyib bo'lgani uchun biror narsani rivojlantirmang. Xo'sh, agar bunga ishonchingiz komil bo'lsa, shunday qiling! Mashinani o'rganishda keng tarqalgan xato №9: mavjud echimlardan foydalanmaslik U erda mavjud bo'lgan barcha mashinani o'rganish echimlaridan xabardormisiz? Hech bo'lmaganda Google'ning AI platformasi, AWS mashina o'rganish xizmatlari, Facebook'ning AI vositalari, Microsoft'ning AI platformasi va Apple'ning mashina o'rganish takliflari kabi yirik texnologiya kompaniyalarining takliflarini o'rganishga arziydi. Mashinani o'rganishni (AutoML) qo'llashni avtomatlashtirish uchun tanlash mumkin bo'lgan ko'plab vositalar mavjud, masalan, Capital One tadqiqotida avtomatlashtirilgan mashinalarni o'rganishga qaratilgan: AutoML yondashuvlari va vositalarini baholash va taqqoslash. Download 3.03 Mb. Do'stlaringiz bilan baham: |
ma'muriyatiga murojaat qiling