Reja: Mashinali o’qitishning prognozi narxini qanday baholash mumkin va boshqalar: chalkashlik matritsasini yaratish


Download 427.47 Kb.
Sana03.01.2023
Hajmi427.47 Kb.
#1076510
Bog'liq
MO\' 4-MI


REJA:

  1. Mashinali o’qitishning prognozi narxini qanday baholash mumkin va boshqalar: chalkashlik matritsasini yaratish.

  2. Chakana savdodan bank ishigacha: talab va taklifni prognozlashda Big Data va Machine Learningdan foydalanishning 5 ta misoli.

  3. Xato matritsasi nima va u nima uchun kerak: bashorat qilish xatosi narxini hisoblash misoli.

  4. Chalkashliklar jadvali.

Mashinali o’qitishning prognozi narxini qanday baholash mumkin va boshqalar: chalkashlik matritsasini yaratish.
Moliyaviy sektor, neft va gaz sanoati, logistika, kadrlar boshqaruvi, rivojlanish, sug‘urta, munitsipal boshqaruv, marketing, chakana savdo va iqtisodiyotning boshqa sohalarida bo‘lajak voqealarni bashorat qilish uchun mashinani o‘rganish qanday qo‘llanilishini yuqorida aytib o‘tgan edik. Bugun biz Machine Learning dasturining yana bir nechta amaliy misollarini ko'rib chiqamiz va shu nuqtai nazardan modellarni baholash uchun asosiy Data Science tushunchalaridan birini tahlil qilamiz. Xato matritsasi (chalkashlik matritsasi) nima ekanligini va u qo'llaniladigan ML algoritmlari va boshqa biznes razvedka vositalarining samaradorligini o'lchashga qanday yordam beradi, talabni prognozlash muammosida mumkin bo'lgan kelajakdagi stsenariylardan potentsial yo'qotishlar va foydalarni baholaydi.
Chakana savdodan bank ishigacha: talab va taklifni prognozlashda Big Data va Machine Learningdan foydalanishning 5 ta misoli.
Umuman olganda, bugungi kunda talabni prognozlash vazifasi real biznesda Machine Learning (ML) usullarining juda keng tarqalgan qo'llanilishiga aylandi. Xususan, 2019-yil dekabr oyida “Yula” reklama xizmati tovarlarni fotosuratdan tanib olish funksiyasidan foydalangan holda sotish haqidagi eʼlonlarni chop etishni tezlashtirdi. Neyron tarmoq modellari suratga olingan narsani haqiqatda tanib olishdan tashqari, foydalanuvchiga mahsulotning xususiyatlarini aniqlashtirishni va bozorda o'rtacha narxini baholashni taklif qiladi. Shu bilan birga, foydalanuvchiga mahsulotni turli narxlarda qanchalik tez sotishi haqida prognoz beriladi.
Yana bir misol, Moskvada joylashgan “Tumandagi oshxona” taomlarini olib ketish va yetkazib berish xizmati neyron tarmoqlari va kundalik savdo statistikasidan foydalangan holda, qoldiqlar miqdorini minimallashtirish uchun har bir nuqtaga qancha mahsulot olib kelish kerakligini hisoblab chiqadi. Turli joylarda sotilgan mahsulotlar toʻgʻrisidagi maʼlumotlarni tahlil qilib, 3500 ta variantdan iborat neyron tarmogʻi kelgusi haftada tuman oshxonalarida pishirish uchun eng koʻp talab qilinadigan yuzta taomni tanlaydi.
Xuddi shunday, sotishni doimiy tahlil qilish asosida mashinani o'rganish alohida mahsulotlar va butun mahsulot toifalari uchun eng maqbul narxni belgilash, narxlash muammosini samarali hal qilishi mumkin. Masalan, Babadu.ru mahalliy bolalar o'yinchoqlari onlayn-do'konida aynan shunday qilingan, o'shanda Machine Learning usullari chakana sotuvchi uchun eng foydali bo'lgan bir nechta marketing strategiyalarini ishlab chiqishga yordam bergan. Xuddi shunday, elastik talabning ML modellari boshqa rus elektron tijorat giganti Ozon.ru da qurilgan. Ishlab chiqilgan algoritm kelajakdagi buyurtmalar uchun aniq prognozni taqdim etish uchun savdo tarixidagi 150 dan ortiq xususiyatlarning qiymatlarini tahlil qiladi. Shu bilan birga, model ombordagi ortiqcha tovarlarni sotib olish va saqlash yoki kerakli mahsulotning etishmasligi tufayli mijozning chiqib ketishi (Churn Rate) uchun pul yo'qotishlarni minimallashtirish funktsiyasini o'z ichiga oladi.
Talabni prognozlashning shunga o'xshash muammosi o'z bankomatlarida naqd pul bilan ishlash jarayonlarini optimallashtirishga intilayotgan banklar uchun dolzarbdir. Bir tomondan, moliyaviy korporatsiyalar mablag'larning bankomatlarda bo'sh qolmasligini xohlaydi: masalan, ularni qisqa muddatli depozitga joylashtirish ancha foydali. Biroq, mijozlar bankomatda pul yetarli emasligi sababli rad javobiga duch kelganda norozi bo'lishadi. Bu obro'ning yo'qolishiga tahdid soladi, shuning uchun bank bankomatlarning har bir joyida naqd pulga bo'lgan talabni aniq bashorat qilish orqali ushbu muammoni hal qilishga intiladi. Shu bilan birga, naqd pulga bo'lgan talab ko'plab parametrlarga bog'liqligini hisobga olish kerak: makroiqtisodiy omillar, siyosiy yangiliklar, ijtimoiy voqealar, bankomatlarning joylashuvi, ob-havo prognozi, mavsum, hafta kuni va boshqalar. Masalan, Sberbank ma'lum bir bankomat uchun ertangi naqd pulga bo'lgan talabni bashorat qilish uchun 2016 yildan beri klassik vaqt seriyalarini tahlil qilish usullari bilan bir qatorda moslashtirilgan mashinani o'rganish algoritmlaridan foydalanmoqda. Bunday modellar barcha tahlil qilingan parametrlarni dinamik ravishda qayta qurishni ta'minlaydi, bankomatlar o'rtasida naqd pulning optimal taqsimlanishi va harakatining samarali rejasini ta'minlaydi.
Xato matritsasi nima va u nima uchun kerak: bashorat qilish xatosi narxini hisoblash misoli
Biznesda talab va taklif o'rtasidagi muvozanatni qidirish to'g'ridan-to'g'ri pulga aylantirilganligi sababli, ushbu muammoni hal qilish uchun Machine Learning usullaridan foydalanish qanchalik foydali degan savol tug'iladi. Bashorat va haqiqatni solishtirish uchun Data Science xatolar matritsasidan (chalkashlik matritsasi) - bashorat qilingan va haqiqiy qiymatlarning 4 xil kombinatsiyasidan iborat jadvaldan foydalanadi. Bashorat qilingan qiymatlar ijobiy va salbiy, haqiqiy qiymatlar esa haqiqiy va noto'g'ri deb tavsiflanadi. Umuman olganda, xato matritsasi tasniflash muammolarida modellarning to'g'riligini baholash uchun ishlatiladi. Ammo prognozlash va naqshni aniqlash ushbu muammoning alohida holati sifatida ko'rib chiqilishi mumkin, shuning uchun chalkashlik matritsasi bashoratlarning aniqligini o'lchash uchun ham muhimdir. Xato matritsasi prognozning samaradorligini nafaqat sifat jihatidan, balki miqdoriy jihatdan ham baholash imkonini berishi muhim, ya'ni. xatoning qiymatini pul bilan o'lchash. Misol uchun, agar mashinani o'rganish foydalanuvchi endi kompaniya uchun foydali bo'lmasligini bashorat qilsa, foydalanuvchini saqlab qolishning narxi qancha bo'ladi? Ishdan bo'shatish darajasini bashorat qilish bo'yicha shunga o'xshash savol, motivatsiyasi pasayayotgan asosiy xodimlarni saqlab qolish uchun HR sohasida ham dolzarbdir. Biroq, xato matritsasi nafaqat Machine Learning doirasida qo'llanilishi mumkin. Aslida, bu prognoz xarajatlarni baholash usuli universal tahliliy vositadir.
Mashinani o'rganish sohasida va xususan, statistik tasniflash muammosida chalkashlik matritsasi, shuningdek, xato matritsasi deb ham ataladi, algoritmning ishlashini vizual ko'rsatishga imkon beruvchi, odatda nazorat ostidagi o'rganish (ichida) ma'lum bir jadval sxemasi. nazoratsiz o'rganish odatda mos keladigan matritsa deb ataladi). Matritsaning har bir satri haqiqiy sinfdagi misollarni ifodalaydi, har bir ustun esa bashorat qilingan sinfdagi misollarni ifodalaydi yoki aksincha – ikkala variant ham adabiyotda topilgan. Bu nom tizimning ikkita sinfni chalkashtirib yuborayotganini (ya'ni, odatda bir-birini noto'g'ri belgilash) ko'rishni osonlashtiradiganligidan kelib chiqadi.
Bu ikki o'lchovli ("haqiqiy" va "bashorat qilingan") va ikkala o'lchovdagi bir xil "sinflar" to'plamiga ega (o'lchov va sinfning har bir kombinatsiyasi favqulodda vaziyatlar jadvalidagi o'zgaruvchi) bo'lgan maxsus turdagi favqulodda vaziyatlar jadvalidir. Misol
Saraton kasalligiga chalinganlar 1 (ijobiy) va saraton bo'lmaganlar 0 (salbiy) toifasiga mansub bo'lgan 12 nafar, saraton tashxisi qo'yilgan 8 nafar va saraton kasalligidan xoli 4 kishidan iborat namunani hisobga olsak, biz buni ko'rsatishimiz mumkin. ma'lumotlar quyidagicha:

Shaxsiy raqam

1

2

3

4

5

6

7

8

9

10

11

12

Haqiqiy tasnif

1

1

1

1

1

1

1

1

0

0

0

0

Aytaylik, bizda saraton kasalligiga chalingan va bo'lmagan shaxslarni qandaydir tarzda ajratib turadigan klassifikator bor, biz 12 kishini olib, ularni tasniflagichdan o'tkazishimiz mumkin. Keyin klassifikator 9 ta aniq bashorat qiladi va 3 tasini o'tkazib yuboradi: saraton kasalligidan xoli deb noto'g'ri taxmin qilingan 2 kishi (1 va 2-namuna) va saraton kasalligiga chalingani noto'g'ri prognoz qilingan saraton kasalligi bo'lmagan 1 kishi.

Shaxsiy raqam

1

2

3

4

5

6

7

8

9

10

11

12

Haqiqiy tasnif

1

1

1

1

1

1

1

1

0

0

0

0

Bashoratli tasnif

0

0

1

1

1

1

1

1

1

0

0

0

E'tibor bering, agar biz haqiqiy tasnif to'plamini bashorat qilingan tasnif to'plami bilan taqqoslasak, har qanday alohida ustunga olib kelishi mumkin bo'lgan 4 xil natija mavjud. Birinchisi, agar haqiqiy tasnif ijobiy bo'lsa va bashorat qilingan tasnif ijobiy bo'lsa (1,1), bu haqiqiy ijobiy natija deb ataladi, chunki musbat namuna tasniflagich tomonidan to'g'ri aniqlangan. Ikkinchidan, agar haqiqiy tasnif ijobiy bo'lsa va bashorat qilingan tasnif salbiy (1,0) bo'lsa, bu noto'g'ri salbiy natija deb ataladi, chunki ijobiy namuna klassifikator tomonidan salbiy deb noto'g'ri aniqlangan. Uchinchidan, agar haqiqiy tasnif salbiy bo'lsa va bashorat qilingan tasnif ijobiy (0,1) bo'lsa, bu noto'g'ri ijobiy natija deb ataladi, chunki salbiy namuna klassifikator tomonidan ijobiy deb noto'g'ri aniqlangan. To'rtinchidan, agar haqiqiy tasnif salbiy bo'lsa va bashorat qilingan tasnif salbiy (0,0) bo'lsa, bu haqiqiy salbiy natija deb ataladi, chunki salbiy namuna tasniflagich tomonidan to'g'ri aniqlanadi. Keyin biz haqiqiy va bashorat qilingan tasniflarni taqqoslashimiz va ushbu ma'lumotni jadvalga qo'shishimiz mumkin, to'g'ri natijalar yashil rangda ko'rinadi, shuning uchun ularni aniqlash osonroq bo'ladi.

Shaxsiy raqam

1

2

3

4

5

6

7

8

9

10

11

12

Haqiqiy tasnif

1

1

1

1

1

1

1

1

0

0

0

0

Bashoratli tasnif

0

0

1

1

1

1

1

1

1

0

0

0

Natija

FN

FN

TP

TP

TP

TP

TP

TP

FP

TN

TN

TN

Har qanday ikkilik chalkashlik matritsasi uchun shablon ijobiy va salbiy tasniflar bilan bir qatorda yuqorida muhokama qilingan to'rt turdagi natijalardan (haqiqiy ijobiy, noto'g'ri salbiy, noto'g'ri musbat va haqiqiy salbiy) foydalanadi. To'rtta natijani 2×2 chalkashlik matritsasida quyidagicha shakllantirish mumkin:


Bashorat qilingan holat Manbalar:

Yuqoridagi uchta ma'lumotlar jadvalining rang konventsiyasi ma'lumotlarni osongina farqlash uchun ushbu chalkashlik matritsasiga mos keladigan tarzda tanlangan.
Endi biz har bir turdagi natijani jamlab, shablonga almashtiramiz va tasniflagichni sinovdan o'tkazish natijalarini qisqacha umumlashtiradigan chalkashlik matritsasini yaratishimiz mumkin:

Ushbu chalkashlik matritsasida saraton kasalligiga chalingan 8 ta namunadan 2 tasi saratonsiz, 4 tasi saratonsiz, 1 tasida saraton borligini taxmin qildi. Barcha to'g'ri bashoratlar jadvalning diagonalida joylashgan (yashil rang bilan ajratilgan), shuning uchun jadvalni bashorat qilish xatolarini vizual tekshirish oson, chunki diagonaldan tashqaridagi qiymatlar ularni ifodalaydi. Chalkashlik matritsasining 2 qatorini jamlab, dastlabki ma’lumotlar to‘plamidagi ijobiy (P) va manfiy (N) namunalarning umumiy sonini ham chiqarish mumkin, ya’ni P=TP+FN va N=FP+TN.
Chalkashliklar jadvali
Bashoratli tahlilda chalkashliklar jadvali (ba'zan chalkashlik matritsasi deb ham ataladi) haqiqiy ijobiy, noto'g'ri salbiy, noto'g'ri musbat va haqiqiy negativlar sonini bildiruvchi ikki qator va ikkita ustundan iborat jadvaldir. Bu to'g'ri tasniflar nisbatini (aniqlik) kuzatishdan ko'ra batafsilroq tahlil qilish imkonini beradi. Agar ma'lumotlar to'plami muvozanatsiz bo'lsa, aniqlik noto'g'ri natijalar beradi; ya'ni turli sinflardagi kuzatishlar soni juda katta farq qilganda.
Misol uchun, agar ma'lumotlarda 95 ta saraton namunasi va atigi 5 ta saraton bo'lmagan namunalar mavjud bo'lsa, ma'lum bir tasniflagich barcha kuzatuvlarni saraton kasalligi deb tasniflashi mumkin. Umumiy aniqlik 95% ni tashkil qiladi, ammo batafsilroq tasniflagich saraton klassi uchun 100% tan olish darajasiga (sezuvchanlik), saraton bo'lmaganlar uchun esa 0% tan olish darajasiga ega bo'ladi. F1 balli bunday hollarda yanada ishonchsiz bo'lib, bu erda 97,4% dan yuqori natijani beradi, holbuki ma'lumotlilik bunday noto'g'rilikni yo'q qiladi va har qanday taxmin qilish uchun ongli qaror qabul qilish ehtimoli 0 ni beradi (bu erda har doim saraton kasalligini taxmin qilish).
Davide Chicco va Juzeppe Jurmanga ko'ra, chalkashlik matritsasini baholash uchun eng informatsion ko'rsatkich bu Metyu korrelyatsiya koeffitsientidir (MCC).
Boshqa ko'rsatkichlar chalkashlik matritsasiga kiritilishi mumkin, ularning har biri o'z ahamiyatiga va qo'llanilishiga ega. Bashorat qilingan holat Manbalar:


Ikki toifadan ortiq matritsalarni chalkashtirish
Chalkashlik matritsasi ikkilik tasniflash bilan chegaralanib qolmaydi va undan ko'p sinfli klassifikatorlarda ham foydalanish mumkin. Yuqorida muhokama qilingan chalkashlik matritsalari faqat ikkita shartga ega: ijobiy va salbiy. Misol uchun, quyidagi jadvalda ikki ma'ruzachi o'rtasida hushtak chalingan tilning aloqasi jamlangan, aniqlik uchun nol qiymatlar kiritilmagan.

Qabul qilingan unli



i

e

a

o

u

Unli ishlab chiqarilgan



i

15




1







e

1




1







a







79

5




o







4

15

3

u










2

2

Adabiyotlar



  1. https://en.wikipedia.org/wiki/Confusion_matrix

  2. https://www.helenkapatsa.ru/matritsa-oshibok/

  3. https://www.bigdataschool.ru/blog/machine-learning-confusion-matrix.html

  4. https://towardsdatascience.com/confusion-matrix-clearly-explained-fee63614dc7?gi=70db6999fa6a

Savollar
1.
Download 427.47 Kb.

Do'stlaringiz bilan baham:




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling