Bajardi: Xayitov Zuhriddin Tekshirdi: Raximov Mexriddin Toshkent – 2022 Naif Bayes algoritmiga kirish Naif Bayes algoritmlari


Boshlash uchun ma'lumotlar to'plamini ko'rib chiqaylik


Download 205.48 Kb.
bet2/5
Sana25.01.2023
Hajmi205.48 Kb.
#1121806
1   2   3   4   5
Bog'liq
1670645990 (2)

Boshlash uchun ma'lumotlar to'plamini ko'rib chiqaylik.

Golf o'yinini o'ynash uchun ob-havo sharoitlarini tavsiflovchi xayoliy ma'lumotlar to'plamini ko'rib chiqing. Ob-havo sharoitlarini hisobga olgan holda, har bir kortej shartlarni golf o'ynash uchun mos ("Ha") yoki yaroqsiz ("Yo'q") deb tasniflaydi.



Mana bizning ma'lumotlar to'plamimizning jadvalli ko'rinishi.
Outlook Harorat Namlik Shamolli Play Golf

0

Rainy

Hot

High

False

No

1

Rainy

Hot

High

True

No

2

Overcast

Hot

High

False

Yes

3

Sunny

Mild

High

False

Yes

4

Sunny

Cool

Normal

False

Yes

5

Sunny

Cool

Normal

True

No

6

Overcast

Cool

Normal

True

Yes

7

Rainy

Mild

High

False

No

8

Rainy

Cool

Normal

False

Yes

9

Sunny

Mild

Normal

False

Yes

10

Rainy

Mild

Normal

True

Yes

11

Overcast

Mild

High

True

Yes

12

Overcast

Hot

Normal

False

Yes

13

Sunny

Mild

High

True

No

Ma'lumotlar to'plami ikki qismga bo'lingan, ya'ni xususiyatlar matritsasi va javob vektori.


Xususiyat matritsasi ma'lumotlar to'plamining barcha vektorlarini (qatorlarini) o'z ichiga oladi, bunda har bir vektor bog'liq xususiyatlarning qiymatidan iborat. Yuqoridagi ma'lumotlar to'plamida xususiyatlar "Outlook", "harorat", "namlik" va "shamolli".
Javob vektori xususiyat matritsasining har bir qatori uchun sinf o'zgaruvchisi (bashorat yoki chiqish) qiymatini o'z ichiga oladi. Yuqoridagi ma'lumotlar to'plamida sinf o'zgaruvchisi nomi "Golf o'ynang".
Taxmin:
Naive Bayesning asosiy farazi shundan iboratki, har bir xususiyat quyidagilardan iborat:
Mustaqil teng natijaga qo'shgan hissasi.
Bizning ma'lumotlar to'plamimiz bilan bog'liq holda, ushbu kontseptsiyani quyidagicha tushunish mumkin:
Hech bir juft xususiyat bog'liq emas deb taxmin qilamiz. Misol uchun, "Issiq" haroratning namlikka hech qanday aloqasi yo'q yoki "yomg'irli" ko'rinish shamollarga ta'sir qilmaydi. Demak, xususiyatlar mustaqil deb hisoblanadi.
Ikkinchidan, har bir xususiyatga bir xil og'irlik (yoki ahamiyat) beriladi. Misol uchun, faqat harorat va namlikni bilishning o'zi natijani aniq bashorat qila olmaydi. Atributlarning hech biri ahamiyatsiz emas va natijaga teng darajada hissa qo'shadi deb taxmin qilinadi.
Eslatma: Naive Bayes tomonidan qilingan taxminlar, odatda, real vaziyatlarda to'g'ri emas. Aslida, mustaqillik haqidagi taxmin hech qachon to'g'ri emas, lekin ko'pincha amalda yaxshi ishlaydi.

Endi, Naive Bayes formulasiga o'tishdan oldin, Bayes teoremasi haqida bilish muhimdir.


Bayes teoremasi
Bayes teoremasi allaqachon sodir bo'lgan boshqa hodisaning ehtimolini hisobga olgan holda, voqea sodir bo'lish ehtimolini topadi. Bayes teoremasi matematik jihatdan quyidagi tenglama sifatida ifodalanadi:

P(A|B) = \frac{P(B|A) P(A)}{P(B)}

bu yerda A va B hodisalar va P(B) ≠ 0.

Asosan, biz B hodisasi to'g'ri ekanligini hisobga olib, A hodisasining ehtimolini topishga harakat qilamiz. B hodisasi ham dalil deb ataladi.


P (A) - A ning apriori (oldingi ehtimollik, ya'ni dalil ko'rinmasdan oldin sodir bo'lish ehtimoli). Dalil noma'lum misolning atribut qiymatidir (bu erda B hodisasi).
P(A|B) - B ning posteriori ehtimoli, ya'ni dalillar ko'rilgandan keyin sodir bo'lish ehtimoli.
Endi bizning ma'lumotlar to'plamimizga kelsak, Bayes teoremasini quyidagi tarzda qo'llashimiz mumkin:
P(y|X) = \frac{P(X|y) P(y)}{P(X)}
bu erda, y - sinf o'zgaruvchisi va X - bog'liq xususiyat vektori (n o'lchamli), bu erda:

X = (x_1,x_2,x_3,.....,x_n)

Tozalash uchun xususiyat vektoriga va mos keladigan sinf o'zgaruvchisiga misol bo'lishi mumkin: (ma'lumotlar to'plamining 1-qatoriga qarang)

X = (yomg'irli, issiq, baland, noto'g'ri)


y = Yo'q
Demak, P(y|X) bu yerda ob-havo sharoiti “Yomg‘irli ko‘rinish”, “Harorat issiq”, “Yuqori namlik” va “shamol yo‘q” bo‘lsa, “Golf o‘ynamaslik” ehtimolini bildiradi.
Oddiy taxmin
Endi Bayes teoremasiga sodda taxminni qo'yish vaqti keldi, ya'ni xususiyatlar orasida mustaqillik. Endi biz dalillarni mustaqil qismlarga ajratamiz.
Endi, agar A va B ikkita hodisa mustaqil bo'lsa, u holda,
P(A,B) = P(A)P(B)
Shunday qilib, biz natijaga erishamiz:
P(y|x_1,...,x_n) = \frac{ P(x_1|y)P(x_2|y)...P(x_n|y)P(y)}{P(x_1)P(x_2 )...P(x_n)}
quyidagicha ifodalanishi mumkin:
P(y|x_1,...,x_n) = \frac{P(y)\prod_{i=1}^{n}P(x_i|y)}{P(x_1)P(x_2)... P(x_n)}
Endi, ma'lum bir kirish uchun maxraj doimiy bo'lib qolsa, biz bu atamani olib tashlashimiz mumkin:
P(y|x_1,...,x_n)\propto P(y)\prod_{i=1}^{n}P(x_i|y)
Endi biz klassifikator modelini yaratishimiz kerak. Buning uchun biz y sinf o'zgaruvchisining barcha mumkin bo'lgan qiymatlari uchun berilgan kirishlar to'plamining ehtimolini topamiz va maksimal ehtimollik bilan chiqishni olamiz. Buni matematik tarzda quyidagicha ifodalash mumkin:
y = argmax_{y} P(y)\prod_{i=1}^{n}P(x_i|y)
Shunday qilib, nihoyat, P(y) va P(xi | y) ni hisoblash vazifasi qoldi.
E'tibor bering, P(y) sinf ehtimolligi, P(xi | y) esa shartli ehtimollik deb ataladi.
Turli sodda Bayes klassifikatorlari, asosan, P(xi | y) taqsimotiga oid taxminlari bilan farqlanadi.
Keling, yuqoridagi formulani ob-havo ma'lumotlar to'plamida qo'lda qo'llashga harakat qilaylik. Buning uchun biz ma'lumotlar to'plamimizda oldindan hisob-kitoblarni amalga oshirishimiz kerak.
X dagi har bir xi uchun P(xi | yj), y da yj ni topishimiz kerak. Ushbu hisob-kitoblarning barchasi quyidagi jadvallarda ko'rsatilgan:

Shunday qilib, yuqoridagi rasmda biz 1-4-jadvallarda X dagi har bir xi va y dagi yj uchun P(xi | yj) ni qo‘lda hisoblab chiqdik. Masalan, harorat salqin bo'lsa, golf o'ynash ehtimoli, ya'ni P (temp. = salqin | golf o'ynash = Ha) = 3/9.

Shuningdek, biz 5-jadvalda hisoblangan sinf ehtimolini (P(y)) topishimiz kerak. Masalan, P(golf o'ynash = Ha) = 9/14.

Shunday qilib, biz oldindan hisob-kitoblarimizni tugatdik va tasniflagich tayyor!
Keling, uni yangi xususiyatlar to'plamida sinab ko'raylik (buni bugun chaqiramiz):
bugun = (quyoshli, issiq, oddiy, noto'g'ri)
Shunday qilib, golf o'ynash ehtimoli quyidagicha ifodalanadi:
P(Ha | bugun) = \frac{P(Quyoshli havo|Ha)P(Issiq harorat|Ha)P(Oddiy namlik|Ha)P(Shamolsiz|Ha)P(Ha)}{P(bugun)}
va golf o'ynamaslik ehtimoli quyidagicha ifodalanadi:
P(Yo'q | bugun) = \frac{P(Quyoshli havo|Yo'q)P(Issiq harorat|Yo'q)P(Oddiy namlik|Yo'q)P(Shamolsiz|Yo'q)P(Yo'q)}{P(bugun)}
P(bugun) ikkala ehtimollikda ham keng tarqalganligi sababli, P(bugun) ni e'tiborsiz qoldirib, proportsional ehtimollarni quyidagicha topishimiz mumkin:
P(Ha | bugun) \propto \frac{2}{9}.\frac{2}{9}.\frac{6}{9}.\frac{6}{9}.\frac{9}{ 14} \taxminan 0,0141
va
P(Yo'q | bugun) \propto \frac{3}{5}.\frac{2}{5}.\frac{1}{5}.\frac{2}{5}.\frac{5}{ 14} \taxminan 0,0068
Endi, beri
P(Ha | bugun) + P(Yo'q | bugun) = 1
Bu raqamlar yig'indini 1 ga teng qilish orqali ehtimollikka aylantirilishi mumkin (normalizatsiya):
P(Ha | bugun) = \frac{0,0141}{0,0141 + 0,0068} = 0,67
va
P(Yo'q | bugun) = \frac{0,0068}{0,0141 + 0,0068} = 0,33
beri
P(Ha | bugun) > P(Yo'q | bugun)
Shunday qilib, golf o'ynashini bashorat qilish "Ha".
Yuqorida muhokama qilgan usul diskret ma'lumotlar uchun qo'llaniladi. Uzluksiz ma'lumotlar bo'lsa, biz har bir xususiyatning qiymatlarini taqsimlash bo'yicha ba'zi taxminlarni qilishimiz kerak. Turli sodda Bayes klassifikatorlari, asosan, P(xi | y) taqsimotiga oid taxminlari bilan farqlanadi.

Endi biz bu erda shunday tasniflagichlardan birini muhokama qilamiz.



Download 205.48 Kb.

Do'stlaringiz bilan baham:
1   2   3   4   5




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling