O’zbekiston rеspublikаsi oliy vа o’rtа mахsus tа’lim vаzirligi toshkеnt dаvlаt iqtisodiyot univеrsitеti


 Inson ongida oʼquvni mustahkamlash nazariyasi


Download 1.36 Mb.
Pdf ko'rish
bet44/103
Sana18.06.2023
Hajmi1.36 Mb.
#1589400
1   ...   40   41   42   43   44   45   46   47   ...   103
Bog'liq
Xulq-atvor (o\'quv qo\'llanma) - янги

7.2. Inson ongida oʼquvni mustahkamlash nazariyasi 
Siz tashrif buyurgan restoranni qanday baholaysiz?
Restoranga birinchi bor tashrif buyurganimizda, biz ularning taomlarining 
ta’mi bilan tajribaga ega emasmiz (ya’ni, biz oldindan aytib bo’lmaydi) va biz 
taomning qanchalik yaxshi ekanligini baholaymiz. Boshqa tomondan, biz tez-
tez tashrif buyuradigan restoranlarda “bu odatdagidek yaxshi emas” kabi 
prognozlarimizdan farqni baholashimiz mumkin. Agar shunday salbiy taxmin 
qilish xatosi davom etsa, biz restoranning bahosini pasaytiramiz va restoranga 
boshqa tashrif buyurmaymiz. 
Ushbu baholash jarayonini mustahkamlash ta’lim nazariyasi bilan 
izohlash mumkin. Ushbu nazariyada ikkita tushuncha mavjud:
- atrof-muhit,
- agent.
Masalan, karta o’yinida o’yin qoidalari va raqib atrof-muhitdir va siz 
o’zingiz agentsiz. T vaqt muhitidagi agent keyin muhit a(t) mukofotga s(t) 
holatiga qarab harakat qiladi va keyingi holatga r(t) holatiga o’tishni beradi. 
Ushbu muhitda agent (inson yoki robot) vaqt o’tishi bilan kutilgan mukofot 
summasini maksimal darajada oshiradigan xatti-harakatlarni o’rganadi s(t+1). 
Mukofotlarning kutilayotgan summasi kutilgan mukofot yoki qiymat 


81 
funksiyasi deb ataladi. s(t) holati bilan t vaqtda kutilayotgan mukofot 
quyidagicha aniqlanadi. 
...]
)
2
(
)
1
(
)
(
[
))
(
(
2






t
r
t
r
t
r
E
t
s
V


7.1 
...
)
mukofot
davrda
(ikki
mukofot)
davrda
bir 
(
mukofot)
etilgan 
Taqdim
(
qiymat)
Hozirgi
(
2








Bu yerda kelajakdagi mukofot chegirma faktori δ(0<δ<1) bilan 
chegiriladi. 
Ya’ni, kelajakda qancha mukofot kutilsa, mukofotning qiymati 
shunchalik kam bo’ladi. Bu vaqtni afzal ko’rish tushunchasidir. 
Qiymat funksiyasining vaqtinchalik farqi mukofotni taxmin qilish xatosi 
deb ataladi va quyidagicha hisoblanadi. 
))
(
(
))
1
(
(
)
(
)
(
t
s
V
t
s
V
t
r
t






7.2 
)
qiymat
qilingan 
taxmin 
davrda
oxirgi
(
qiymat)
hozirgi
(
osi)
qilish xat
taxmin 
mukofotni
(


Mukofotni taxmin qilish xatosi hozirgi qiymatning taxmin qilingan 
qiymatdan qanchalik og’ishini ko’rsatadi. Agent kutilgan mukofotni maksimal 
darajada oshiradigan optimal strategiyani o’rganganda, mukofotni taxmin qilish 
xatosi oxir-oqibat nolga aylanadi. Shunday qilib, bu mukofotni taxmin qilish 
xatosi o’rganish signali sifatida ishlatilishi mumkin. Bu mustahkamlash o’quv 
nazariyasining reprezentativ usulidir. Ya’ni, agar mukofotni taxmin qilish 
xatosi ijobiy bo’lsa, harakat qilish ehtimolini oshirish uchun strategiya qayta 
ko’rib chiqilishi kerak. Agar mukofotni taxmin qilish xatosi salbiy bo’lsa, 
strategiya harakat qilish ehtimolini kamaytirish uchun qayta ko’rib chiqiladi. 
Shunday qilib, atrof-muhit haqida hech qanday ma’lumotga ega bo’lmasdan, 
sinov va xato orqali optimal strategiyani o’rganish mumkin. 


82 

Download 1.36 Mb.

Do'stlaringiz bilan baham:
1   ...   40   41   42   43   44   45   46   47   ...   103




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling