O’zbekiston rеspublikаsi oliy vа o’rtа mахsus tа’lim vаzirligi toshkеnt dаvlаt iqtisodiyot univеrsitеti

Inson ongida oʼquvni mustahkamlash nazariyasi

bet	44/103
Sana	18.06.2023
Hajmi	1.36 Mb.
	#1589400

1 ... 40 41 42 43 44 45 46 47 ... 103

Bog'liq
Xulq-atvor (o\'quv qo\'llanma) - янги

7.2. Inson ongida oʼquvni mustahkamlash nazariyasi
Siz tashrif buyurgan restoranni qanday baholaysiz?
Restoranga birinchi bor tashrif buyurganimizda, biz ularning taomlarining
ta’mi bilan tajribaga ega emasmiz (ya’ni, biz oldindan aytib bo’lmaydi) va biz
taomning qanchalik yaxshi ekanligini baholaymiz. Boshqa tomondan, biz tez-
tez tashrif buyuradigan restoranlarda “bu odatdagidek yaxshi emas” kabi
prognozlarimizdan farqni baholashimiz mumkin. Agar shunday salbiy taxmin
qilish xatosi davom etsa, biz restoranning bahosini pasaytiramiz va restoranga
boshqa tashrif buyurmaymiz.
Ushbu baholash jarayonini mustahkamlash ta’lim nazariyasi bilan
izohlash mumkin. Ushbu nazariyada ikkita tushuncha mavjud:
- atrof-muhit,
- agent.
Masalan, karta o’yinida o’yin qoidalari va raqib atrof-muhitdir va siz
o’zingiz agentsiz. T vaqt muhitidagi agent keyin muhit a(t) mukofotga s(t)
holatiga qarab harakat qiladi va keyingi holatga r(t) holatiga o’tishni beradi.
Ushbu muhitda agent (inson yoki robot) vaqt o’tishi bilan kutilgan mukofot
summasini maksimal darajada oshiradigan xatti-harakatlarni o’rganadi s(t+1).
Mukofotlarning kutilayotgan summasi kutilgan mukofot yoki qiymat

81
funksiyasi deb ataladi. s(t) holati bilan t vaqtda kutilayotgan mukofot
quyidagicha aniqlanadi.
...]
)
2
(
)
1
(
)
(
[
))
(
(
2






t
r
t
r
t
r
E
t
s
V


7.1
...
)
mukofot
davrda
(ikki
mukofot)
davrda
bir
(
mukofot)
etilgan
Taqdim
(
qiymat)
Hozirgi
(
2








Bu yerda kelajakdagi mukofot chegirma faktori δ(0<δ<1) bilan
chegiriladi.
Ya’ni, kelajakda qancha mukofot kutilsa, mukofotning qiymati
shunchalik kam bo’ladi. Bu vaqtni afzal ko’rish tushunchasidir.
Qiymat funksiyasining vaqtinchalik farqi mukofotni taxmin qilish xatosi
deb ataladi va quyidagicha hisoblanadi.
))
(
(
))
1
(
(
)
(
)
(
t
s
V
t
s
V
t
r
t






7.2
)
qiymat
qilingan
taxmin
davrda
oxirgi
(
qiymat)
hozirgi
(
osi)
qilish xat
taxmin
mukofotni
(


Mukofotni taxmin qilish xatosi hozirgi qiymatning taxmin qilingan
qiymatdan qanchalik og’ishini ko’rsatadi. Agent kutilgan mukofotni maksimal
darajada oshiradigan optimal strategiyani o’rganganda, mukofotni taxmin qilish
xatosi oxir-oqibat nolga aylanadi. Shunday qilib, bu mukofotni taxmin qilish
xatosi o’rganish signali sifatida ishlatilishi mumkin. Bu mustahkamlash o’quv
nazariyasining reprezentativ usulidir. Ya’ni, agar mukofotni taxmin qilish
xatosi ijobiy bo’lsa, harakat qilish ehtimolini oshirish uchun strategiya qayta
ko’rib chiqilishi kerak. Agar mukofotni taxmin qilish xatosi salbiy bo’lsa,
strategiya harakat qilish ehtimolini kamaytirish uchun qayta ko’rib chiqiladi.
Shunday qilib, atrof-muhit haqida hech qanday ma’lumotga ega bo’lmasdan,
sinov va xato orqali optimal strategiyani o’rganish mumkin.

Download 1.36 Mb.

Do'stlaringiz bilan baham:

1 ... 40 41 42 43 44 45 46 47 ... 103