O’zbekiston rеspublikаsi oliy vа o’rtа mахsus tа’lim vаzirligi toshkеnt dаvlаt iqtisodiyot univеrsitеti
Inson ongida oʼquvni mustahkamlash nazariyasi
Download 1.36 Mb. Pdf ko'rish
|
Xulq-atvor (o\'quv qo\'llanma) - янги
7.2. Inson ongida oʼquvni mustahkamlash nazariyasi
Siz tashrif buyurgan restoranni qanday baholaysiz? Restoranga birinchi bor tashrif buyurganimizda, biz ularning taomlarining ta’mi bilan tajribaga ega emasmiz (ya’ni, biz oldindan aytib bo’lmaydi) va biz taomning qanchalik yaxshi ekanligini baholaymiz. Boshqa tomondan, biz tez- tez tashrif buyuradigan restoranlarda “bu odatdagidek yaxshi emas” kabi prognozlarimizdan farqni baholashimiz mumkin. Agar shunday salbiy taxmin qilish xatosi davom etsa, biz restoranning bahosini pasaytiramiz va restoranga boshqa tashrif buyurmaymiz. Ushbu baholash jarayonini mustahkamlash ta’lim nazariyasi bilan izohlash mumkin. Ushbu nazariyada ikkita tushuncha mavjud: - atrof-muhit, - agent. Masalan, karta o’yinida o’yin qoidalari va raqib atrof-muhitdir va siz o’zingiz agentsiz. T vaqt muhitidagi agent keyin muhit a(t) mukofotga s(t) holatiga qarab harakat qiladi va keyingi holatga r(t) holatiga o’tishni beradi. Ushbu muhitda agent (inson yoki robot) vaqt o’tishi bilan kutilgan mukofot summasini maksimal darajada oshiradigan xatti-harakatlarni o’rganadi s(t+1). Mukofotlarning kutilayotgan summasi kutilgan mukofot yoki qiymat 81 funksiyasi deb ataladi. s(t) holati bilan t vaqtda kutilayotgan mukofot quyidagicha aniqlanadi. ...] ) 2 ( ) 1 ( ) ( [ )) ( ( 2 t r t r t r E t s V 7.1 ... ) mukofot davrda (ikki mukofot) davrda bir ( mukofot) etilgan Taqdim ( qiymat) Hozirgi ( 2 Bu yerda kelajakdagi mukofot chegirma faktori δ(0<δ<1) bilan chegiriladi. Ya’ni, kelajakda qancha mukofot kutilsa, mukofotning qiymati shunchalik kam bo’ladi. Bu vaqtni afzal ko’rish tushunchasidir. Qiymat funksiyasining vaqtinchalik farqi mukofotni taxmin qilish xatosi deb ataladi va quyidagicha hisoblanadi. )) ( ( )) 1 ( ( ) ( ) ( t s V t s V t r t 7.2 ) qiymat qilingan taxmin davrda oxirgi ( qiymat) hozirgi ( osi) qilish xat taxmin mukofotni ( Mukofotni taxmin qilish xatosi hozirgi qiymatning taxmin qilingan qiymatdan qanchalik og’ishini ko’rsatadi. Agent kutilgan mukofotni maksimal darajada oshiradigan optimal strategiyani o’rganganda, mukofotni taxmin qilish xatosi oxir-oqibat nolga aylanadi. Shunday qilib, bu mukofotni taxmin qilish xatosi o’rganish signali sifatida ishlatilishi mumkin. Bu mustahkamlash o’quv nazariyasining reprezentativ usulidir. Ya’ni, agar mukofotni taxmin qilish xatosi ijobiy bo’lsa, harakat qilish ehtimolini oshirish uchun strategiya qayta ko’rib chiqilishi kerak. Agar mukofotni taxmin qilish xatosi salbiy bo’lsa, strategiya harakat qilish ehtimolini kamaytirish uchun qayta ko’rib chiqiladi. Shunday qilib, atrof-muhit haqida hech qanday ma’lumotga ega bo’lmasdan, sinov va xato orqali optimal strategiyani o’rganish mumkin. |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling