Algoritmlash va tadbiqiy dasturlash


Download 277.64 Kb.
bet1/6
Sana15.03.2023
Hajmi277.64 Kb.
#1268658
  1   2   3   4   5   6
Bog'liq
Algoritmlash va tadbiqiy dasturlash ” fanidan


Navoiy Davlat Konchilik va Texnologiyalar Universiteti.
Elektro-mexanika fakulteti.

Algoritmlash va tadbiqiy dasturlash ” fanidan
Mustaqil ish.
Mavzu: Lagranj ko’paytuvchilari usuli. Bellman funksiyasi va tenglamasi.
Bajardi: G’afforov Sh.I
Tekshirdi: Namozov N.
Guruh 7 SA-19 TJA

Reja:
1.Bellman tenglamasi
2.Lagranj interpolyatsiyalash ko‘phadi
3.Lagranj interpolyatsiyalash ko‘phadi

Bellman tenglamasi
Kod haqida gapirishdan oldin, keling, matematika haqida gapiraylik:
Q-learning asosiy tushunchasi, Bellman tenglamasi.


  • Avval bu tenglamada γ  ni unutamiz

  • Tenglama ko'rsatilishicha, muayyan holat-harakat juftligi uchun Q qiymati mukofot bo'lishi kerak, yangi holatga o'tishda olingan (ushbu harakatni bajarish orqali), keyingi holatda eng yaxshi harakat qiymatiga qo'shiladi.

Boshqacha qilib aytganda, biz bir vaqtning o'zida harakat qiymatlari haqida ma'lumot tarqatamiz!
Ammo biz qaror qilishimiz mumkinki, hozirgi mukofotimiz kelajakdagi oladigan mukofotimizdan qimatliroq, shuning uchun bizda γ mavjud, 0 dan 1 gacha bo'lgan raqamlar (odatda 0,9 dan 0,99 gacha) kelajakdagi mukofotga ko'paytiriladi, kelajakdagi mukofotlarni qiymatsizlantiradi.
Shunday qilib, γ = 0,9 berilgan va buni bizning dunyomizning ba'zi holatlariga (to'rga) qo'llasak, bizda:

Amalga oshirish
Endi bizda Q-learning qanday ishlashi haqida tassavvur mavjud, endi biz bularning barchasini amalga oshirish haqida o'ylashni boshlashimiz mumkin, biz Sutton kitobidagi Q- learning kodidan qo'llanma sifatida foydalanamiz.

Sutton kitobidan kod.
Kod:

- Birinchidan, biz aytamiz: "Barcha holatlar va harakatlar uchun biz Q (s, a) ni o'zboshimchalik bilan ishga tushiramiz", bu bizga yoqadiganbarcha Q-qiymatlarni jadvalimizni har qanday qiymatlar bilan yaratishimiz mumkin ekanligini bildiradi, ular tasodifiy bo'lishi mumkin ular qandaydir doimiy bo'lishi mumkinligi ahamiyatsiz. Biz ikkinchi qatorda nolga to'la jadval yaratayotganimizni ko'ramiz.
Shuningdek, biz "Yakuniy holatlar uchun Q qiymati nolga teng" deymiz, biz yakuniy holatlarda hech qanday harakat qila olmaymiz, shuning uchun biz ushbu holatdagi barcha harakatlar qiymatini nolga teng deb hisoblaymiz.
- Har bir epizod uchun biz S ni "intializatsiya qilishimiz" kerak, bu shunchaki "o'yinni qayta yuklash" deyishning chiroyli usuli, bizning holatlarimizda bu o'yinchini boshlang'ich pozitsiyasiga qo'yishni anglatadi; bizning dunyomiz buni amalga oshiradigan usulga ega va biz uni 6-qatorda chaqiramiz.
- Har bir vaqt bosqichi uchun (har safar biz harakat qilishimiz kerak) Q dan olingan harakatni tanlashimiz kerak.
Esingizda bo'lsin "biz har bir shtatda eng qadrli bo'lgan harakatlarni qilamizmi?
Buni qilganda, biz siyosatni yaratish uchun Q- values foydalanamiz; bu holda bu ochko'z siyosat bo'ladi, chunki biz har doim har qanday sharoitda eng yaxshi deb hisoblagan harakatlarni qilamiz,
shuning uchun biz ochko'zlik qilamiz, deyiladi.
Yechim
Biz o'z dunyomiz haqida etarlicha o'rganganimizga ishonch hosil qilishimiz kerak (bu hayratlanarli darajada qiyin vazifa). Mana shu yerda ochko'z algoritmida o’yinga ε. Ε kirishadi va u Biz ochko'zlik bilan harakat qilishimiz kerak, LEKIN tasodifiy harakatlarni vaqt o'tishi bilan ε ning foizi sifatida qilishimiz kerak, shuning uchun cheksiz miqdordagi urinishlar bilan biz barcha holatlarni o'rganishimiz kerak.


Download 277.64 Kb.

Do'stlaringiz bilan baham:
  1   2   3   4   5   6




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling