11-laboratoriya ishi mavzu: Kuchaytirilgan o‘qitish (2 soat). Bajardi: Xayitov Alisher Laboratoriya ishining maqsadi va vazifalari


Download 57.19 Kb.
bet1/3
Sana26.01.2023
Hajmi57.19 Kb.
#1127606
  1   2   3
Bog'liq
mt11


LABORATORIYA ISHI


11-laboratoriya ishi
MAVZU: Kuchaytirilgan o‘qitish (2 soat).

Bajardi: Xayitov Alisher


Laboratoriya ishining maqsadi va vazifalari: Talabalarda kuchaytirilgan o‘qitish (Reinforcement Learning), domen bilimi (Domain Knowledge) va Muloqot qobiliyati (Communication Skill) haqida tushunchalar hosil qilish.
Qo‘llaniladigan jihozlar va materiallar: shaxsiy kompyuterlar, internet, python dasturlash tili IDE.
Nazariy material
Kuchaytirilgan o‘qitish
Kuchaytirilgan o‘qitish - bu Machine learning sohasidir. Bu ma’lum bir vaziyatda imkoniyatni maksimal darajada oshirish uchun tegishli choralarni ko‘rishdir. U ma’lum bir vaziyatda eng yaxshi xatti-harakat yoki yo‘lni topish uchun turli xil dasturiy ta’minot va mashinalar tomonidan qo‘llaniladi. Kuchaytirilgan o‘qitish nazorat ostidagi o‘qitishdan shunday farq qiladiki, nazorat ostida o'qitishda o'quv ma'lumotlarida javob kaliti bo'ladi, shuning uchun model to'g'ri javob bilan o'qitiladi, Kuchaytirilgan o‘qitishda esa javob yo'q, lekin nima qilish kerakligini sun’iy intellekt agenti hal qiladi.
Misol: Muammo quyidagicha: Bizda agent va mukofot bor, ular orasida ko'plab to'siqlar mavjud. Agent mukofotga erishish uchun eng yaxshi yo'lni topishi kerak. Quyidagi muammo muammoni osonroq tushuntiradi. 
 

Yuqoridagi rasmda robot, olmos va olov ko'rsatilgan. Robotning maqsadi olmos bo'lgan mukofotni olish va olovli to'siqlardan qochishdir. Robot barcha mumkin bo'lgan yo'llarni sinab ko'rish va keyin unga eng kam to'siqlar bilan mukofot beradigan yo'lni tanlash orqali o'rganadi. Har bir to'g'ri qadam robotga mukofot beradi va har bir noto'g'ri qadam robotning mukofotini olib tashlaydi. Jami mukofot olmos bo'lgan yakuniy mukofotga yetganda hisoblab chiqiladi. 
Kuchaytirilgan o‘qitishning asosiy xususiyatlari

  • Kirish: Kirish model boshlanadigan boshlang'ich holat bo'lishi kerak

  • Natija: Muayyan muammoga turli xil yechimlar mavjud bo'lgani uchun ko'plab mumkin bo'lgan natijalar mavjud

  • Trening: Trening kiritilgan ma'lumotlarga asoslanadi, Model holatni qaytaradi va foydalanuvchi uning chiqishi asosida modelni mukofotlash yoki jazolashga qaror qiladi.

  • Model o'rganishda davom etmoqda.

  • Eng yaxshi yechim maksimal mukofot asosida aniqlanadi.

Domen bilimi(Domain knowledge)

Download 57.19 Kb.

Do'stlaringiz bilan baham:
  1   2   3




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling