Stokastik muhitda biz biron bir harakatni amalga oshirganimizda, biz biron bir keyingi holatda bo'lishimiz tasdiqlanmaydi va ma'lum bir holatda tugatish ehtimoli mavjud. P (s, a, s) - a holatini bajarish bilan s dan davlatning tugashi ehtimoli. Bu kelajakdagi shtatlarning umumiy soniga yig'iladi. Masalan, agar biron bir harakatni amalga oshirsak, s 3, s₂ va s₃ holatlardan 0,2, 0,2 va 0,6 ehtimollik bilan tugashimiz mumkin. Bellman tenglamasi bo'ladi
Bellman tenglamasini dinamik dasturlash deb nomlangan maxsus texnikadan foydalanib echishimiz mumkin.
Do'stlaringiz bilan baham: |