Muhammad al-xorazmiy nomidagi toshkent axborot texnologiyalari universiteti kompyuter injiniringi fakulteti
Download 63.62 Kb.
|
SI, 2-ON Marufjonov Farhod
Javoblar
A Markov qaror jarayoni ( MDP ) bir emas diskret vaqt tasodifiy nazorat jarayon. Bu natijalar qisman tasodifiy va qisman qaror qabul qiluvchining nazorati ostida bo'lgan holatlarda qarorlarni qabul qilishni modellashtirish uchun matematik asosni ta'minlaydi . MDP-lar dinamik dasturlash va kuchaytirishni o'rganish orqali hal qilingan optimallashtirish muammolarini o'rganish uchun foydalidir . MDP-lar hech bo'lmaganda 1950-yillarning boshlarida ma'lum bo'lgan; Markovning qaror jarayonlari bo'yicha tadqiqotlarning asosiy to'plami Ronald Xovardning 1960 yildagi " Dinamik dasturlash va Markov jarayonlari" kitobi natijasidir.. Ular robototexnika , avtomatik boshqaruv , iqtisodiyot va ishlab chiqarish kabi ko'plab fanlarda qo'llaniladi . MDPlarning nomi rus matematiki Andrey Markovdan kelib chiqadi, chunki ular Markov zanjirlarining kengaytmasi Ikki marotaba (to'q sariq o'q) uchta holati (yashil doiralar) va ikkita harakatlar (to'q sariq doiralar) bo'lgan oddiy MDP ga misol. Markov qaror qabul qilish jarayoni MQQQ ning to’rtta komponenti bor: S, A, R, T: (chekli) S holat majmuyi (|S| = n) (chekli) A harakat majmuyi (|A| = m) (Markov) o’tish funksiyasi T(s,a,s’) = Pr(s’ | s,a) s holatda a harakatni bajarganda s’ holatga o’tish ehtimolligi Taqdim etish uchun nechta parametr zarur? Cheklangan, real-qadrlanadigan (Markov) qiymat funksiyasiR(s) s holatda bo’lganlik uchun biz tezkor qiymatni olamiz Masala, maqsadga asoslangan domen R(s) maqsad holati uchun 1 qiymatga va qolgan barcha boshqa holatlar uchun 0ga teng bo’lishi mumkin. Harakat harajatlarini umumlashtirish mumkin: R(s,a) Tasodifiy harakat bo’lishi uchun umumlashtririlishi mumkin. Sanaladigan va davomli holat va harakat joylariga osongina umumlashtirilishi mumkin (ammo algoritmlar turlicha bo’ladi) 2. “Orlyanka” - keksa odamning [1] qimor o'yini, ko'plab mamlakatlarda keng tarqalgan. O'yinning mazmuni quyidagicha: har qanday nomdagi tanga tashlanadi va uning qaysi tomoniga tushishini taxmin qiladigan kishi: emblem bilan ("boshlar") yoki teskari ("quyruqlar") bilan, g'alaba qozonadi. Boshqa variant: «o'yinning ikki ishtirokchisi, bir-biridan mustaqil ravishda, stolga tanga qo'ydi. Agar tangalar bir xil tomonlari yuqoriga qo'yilgan bo'lib chiqsa, unda birinchi o'yinchi g'olib chiqadi, aks holda ikkinchisi g'olib chiqadi ».
Inqilobgacha bo'lgan Rossiyada o'yin asosan burjuaziya va murabbiylar orasida keng tarqalgan edi . Uloqtirishga yaqin bo'lgan o'yinning o'ziga xos turi - bu avstraliyalik to-up, unda maxsus taxtadan ikkita tanga tashlanadi.
Muammoning mohiyati 1950 yilda Meril Flood va Melvin Drescher tomonidan ishlab chiqilgan. Ikkilikning nomini matematik Albert Taker bergan. Mahbusning dilemmasida xiyonat hamkorlikda qat'iy hukmronlik qiladi, shuning uchun mumkin bo'lgan yagona muvozanat ikkala tomonga xiyonat qilishdir. Oddiy qilib aytganda, boshqa o'yinchining xatti-harakatidan qat'i nazar, hamma xiyonat qilsa ko'proq yutadi. Xiyonat qilish har qanday vaziyatda hamkorlikdan ko'ra foydaliroq bo'lganligi sababli, barcha aqlli o'yinchilar xiyonatni tanlaydilar. Aql-idrokni alohida tutib, ishtirokchilar birgalikda mantiqsiz qarorga kelishadi: agar ikkalasi ham xiyonat qilsalar, ular hamkorlik qilgandan ko'ra jami kamroq foyda olishadi (bu o'yindagi yagona muvozanat Pareto-optimal echimga olib kelmaydi). Bu ikkilamchi holat. Takrorlangan mahbuslar dilemmasida o'yin vaqti-vaqti bilan sodir bo'ladi va har bir o'yinchi avvalroq hamkorlik qilmagani uchun boshqasini "jazolashi" mumkin. Bunday o'yinda hamkorlik muvozanatga aylanishi mumkin va xiyonat qilishga undovchi jazo tahdididan ustun bo'lishi mumkin (takrorlanishlar sonining ko'payishi bilan Nash muvozanati Pareto optimumiga intiladi).
Hisoblab bo'lmaydigan natijalar to'plami bilan yana umumiy sxemani ko'rib chiqing. Oddiylik uchun, geometrik Illyustratsiya, biz A va B hodisalari bog'liq bo'lgan tajribalar tasodifiy mos keladi deb taxmin qilamiz mos ravishda Ω1 va Ω 2 bir o'lchovli segmentlariga nuqta. Bunday holda, A intervalga tushgan nuqtadan iborat [a1, a2] ∈ -1, va B - [b1, b2] ∈ Ω 2 oralig'iga (1.3-rasm). Shubhasiz, ushbu tajribalarning juftidan bittasiga o'tish mumkin Ikki o'lchovli to'plamga nuqtani tasodifiy tashlashdan iborat bo'lgan tajriba, bu kichik qism C ga to'g'ri keladi A va B mahsulotlariga mos keladi. Download 63.62 Kb. Do'stlaringiz bilan baham: |
ma'muriyatiga murojaat qiling