Kompyuterning tashkil etilishi

Download 102.83 Kb.

bet	4/6
Sana	18.06.2023
Hajmi	102.83 Kb.
	#1570116

1 2 3 4 5 6

Bog'liq
2-mustaqil ish

Oʻrganishni mustahkamlash

Nazoratsiz oʻrganish
Xarajatlar funksiyasi vazifaga (model sohasi) va har qanday apriori taxminlarga (modelning yashirin xususiyatlari, uning parametrlari va kuzatilgan oʻzgaruvchilar) bogʻliq. Arzimas misol sifatida modelni koʻrib chiqing {\displaystyle \textstyle f(x)=a} qayerda {\displaystyle \textstyle a} doimiy va xarajat hisoblanadi {\displaystyle \textstyle C=E[(x-f(x))^{2}]} . Xarajat funksiyasi ancha murakkab boʻlishi mumkin. Uning shakli qoʻllanilishiga bogʻliq: masalan, siqishda u oʻrtasidagi oʻzaro maʼlumot bilan bogʻliq boʻlishi mumkin {\displaystyle \textstyle x} va {\displaystyle \textstyle f(x)} , holbuki, statistik modellashtirishda bu maʼlumotlar berilgan modelning posterior ehtimoli bilan bogʻliq boʻlishi mumkin (esda tutingki, bu ikkala misolda ham bu miqdorlar minimallashtirilgan emas, balki maksimallashtiriladi).
Oʻrganishni mustahkamlash
Video oʻyinlarni oʻynash kabi ilovalarda aktyor bir qator harakatlarni amalga oshiradi va har biridan keyin atrof-muhitdan umuman oldindan aytib boʻlmaydigan javob oladi. Oʻqitishni mustahkamlashda maqsad uzoq muddatli (kutilgan yigʻilgan) xarajatlarni minimallashtiradigan harakatlarni amalga oshirish uchun tarmoqni tortish (siyosatni ishlab chiqish) hisoblanadi. Vaqtning har bir nuqtasida agent biror harakatni amalga oshiradi va atrof-muhit baʼzi (odatda nomaʼlum) qoidalarga koʻra kuzatuv va bir lahzalik xarajatlarni keltirib chiqaradi. Har qanday vaziyatda agent xarajatlarni aniqlash uchun yangi harakatlarni oʻrganish yoki tezroq davom etish uchun oldingi oʻrganishdan foydalanishga qaror qiladi.
Rasmiy ravishda atrof-muhit davlatlar bilan Markov qaror jarayoni (MDP) sifatida modellashtirilgan {\displaystyle \textstyle {s_{1},...,s_{n}}\in S} va harakatlar {\displaystyle \textstyle {a_{1},...,a_{m}}\in A} . Holatga oʻtishlar nomaʼlum boʻlgani uchun uning oʻrniga ehtimollik taqsimotlari qoʻllaniladi: lahzali xarajatlar taqsimoti {\displaystyle \textstyle P(c_{t}|s_{t})} , kuzatish taqsimoti {\displaystyle \textstyle P(x_{t}|s_{t})} va oʻtish taqsimoti {\displaystyle \textstyle P(s_{t+1}|s_{t},a_{t})} , siyosat esa kuzatishlar berilgan harakatlar boʻyicha shartli taqsimlash sifatida belgilanadi.
SNT bunday ilovalarda oʻrganish komponenti boʻlib xizmat qiladi.^[58][59] SNT bilan birgalikda dinamik dasturlash (neyrodinamik dasturlash)^[60] SNT qobiliyati tufayli transport vositalarini marshrutlash,^[61] video oʻyinlar, tabiiy resurslarni boshqarish^[62][63] va tibbiyot^[64] kabi muammolarga qoʻllanilgan. nazorat masalalarini echish uchun sonli yaqinlashish uchun diskretizatsiya tarmogʻining zichligini kamaytirishda ham aniqlik yoʻqotilishini kamaytirish.

Download 102.83 Kb.

Do'stlaringiz bilan baham:

1 2 3 4 5 6