Mashinali o’qitishga kirish” Fanidan “Neyron tarmoq modellari va tasvrini aniqlash algaritmlari” Mavzusidan Mustaqil ish

Download 48.3 Kb.

bet	3/8
Sana	01.03.2023
Hajmi	48.3 Kb.
	#1240475

1 2 3 4 5 6 7 8

Bog'liq
Mashinali o

Oʻz-oʻzini oʻrganish

Oʻrganishni mustahkamlash[tahrir | manbasini tahrirlash]
Video oʻyinlarni oʻynash kabi ilovalarda aktyor bir qator harakatlarni amalga oshiradi va har biridan keyin atrof-muhitdan umuman oldindan aytib boʻlmaydigan javob oladi. Oʻqitishni mustahkamlashda maqsad uzoq muddatli (kutilgan yigʻilgan) xarajatlarni minimallashtiradigan harakatlarni amalga oshirish uchun tarmoqni tortish (siyosatni ishlab chiqish) hisoblanadi. Vaqtning har bir nuqtasida agent biror harakatni amalga oshiradi va atrof-muhit baʼzi (odatda nomaʼlum) qoidalarga koʻra kuzatuv va bir lahzalik xarajatlarni keltirib chiqaradi. Har qanday vaziyatda agent xarajatlarni aniqlash uchun yangi harakatlarni oʻrganish yoki tezroq davom etish uchun oldingi oʻrganishdan foydalanishga qaror qiladi.
Rasmiy ravishda atrof-muhit davlatlar bilan Markov qaror jarayoni (MDP) sifatida modellashtirilgan �1,...,��∈� va harakatlar �1,...,��∈� . Holatga oʻtishlar nomaʼlum boʻlgani uchun uning oʻrniga ehtimollik taqsimotlari qoʻllaniladi: lahzali xarajatlar taqsimoti �(��|��) , kuzatish taqsimoti �(��|��) va oʻtish taqsimoti �(��+1|��,��) , siyosat esa kuzatishlar berilgan harakatlar boʻyicha shartli taqsimlash sifatida belgilanadi.
SNT bunday ilovalarda oʻrganish komponenti boʻlib xizmat qiladi.^[58][59] SNT bilan birgalikda dinamik dasturlash (neyrodinamik dasturlash)^[60] SNT qobiliyati tufayli transport vositalarini marshrutlash,^[61] video oʻyinlar, tabiiy resurslarni boshqarish^[62][63] va tibbiyot^[64] kabi muammolarga qoʻllanilgan. nazorat masalalarini echish uchun sonli yaqinlashish uchun diskretizatsiya tarmogʻining zichligini kamaytirishda ham aniqlik yoʻqotilishini kamaytirish.
Oʻz-oʻzini oʻrganish[tahrir | manbasini tahrirlash]
Neyron tarmoqlarda oʻz-oʻzini oʻrganish 1982-yilda Crossbar Adaptive Array (CAA) deb nomlangan oʻz-oʻzini oʻrganishga qodir neyron tarmogʻi bilan birga kiritilgan.^[65] Bu faqat bitta kirish, vaziyat s va faqat bitta chiqish, harakat (yoki xatti-harakatlar) boʻlgan tizimdir. Unda na tashqi maslahat kiritish, na atrof-muhitdan tashqi mustahkamlash kiritish mavjud. Tizim idrok va hissiyot oʻrtasidagi oʻzaro taʼsir orqali boshqariladi.^[66] Xotira matritsasi W =||w(a, s)|| ni hisobga olgan holda, har bir iteratsiyada oʻzaro bogʻliqlikni oʻz-oʻzidan oʻrganish algoritmi quyidagi hisoblashni amalga oshiradi:
In situation s perform action a;
Receive consequence situation s';
Compute emotion of being in consequence situation v(s');
Update crossbar memory w'(a,s) = w(a,s) + v(s').
CAA ikkita muhitda mavjud boʻlib, biri oʻzini tutadigan xulq-atvor muhiti va ikkinchisi genetik muhit boʻlib, u erdan dastlab va faqat bir marta xulq-atvor muhitida duch keladigan vaziyatlar haqida dastlabki his-tuygʻularni oladi. Genetik muhitdan genom vektorini (turlar vektorini) olgandan soʻng, CAA kerakli va nomaqbul vaziyatlarni oʻz ichiga olgan xulq-atvor muhitida maqsadga intiladigan xatti-harakatni oʻrganadi.^[67]

Download 48.3 Kb.

Do'stlaringiz bilan baham:

1 2 3 4 5 6 7 8