Ko’p o’zgaruvchili chiziqli regressiya Reja


Download 0.75 Mb.
bet8/14
Sana19.10.2023
Hajmi0.75 Mb.
#1709485
1   ...   4   5   6   7   8   9   10   11   ...   14
Bog'liq
6-ma’ruza. Ko’p o’zgaruvchili chiziqli regressiya Reja-fayllar.org

Nesterov Impulse -gradiyentni tezlashtirdi. Nesterov Impulse - so’nggi paytlarda ommalashib borayotgan Impulse yangilanishining biroz boshqacha versiyasidir. Ushbu versiyada, avvalo, joriy impuls ko’rsatilgan nuqtani ko’rib chiqamiz va shu nuqtadan gradiyenlarni hisoblaymiz. Rasmga qarasak, bu ya’nada aniqroq bo’ladi. Nesterov impulsini quyidagi formulalar bilan aniqlash mumkin:

Manba ( Stenford Class CS231n )



Nima uchun impuls ishlaydi. Ushbu bo’limda, nima uchun momentum aksariyat hollarda klassik SGD dan yaxshiroq bo’lishi haqida bir oz gaplashmoqchiman.
Stoxastik gradiyent tushish bilan biz yuqotish funksiyasining aniq hosilasini hisoblamaymiz. Buning o’rniga biz uni kichik qismlarda baholaymiz. Bu shuni anglatadiki, biz har doim ham optimal yo’nalishda bo’lganligimiz uchun hosila "shovqinli" va yuqoridagi grafikalar bilan bir xil. Shunday qilib, eksponentsial ravishda tortilgan o’rtacha ko’rsatkichlar bizga shovqinli hisob-kitoblarga qaraganda haqiqiy hosilaga yaqinroq bo’lgan yaxshiroq bahoni berishi mumkin. Bu impulsning klassik SGD ga qaraganda yaxshiroq ishlashi mumkinligining sabablaridan biri.
Misol sifatida jarliklarga kiradigan darchani qaraylik. Darcha - bu sirt bir o’lchamli boshqasiga qaraganda ancha keskin egilgan maydon. SGD tor jarlik bo’ylab tebranishga moyil bo’ladi, chunki salbiy gradiyent jarlik bo’ylab tegmaslik tomoniga emas, balki uni pastga ya’ni tik tomonlardan biriga yunaltiradi. Momentum gradiyentlarni to’g’ri yo’nalishda ketishini tezlashtirishga yordam beradi. Bu quyidagi rasmlarda ifodalangan:

Chap - impulsiz SGD, o’ng - impulsli SGD.


Gradiyent tushish - bu differensialanadigan funksiyaning mahalliy minimumini topish uchun foydalanadigan eng muhim usul. Ammo ulkan ma’lumotlar to’plami bilan ishlashda har doim muammolar paydo bo’ladi, chunki gradiyent tushish o’quv to’plamidagi barcha ma’lumotlar namunalarini oladi va yuqotish funksiyasini minimallashtirish uchun bitta parametrni yangilashni takroriy ravishda amalga oshiradi. Bu unchalik samarasiz, chunki parametrlarni yangilash butun ma’lumotlar bazasini qayta ishlashni talab qiladi. Bu yerda stoxastik gradiyent tushish g’oyasi paydo bo’ladiu boshqacha yo’l tutadi. Bu yerda biz stoxastik gradiyent tushish qanday ishlaydi va oddiy gradiyent tushish bilan stoxastik gradiyent tushish algoritmi o’rtasida qanday farq borligi haqida gaplashamiz.

Download 0.75 Mb.

Do'stlaringiz bilan baham:
1   ...   4   5   6   7   8   9   10   11   ...   14




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2025
ma'muriyatiga murojaat qiling