Takrorlanuvchi neyron tarmoqlar


Uzoq qisqa muddatli xotira (LSTM)


Download 444.13 Kb.
bet2/3
Sana11.03.2023
Hajmi444.13 Kb.
#1260766
1   2   3
Bog'liq
Kudrinskaa Diplom.ru.uz (2)

Uzoq qisqa muddatli xotira (LSTM)


Uzoq qisqa muddatli xotira (LSTM) - RNN arxitekturasi standart RNN-larga qaraganda yaxshiroq saqlash va ma'lumotlarga kirishni ta'minlash uchun mo'ljallangan. u uzoq muddatli giyohvandlikni o'rganishga qodir.


LSTM moduli qisqa va uzoq vaqt davomida qiymatlarni saqlashga qodir takrorlanuvchi tarmoq modulidir. Ushbu qobiliyatning kaliti shundaki, LSTM moduli (5-rasmga qarang) o'zining takrorlanuvchi komponentlarida faollashtirish funksiyasidan foydalanmaydi. Shunday qilib, saqlangan qiymat o'z vaqtida xira bo'lmaydi va tarmoqni o'rgatishda vaqtni orqaga yoyish usulidan foydalanganda gradient yoki jarima yo'qolmaydi [7].

Guruch. 4 "Uzoq qisqa muddatli xotira xujayrasi"

Hujayraning holati to'g'ridan-to'g'ri butun zanjir bo'ylab o'tadigan va faqat ba'zi chiziqli o'zgarishlarda ishtirok etadigan konveyer lentasiga o'xshaydi (5-rasmga qarang). Axborot u orqali to'siqlarsiz o'tishi mumkin va hech qanday o'zgarishlarga duch kelmaydi. Biroq, LSTM ma'lumotni hujayra holatidan olib tashlashi mumkin. Bundan tashqari, olib tashlash jarayoni maxsus tuzilmalar tomonidan tartibga solinadi, ular filtrlar (darvozalar) deb ataladi (6-rasmga qarang) [8].



Guruch. 5 "Hujayra holati - konveyer tasmasi"
Filtrlashning asosi ma'lumotni o'tkazib yuborishga imkon beradigan ba'zi shartlardir. Ular ikkita ob'ektdan iborat. Bular sigmasimon neyron tarmoq qatlami va nuqta bo'yicha ko'paytirish operatsiyasi. Sigmasimon qatlam har bir ma'lumot blokining qancha qismi tarmoq orqali uzatilishi kerakligini ko'rsatadigan noldan birgacha raqamlarni qaytaradi. Bu holda nol "hech narsani o'tkazib yubormang", bittasi "hamma narsani o'tkazib yubormang" degan ma'noni anglatadi. LSTM hujayra holatini nazorat qilish va himoya qilish imkonini beruvchi uchta filtrni o'z ichiga oladi.



Guruch. 6 "LSTM da filtrlash"

LSTM endi turli ketma-ket ishlov berish vazifalarida, jumladan, nutq va qo‘l yozuvini tanib olishda eng ilg‘or natijalarni taqdim etadi.


Takroriy neyron tarmoq
Shaklda. 7 takrorlanuvchi bashoratli neyron tarmog'ini tasvirlaydi. Kirish vektor ketma-ketligi (1)Yashirin vektor ketma-ketliklarini hisoblash uchun N takroriy bog'langan yashirin qatlamlar to'plamiga og'irlikli ulanishlar orqali uzatiladi. (2) va keyin chiqish vektor ketma-ketligi (3).

Guruch. 7 "Takrorlanuvchi neyron tarmog'ining arxitekturasi, bu erda doiralar tarmoq qatlamlarini, qattiq chiziqlar og'irlikdagi ulanishlarni va nuqtali chiziqlarni bashorat qiladi"
(1)
(2)
(3)
Har bir chiqish vektori barcha mumkin bo'lgan kirishlar bo'yicha bashoratli taqsimotni parametrlash uchun ishlatiladi. Har bir kirish ketma-ketligining birinchi elementi har doim null vektor bo'lib, uning barcha yozuvlari nolga teng; shuning uchun tarmoq dastlabki ma'lumotsiz birinchi haqiqiy kirish uchun bashorat yaratadi. Tarmoq fazoda ham, vaqtda ham “chuqur”dir, ya'ni hisoblash grafigi orqali vertikal yoki gorizontal ravishda o'tadigan har bir ma'lumotga ko'plab ketma-ket og'irlik matritsalari va chiziqli bo'lmaganlar ta'sir qiladi [9].
Kirishlardan barcha yashirin qatlamlarga va barcha yashirin qatlamlardan chiqishlarga "o'tkazib yuborilgan ulanishlarga" e'tibor bering. Bu tarmoqning pastki va yuqori qismi o'rtasidagi ishlov berish bosqichlari sonini kamaytirish va shu bilan yo'qolib borayotgan gradient muammosini yumshatish orqali chuqur tarmoqlar uchun o'rganish jarayonini sezilarli darajada osonlashtiradi. Maxsus holatda, arxitektura odatiy bir darajali RNN (takroriy neyron tarmog'i) ga tushiriladi. - takrorlanuvchi neyron tarmoq) keyingi bosqichni bashorat qilish bilan. Yashirin qatlam faollashuvi quyidagi tenglamalarni dan va dan gacha takrorlash orqali hisoblanadi:


Qayerda - vazn matritsalari (masalan, bilan kirishlarni bog'laydigan og'irlik matritsasi hisoblanadi -m yashirin qatlam, - birinchi yashirin qatlamda takroriy ulanish va boshqalar), - taraflama vektori, yashirin qatlam funksiyasi.


Yashirin ketma-ketliklarni hisobga olgan holda, chiqish ketma-ketliklari quyidagicha hisoblanadi:


Qayerda chiqish qatlamining vazifasidir. Shunday qilib, butun tarmoq kirish tarixidan chiqish vektorlarigacha vazn matritsalari bilan parametrlangan funktsiyani belgilaydi .


Chiqish vektorlari keyingi kirish uchun bashoratli taqsimotni parametrlash uchun ishlatiladi. Shakl kiritilgan ma'lumotlarga asoslanib, ongli ravishda tanlanishi kerak. Xususan, ko'p o'zgaruvchan real dunyo ma'lumotlari (odatda "zichlikni modellashtirish" deb ataladi) uchun tegishli bashoratli taqsimotni topish juda qiyin bo'lishi mumkin.
Kirish ketma-ketligi uchun tarmoq tomonidan berilgan ehtimollik:



va tarmoqni o'rgatish uchun ishlatiladigan ketma-ketlikning yo'qolishi quyidagi manfiy logarifmdir:




(4)
Tarmoq og'irliklariga nisbatan yo'qotishning qisman hosilalari shaklda ko'rsatilgan hisoblash grafigiga qo'llaniladigan vaqt o'tishi bilan orqaga tarqalish bilan samarali hisoblanishi mumkin. 7 va tarmoq keyinchalik gradient tushish algoritmi bilan o'qitilishi mumkin.
Ko'pgina RNNlarda yashirin qatlam funktsiyasi sigmasimon funktsiyaning elementli qo'llanilishidir. LSTM versiyasi uchun u quyidagi kompozit funksiya yordamida amalga oshiriladi:







Qayerda -logistik sigmasimon funktsiya va va -mos ravishda, kirish filtri, o'tish filtri uchun kirish faollashtirish vektorlari, ya'ni. Hujayra holatidan ma'lumotlarni olib tashlashga qodir bo'lgan filtr, chiqish filtri va hujayra va hujayra kiritish (kirish eshigi, unutish eshigi, chiqish eshigi, hujayra va hujayra kiritish), ularning har biri bir xil o'lchamga ega. yashirin vektor.


Asl LSTM algoritmi har bir vaqt bosqichidan keyin og'irliklarni yangilash imkonini beruvchi maxsus ishlab chiqilgan taxminiy gradient hisobini ishlatadi. Biroq, buning o'rniga, umumiy gradientni vaqt o'tishi bilan orqaga tarqalish bilan hisoblash mumkin, bu usul keyinchalik qo'llaniladi [10].
To'liq gradient LSTM ni o'qitishdagi qiyinchiliklardan biri shundaki, lotinlar ba'zan haddan tashqari katta bo'lib, sonli muammolarga olib keladi. Bunga yo'l qo'ymaslik uchun siz LSTM qatlamlariga (sigmasimon va giperbolik tangens funksiyalarini qo'llashdan oldin) tarmoq chiqishlariga nisbatan yo'qotish lotinini ularni oldindan belgilangan diapazonda ushlab turish uchun kesishingiz mumkin.


Download 444.13 Kb.

Do'stlaringiz bilan baham:
1   2   3




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling