Jetir may 2020, Volume
Download 262.33 Kb.
|
JETIRDV06002 (2)
Subtitr Matn Xulosa
Tizim videoni, shuningdek, yuklab olish bilan boshlanadi foydalanuvchi tomonidan berilgan havoladan subtitr fayli. Subtitr fayli hisoblanadi aylantirildi ichiga matn fayl (.Xabar) shunday bu umumlashtirish algoritmlar mumkin bo'l qo'llaniladi. U yerda bor har xil umumiy umumlashtirish algoritmlar ichida mavjudlik shunday kabi LexRank, Yashirin Semantik Tahlil (LSA), Maksimal Marginal Muvofiqlik (MMR), Qo'llab-quvvatlash Setlar nom berish biroz. Yashirin semantik tahlil (LSA) yaxshiroq natija berishi aniqlandi ishlash uchun filmlar va hujjatli filmlar [6]. Yashirin - Semantik-tahlil (LSA) gipoteza va texnikadir chiqarish va Gapirmoqda uchun the muvofiq foydalanish ahamiyati ning so'zlar tomonidan o'lchanadigan hisob-kitoblar qo'llaniladi uchun a ulkan korpus ning mazmuni [5]. LSA induktsiya qiladi muvofiq foydalanish so'z chastotasiga bog'liq tarkib. Bu tekshirilishi mumkin semantikani baholashga ruxsat beruvchi so'zlardan foydalanish modeli ma'lumotlar bitlari orasidagi yaqinlik. uchun mos keladi ilovalar uchun olimlar ichida miya tadqiqot va ko'rsatma JSSV kerak baho bering qozonish dan adabiy material. tomonidan o'ynamoqda bo'lgan yozuvlarni dasturlashtirilgan tekshiruvdan o'tkazdi sub'ektlar tomonidan o'rganilganda, belgilangan semantik makon bo'lishi mumkin matnli ma'lumotlar qismlarini muvofiqlashtirish uchun ko'p foydalaniladi xuddi shunday kabi a taklifli imtihon. The mavjudligi ning the bularda aniq gaplar juda muhim va hal qiluvchi ahamiyatga ega bo'ladi foydalanish holatlari turi. Muhim mavzularsiz hal qilinadi talab uchun tashqi leksik aktivlar: har biri so'z voqea sozlash beradi ma'lumotlar haqida uning ahamiyati, yaratish munosabatlar tarzi bilan bog‘langan so‘z va gaplar orasida qaysi odamlar bog'lanishadi [6]. LSA birinchi navbatda a ishlab chiqaradi Har bir so'z voqealarining hujjat-term matritsasi (DTM). har bir yozuv (jumlalar yoki bo'limlar). Bu DTM tomonidan ishlab chiqarilgan berib qiymatlar uchun har so'z ichida the hukm, beri the to'xtash so'zlarning tez-tez uchrashi e'tiborga olinmaydi. LSA keyin foydalanadi birlik qiymat parchalanish (SVD), a strategiyasi aniq belgilandi xos vektor bilan parchalanish va faktor tekshiruvi. Biz Singular-valuedan foydalanamiz Parchalanish (SVD) uchun pasayish the pozitsiya ning the mazmuni tarmoq. SVD omillari a Y × |S| kontent matritsasi Z va 3 deb ayting x 3 panjara [9]: A |S| × |S| matritsa ramka bilan V yagona - vektorlar ning A E burchak tarmog'iga [Y × |S|] burchakka ega uning bo'ylab plummeting so'rovda yakkalik fazilatlari qiya. Agar bizda faqat eng katta k yakkalik fazilatlari mavjud bo'lsa matritsaning diagonalida biz k-darajali ramkani olamiz Ak, qaysi hisoblanadi the eng yaxshi taxmin qilish ning the birinchi matritsa A. The SVD masshtablash so'zma-arxiv tarmog'ini ko'p k ga ajratadi, odatda 100 dan 300 gacha, ulardan nosimmetrik komponentlar birinchi panjarani to'g'ridan-to'g'ri aralashtirish orqali taxmin qilish mumkin. Har k qiymati o‘rniga davomli gap sifatida ifodalanadi noyob mustaqil so'zlar. Terminning ahamiyati shundaki tomonidan hisoblangan formula: 𝑇𝑒𝑟𝑚 𝐹𝑟𝑒𝑞𝑢𝑒𝑛𝑐𝑦 𝐷𝑜𝑐𝑢𝑚𝑒𝑛𝑡 𝐹𝑟𝑒𝑞𝑢𝑒𝑛𝑐𝑦 Ushbu algoritm, shuningdek, umumlashtirilgan sifatni ham ta'minlaydi insho, sifati tekshirildi va ikki yordamida saqlab yondashuvlar. The birinchi tahlil qilingan the o'lchov ning semantik qopqoq original matni bilan ekspozitsiyalar. Har bir jumla ichida har biri umumlashtirilgan matn hisoblanadi solishtirildi bilan the original matn, va o'rtasidagi kosinus asosiga ko'ra ball ajratiladi umumlashtirilgan jumla va the eng yaqin jumla ichida the original matn. In bu usul, agar the umumlashtirilgan matn hisoblanadi tuzilgan bilan gap aslida asliyatdagi gapga tengdir mazmuni, ular bir jumla esa 1,0 kosinus olish edi asl matnda hech qanday semantik qoplamaga ega bo'lmagan bo'lardi olish a kosinus ning 0,0. The keyingi o'lchov hisoblanadi bu the bilan umumlashtirilgan matn kosinuslarining o'rtachasi solishtiriladi original matn. Bu shuningdek diqqat qaratadi yoqilgan the izchillik ning the umumlashtirilgan matn asl nusxasiga matn. In Bu yerga a aniq va a toza matn xulosa id olingan tomonidan foydalanish bu LSA algoritm. Video Xaritalash Algoritm Tizimning ushbu moduli katta hajmni aylantirish bilan shug'ullanadi original video ichiga kichikroq kalit ramkalar qaysi bor uchun bo'l ilova qilingan uchun shakl a umumlashtirilgan video. Shunday qilib the muammo bayonot asosiy ramkalar qanday aniqlanishi kerak va to'liq umumlashtirilgan videoni olish uchun ko'rib chiqiladi. Bu muammo hisoblanadi yengish tomonidan foydalanish the video xaritalash algoritm. Bu algoritm yordam beradi ichida xaritalash the yaratilgan matn original videoning xulosasi. Bir tomondan bizda bor yaratilgan umumlashtirilgan subtitr fayl va yoqilgan the boshqa biz bor original video. Subtitr faylining xulosasidan keyin yaratilgan, the vaqt diapazon ning the har xil umumlashtirilgan jumlalar hisoblab chiqiladi. Vaqt oralig'i soniga ishora qiladi Videoda har bir jumla soniya oladi. Keyin boshlang va the oxiri segment ning bu vaqt diapazon hisoblanadi hisoblangan alohida uchun har biri jumla. The boshlash va oxiri segmentlar murojaat qiling uchun the boshlab soniyalarda gapning vaqti va tugash vaqti. Buni ishlatish boshlash va tugatish segmenti vaqtini tizim keyin kliplarni oladi ga mos keladi the vaqt diapazon mos ravishda natija beradi bir nechta kichik bo'laklarga ega ga muvofiq videolar the umumlashtirilgan subtitr matn fayl. The final video hisoblanadi yaratilgan bilan xaritalangan ushbu kalit ramkalarni qo'shish orqali sarlavhali matnli jumlalar. Shuning uchun chiqishi video xaritalash algoritmi bizga qisqacha ma'lumot beradi va qisqartirilgan video the katta original video. Bu algoritm hisoblanadi optimallashtirilgan ichida shunday a yo'l bu U yerda hisoblanadi maksimal miqdori ning vaqt saqlangan ruxsat berish the video uchun etkazish the to'liq ma'lumot ichida a qisqacha. Audio Avlod Bir marta the video hisoblanadi umumlashtirilgan, a mos keladigan audio o'qish the umumlashtirilgan matn fayl hisoblanadi o'ynadi orqasida the video xulosa. Nutq sintezi hisoblanadi the sun'iy ishlab chiqarish ning inson nutq. Ushbu maqsad uchun foydalaniladigan ramka deyiladi nutq sintezatori. Matndan nutqqa (TTS) tizimi o'zgaradi an'anaviy til mazmuni ichiga Nutq. Ushbu audio to'liq tushunish uchun yaratilgan ning the ma `lumot taqdim etdi. Bu hisoblanadi bajarildi tomonidan a piton GTTS (Google Text-to-Speech) deb nomlangan qaramlik. Bu an ko'rib chiqadi sozlanishi nutq aniq jumla tokenizer cheksiz uzunliklar ning mazmuni uchun bo'l o'rganib chiqdi, hammasi esa saqlash qonuniy tovush, qisqartirilgan shakllar, o'nli kasrlar va boshqalar [10]. The audio birga bilan the video osonlashtiradi a to'liq tushunish ning the video ichida shartlari ning the ma `lumot taqdim etdi. Bu tizimning yakuniy natijasi bo'lishini ta'minlaydi mutlaqo aniq. Ovoz yaratilganligi sababli umumlashtirilgan subtitr matni uchun alohida foydalanish mumkin boshqa maqsadlar kabi yaxshi. Integratsiya Bu hisoblanadi the final modul qaysi keladi ichiga rasm keyin hammasi the Yuqoridagi modullar alohida-alohida qayta ishlanadi. Har bir modulning to'liq kombinatsiyasi birgalikda shakllanadi butun tizim. Bunda videoning chiqarilishi va subtitr fayl, konvertatsiya ning the subtitr fayl uchun matn, the samarali xulosani shakllantirish uchun matnni manipulyatsiya qilish, video xaritalash, the ovoz avlod hisoblanadi birga jamlangan uchun shakl a yagona tizimi. Keyin the oldindan ishlov berish ning the ovoz va xaritalangan videoga matn kiriting va yaratilgan audio birlashtiriladi va toza va toza video va audio olish uchun sinxronlashtiriladi kabi birga to'liq chiqish. Semantik ni ajratish yo'li bilan video yozuv olinadi sarlavha hujjat ning har qanday video holda murosaga keltiruvchi yoqilgan the sifat va mazmuni ning xuddi shu. Taklif etilgan tizim boshqa videolarda sinovdan o'tkazildi har xil o'lchamlar va janrlar. Hisoblash maqsadida aniqlik ning the tizimi, besh boshqacha videolar ning turlicha muddatlari edi tanlangan dan the mashhur video almashish platformasi YouTube va taklif qilingan ishlash uchun qilingan tizimi. The eksperimental natijalar ning the original video va the umumlashtirilgan video hisoblab chiqiladi. |
ma'muriyatiga murojaat qiling