Lingvistik o’zgaruvchilar

Download 39.1 Kb.

bet	1/4
Sana	12.03.2023
Hajmi	39.1 Kb.
	#1264706

1 2 3 4

Bog'liq
dars tahlili

Lingvistik o’zgaruvchilar
Matematik lingvistika – 1) tilshunoslikning tilni tadqiq etish va oʻrganishda matematik usullardan foydalanuvchi boʻlimi; 2) matematikaning tabiiy tillar bilan baʼzi bir jihatlardan oʻxshash boʻlgan mavhum strukturalarni oʻrganuvchi boʻlimi. Matematik lingvistika tilshunoslik boʻlimi sifatida tabiiy tillar hodisalarini va ularni tadqiq etish jarayonlarini mavhumiy-semiotik modellashtirish usulidan foydalanadi; matematik fan sifatida esa ana shu modellarning eng umumiy xossalarini tadqiq etadi va ularning tuzilish usullarini oʻrganadi. Har ikkala maʼnodagi Matematik lingvistika ayni bir tushunchaviy apparatdan foydalanadi, ular orasida shunchalik yaqin bogʻliqlik mavjudki, uni maʼlum shartlar bilan yagona semiotik fan sohasi deb hisoblash mumkin.
Matematik lingvistika XX asrning 50-yillarida paydo boʻlgan. Uning asosiy tushunchalari – asos qilib olingan belgi-ishoralar (alifbo, lugʻat) toʻplami va maʼlum alifbo belgi-ishoralari (soʻz shakllar, iboralar toʻplami) izchilliklari (zanjirlari) toʻplami kabi tushunchalardir. Bu asosiy tushunchalar tilning har bir sathida qoʻllanadi. Oʻz maqsad-vazifasiga koʻra, Matematik lingvistika eng avvalo nazariy tilshunoslik vositasi hisoblanadi. Ayni paytda uning usul va yoʻllari amaliy lingvistik tadqiqotlarda – matnga avtomatik ishlov berishda, avtomatik tarjimada, inson va kompyuter oʻrtasidagi aloqa bilan bogʻliq tadqiqotlarda keng qoʻllanmoqda.
Yer yuzida turli millat va xalqlarning tarix solnomalariga guvohlik beruvchi o’z tili mavjud. Til – aloqa vositasi ekan, unda xalqaro muloqotning optimal yechimi sifatida kompyuter lingvistikasining ahamiyati katta. Bugungi kunda dunyo kompyuter lingvistikasi tabiiy til imkoniyatlarini kompyuter tiliga o’tkazish hamda u bilan bog’liq masalalarni kompyuter texnologiyasi yordamida hal qilish kabi muammolar tadqiqi bilan shug’ullanmoqda.
Jahon kompyuter lingvistikasida matnlarni tahrirlovchi dastur, nutqiy sintezator, matn korpusi, matnlarni lingvostatistik analiz qiluvchi dastur, matnlarni referatlash kabi tadqiqotlar tilshunoslikda katta hajmli lingvistik bazalarning yaratilishiga omil bo’lib xizmat qiladi.
Kompyuter lingvistikasining maqsadi tabiiy tillarning matematik modellarini qurish, lingvistik muammolarni hal qiluvchi kompyuter dasturlarini ishlab chiqishga yo’naltirilgan. KLning oldida turgan asosiy masalalar esa umumiy tilshunoslikning formal va aksiomatik modellarini qurish va konkret tillarning matematik modellarini ishlab chiqishga xizmat qiladi. Bu modellar asosida matnlarni tahrirlash, kompyuter tarjimasi, kompyuter lug`atlari, ona tili va chet tillarga o`rgatish hamda bilimlarni baholash bo’yicha kompyuter dasturlarini yaratish mumkin bo’ladi.
Hozirgi paytda injenerlik lingvistikasi, hisoblash lingvistikasi, matematik lingvistika va “elektron - tarjimon”, kompyuter lingvistikasi yuzasidan bir qator yangi muammolar o’rtaga tashlanmoqda. Darhaqiqat, zamonaviy kompyuter juda ulkan imkoniyatlarga egaki, uning uchun shaxmat o’ynashdan tortib, tibbiy tashxis qo’yish, korxonalarni boshqarish, qadimgi xalqlarning sirli xatlarini “o’qib”, mazmunini so’zlab berish, she’r yozish, kuylar ijro etish, katta hajmdagi kitoblarga annotatsiyalar yozish, loyihalar tarxini chizish kabi yuzlab mehnat faoliyati turlarining barchasida, albatta, zamonaviy kompyuter texnologiyalari ham ishchi kuchi, ham vaqt jihatidan juda yaqin yordamchi sanaladi. Bunda odam + mashina + odam hamda odam + matn + mashina + odam tizimlari asosida ulkan hajmdagi ishlar bajariladi.
Mamlakatimiz mustaqilligining dastlabki yillaridan boshlab, jamiyatning barcha sohalarida bo’lgani kabi o’zbek tilshunosligida ham boshqa fanlar kesimida yangi yo’nalishlar vujudga keldi. Keyingi yillarda kompyuter lingvistikasining alohida fan sifatida shakllanishi ham kompyuter va tilshunoslikning kesishuvidir.
“Kompyuter lingvistikasi” fani quyidagi masalalarni o’rganish bilan shug’ullanadi:

tabiiy tillarning matematik modelini ishlab chiqish;
lingvistik muammolarni hal qiluvchi kompyuter dasturlari bilan tanishish;
kompyuter lingvistikasining avtomatik tarjima va matnni tahlil qilish dasturlarini ishlab chiqish;
tillarga o’qitish, bilimlarni tekshirish;
lug’atlarni va kompyuterdagi matnni statistik tahlil qilish dasturlarini ishlab chiqish kabilar.

KL dasturlari doimiy ravishda kengayib bormoqda, shuning uchun biz uning vositalari bilan hal qilingan eng taniqli amaliy ishlarni tavsiflaymiz. Mashina tarjimasi KL ning eng birinchi qoʻllanilishi boʻlib, bu sohaning oʻzi paydo boʻlgan va rivojlangan. Birinchi tarjima dasturlari o'tgan asrning o'rtalarida yaratilgan va eng oddiy so'zma-so'z tarjima strategiyasiga asoslangan edi. Biroq, mashina tarjimasi ancha to'liq lingvistik modelni talab qilishini tezda anglab etdi. Bunday model mahalliy ETAP tizimida, shuningdek, ilmiy matnlarni tarjima qiluvchi bir qancha boshqa tizimlarda ishlab chiqilgan.
Hozirgi vaqtda yirik xalqaro tadqiqot loyihalaridan tortib, tijorat avtomatik tarjimonlarigacha bo'lgan kompyuterga asoslangan mashinali tarjima tizimlarining butun majmuasi (turli xil sifat) mavjud. Tarjima qilingan iboralarning ma'nosi kodlangan oraliq tildan foydalangan holda ko'p tilli tarjima loyihalari katta qiziqish uyg'otadi. Zamonaviy yo'nalish - tarjima qilingan so'z va iboralar juftligi statistikasiga asoslangan statistik tarjima. Ushbu muammo bo'yicha o'nlab yillar davomida olib borilgan izlanishlarga qaramay, mashina tarjimasi sifati hali ham mukammal emas. Ushbu sohadagi muhim yutuq mashinani o'rganish va neyron tarmoqlardan foydalanish bilan bog'liq (ular SI doirasida paydo bo'lgan va o'rganilmoqda).
Hisoblash tilshunosligining yana bir ancha eski masalasi bu axborotni qidirish va tegishli hujjatlarni indekslash, umumlashtirish, tasniflash va turkumlashtirish vazifalari. Matnli hujjatlarning katta ma'lumotlar bazalarida hujjatlarni to'liq matnli qidirish matnlarni indekslashni o'z ichiga oladi, ularga eng oddiy lingvistik ishlov berishni talab qiladi va maxsus indeks tuzilmalarini yaratadi. Axborotlarni qidirishning bir nechta modellari ma'lum, eng mashhuri va qo'llaniladigan vektor modeli bo'lib, unda axborot so'rovi so'zlar to'plami sifatida taqdim etiladi va so'rov va so'rovning o'xshashligi asosida mos (tegishli) hujjatlar aniqlanadi. hujjatning so'z vektori. Zamonaviy internet qidiruv tizimlari ushbu modelni matnlarni ularda ishlatiladigan so'zlarga ko'ra indekslash va tegishli hujjatlarni qaytarish uchun juda murakkab tartiblash tartiblarini qo'llash orqali amalga oshiradi. Axborot qidirish sohasidagi tadqiqotlarning dolzarb yo'nalishi ko'p tilli hujjatlarni qidirishdir.
Chastota matritsasi (asl yoki vaznli) so'zlarning vektor ko'rinishini belgilaydi. Darhaqiqat, ta'rifga ko'ra, har bir so'z bunday matritsadagi qator vektoriga mos keladi. Biroq, so'zlarning bu vektor ko'rinishi ikkita kamchilikka ega. Birinchi kamchilik - bu kabi vektorlarning katta o'lchami, bu ko'rib chiqilayotgan korpusdagi barcha hujjatlar soniga yoki lug'at hajmiga to'g'ri keladi. Katta o'lcham aslida bog'liq hisoblash xarajatlarining qabul qilinishi mumkin bo'lmagan miqdori va yuqori hisoblash xatosi tufayli so'zlarning bunday vektorli ko'rinishidan amaliy foydalanish imkoniyatini istisno qiladi. Ikkinchi kamchilik shundaki, bunday vektorlar orasidagi hisoblangan masofa ushbu vektorlarga mos keladigan so'zlar orasidagi semantik yaqinlik o'lchovini yomon aks ettiradi.
Matnni abstraktlashtirish (Xulosa) - uning hajmini qisqartirish va uning mazmuni haqida qisqacha ma'lumotni olish - hujjat to'plamlarida qidirishni tezlashtiradigan referat. Mavzuga oid bir nechta hujjatlar uchun (masalan, yangiliklar hujjatlari klasteri uchun) referat ham tuzilishi mumkin. Avtomatik mavhumlashtirishning asosiy usuli hali ham so'zlar va iboralar statistikasi, shuningdek, matnlarning tarkibiy va lingvistik xususiyatlariga asoslangan mavhum matnning eng muhim jumlalarini tanlashdir. Xulosa qilishga yaqin vazifa - hujjat matniga izoh berish, ya'ni uning izohini tuzish. Oddiy shaklda annotatsiya matnning asosiy (kalit) mavzularining ro'yxati bo'lib, ularni tanlash uchun statistik va lingvistik mezonlar qo'llaniladi.
Hujjatlarning katta to'plamlarini qayta ishlashda matnlarni klassifikatsiyalash va klasterlash muammolari dolzarbdir. Klassifikatsiya- har bir hujjatni parametrlari ma'lum bo'lgan ma'lum bir sinfga oldindan tayilash, klasterlash - hujjatlar to'plamini klasterlarga, ya'ni mavzuga oid hujjatlarning kichik to'plamlariga bo'lish. Ushbu muammolarni hal qilish uchun mashinali o'rganish usullari qo'llaniladi va shuning uchun bu qo'llaniladigan muammolar ko'pincha ma'lumotlarni ajratib olish (интеллектуальный анализ данных) ilmiy sohasining bir qismi sifatida ko'rib chiqiladigan matnni ajratib olish deb ataladi. Klassifikatsiya vazifasi tobora kengayib bormoqda masalan: spamni aniqlash. Klassifikatsiyaga juda yaqin bo'lgan vazifa matnni klasiffikatsiyalash - matnni ilgari ma'lum bo'lgan tematik sarlavhalardan biriga belgilash (odatda sarlavhalar mavzularning ierarxik daraxtini tashkil qiladi).
Axborotni qidirish bilan bog'liq nisbatan yangi vazifa bu savollarga javoblarni shakllantirish. Mumkin bo'lgan savolga misol: "Vilkani kim ixtiro qildi?". Muammo savol turini aniqlash, ushbu savolga javobni o'z ichiga olishi mumkin bo'lgan matnlarni qidirish (odatda qidiruv tizimlari ishlatiladi) va keyin javobni qaytarilgan matnlardan ajratib olish yo'li bilan hal qilinadi.
Ko'pincha matnni ajratib olish deb ataladigan dolzarb amaliy vazifa - bu iqtisodiy va sanoat tahlili muammolarini hal qilishda talab qilinadigan matnlardan ma'lumot olish (Information Extraction). Ushbu muammoni hal qilishda NL testida ma'lum ob'ektlar - nomlangan ob'ektlar (shaxslarning nomlari, geografik nomlar, kompaniya nomlari va boshqalar), ularning munosabatlari va ular bilan bog'liq hodisalar aniqlanadi. Qoida tariqasida, bu matnni qisman tahlil qilish asosida amalga oshiriladi, bu esa matnlarning katta massivlarini, xususan, axborot agentliklarining yangiliklar lentalarini qayta ishlash imkonini beradi. Tanlangan ma'lumotlar u yoki bu tarzda tuzilgan yoki vizuallashtirilgan.
Mamlakatimizda kompyuter lingvistikasi va matematik lingvistika muammolari bilan shug’ullanuvchi maxsus kafedra va laboratoriya 2001-yilda O’zbekiston Milliy Universitetida tashkil etilgan edi, keyinchalik bu kafedra “Umumiy va kompyuter tilshunosligi” degan nomga ega bo’ldi. Hozirgi kunda bu kafedra quyidagi muammolar bo’yicha dasturlar yaratish hamda talabalarga “Kompyuter lingvistikasi” fanidan mashg’ulotlar olib borish bilan shug’ullanmoqda:

matematik mantiq va matematik lingvistika muammolarini o’rganish;
kompyuter lingvistikasi masalalarini o’rganish;

kompyuterda bir tildan ikkinchi bir tilga tarjima qilish uchun lingvistik ta’min asoslarini yaratish va boshqalar
Tilni algoritmik jihatdan tasvirlash jarayoni matnni analiz va sintez qilishni taqozo etadi. Bu esa “mazmun - matn” muammosi faqatsof lingvistik muammo bo‘lib qolmay, balki matnni bir qator logik-matematik interpretatsiya (sharhlash) qilish jarayonini ham taqozo etuvchi murakkab muammo ekanligini ko‘rsatadi. Bu jarayonlarning barchasi matematik mantiq (logika) elementlari bilan aloqadordir. Kompyuter lingvistikasi sun’iy intellektni yaratishda tirik mavjudotlar va insonlardagi intellektual jarayonlarni matematik va kompyuter modelini tuzuvchi fan tarmog‘i bo‘lib, uning markazida tabiiy tillar ifodasining matematik modellaridan foydalanish turadi. Bu soha qisman tabiiy tillarni qayta ishlash bilan kesishadi. So‘nggi urg‘u mavhum modellarga emas, kompyuter tizimi uchun tillarning qayta ishlangan va ularning ifodasidagi amaliy metodlarga beriladi. Kompyuter lingvistikasi tadqiqotchilarining faoliyati til ma’lumotlarini qayta ishlash uchun amaliy dasturlar va algoritmlar ishlanmasini yaratish hisoblanadi. Bugungi kunda tilshunoslikda kompyuter orqali bajariladigan ishlar bir muncha ko‘paydi. Shuningdek, foydalanuvchiga qulaylik yaratuvchi lingvistik dasturlarga talab yanada oshib bormoqda.Bunga sabab informatsion olamning kengayishi va insonlarning qulaylikka hamda tezkorlikka intilishi deb baholashimiz mumkin. Kompyuter yordamida orfografik, tarjima dasturlari, sinonim, antonim, omonim lug‘atlarini yaratish, matnlarni avtomatik ravishda tarjima qilish, matnlarni to‘g‘ri tahrir qilish, hujjatlarni tahlil qilish, ma’lumotlar bazasini ishlab chiqish lingvistik modellar asosidagi mukammal dasturlarni yaratishni taqozo etmoqda. Buning natijasida sun’iy intellekt bo‘lmish kompyuterga va uning intellekt darajasini oshirib boruvchi insonga nisbatan “Inson-kompyuter”, “kompyuter-Inson” birikmalari paydo bo‘ldi.
Til –ijtimoiy hodisa. Tilning ijtimoiyligidan kelib chiqib, fan-texnika jadal rivojlanayotgan bir paytda rivojlangan davlatlarda milliy tilni rivojlantirish, optimal ko‘rinishga keltirish, formallashtirish borasida samarali ishlar qilinmoqda. Jumlada, Socrat, “AABBYY Lingvo” kabi elektron lug‘atlarning yaratilganini ko‘rsatishimiz mumkin. Bugungi kunda o‘zbek tilining dunyo miqiyosidagi ahamiyatini oshirish va boshqa dunyo tillari qatoriga qo‘shish uchun qator lingvistik masalalarni hal etish tilshunoslar oldidagi muhim vazifalardan biri hisoblanadi. Shunday vazifalardan biri o‘zbekcha matnlarni kompyuter vositasida tahrir qiluvchi dasturning lingvistik mezonlarini ishlab chiqishdir. Ishni amalga oshirishda tilshunoslar malakali dasturchilar bilan hamkorlikda ish olib borishlari kerak. Tilshunos – ma’lumotlar bazasini yig‘ib beruvchi, lingvistik ta’minotchi, dasturchi esa ma’lumotlarning qulay ishlash dasturini yaratuvchidir. Shuning uchun tilni kompyuter yordamida modellashtirish (qoliplash) bir tomondan, informatika va dasturlash nazariyasi fanlarining o‘rganish sohasi bo‘lsa, ikkinchi tomondan, tilshunoslik fanining tekshirish obyekti sanaladi.

Download 39.1 Kb.

Do'stlaringiz bilan baham:

1 2 3 4