Мундарижа: I боб. Компьютер луғатлари: тезаурус

Tezaurusga kiritiladigan atamalarni tanlash uslublari

bet	25/27
Sana	26.02.2023
Hajmi	475.5 Kb.
	#1233629

1 ... 19 20 21 22 23 24 25 26 27

Bog'liq
kitob yangi oxirgisi

3.2. Tezaurusga kiritiladigan atamalarni tanlash uslublari
Tezaurus qurishning muhim jihati – bu atamalar, ya’ni tezaurusga kiritiladigan nomzodlarni saralash, shuningdek, sinonimik atamalar orasidan atama-deskriptorlarni tanlash uslubidir.
O‘zbeklarga xos tezaurusga kiritish uchun atamalarni tanlash jarayoni kompyuter lingvistikasining eng yangi fan sifatidagi o‘ziga xos xususiyatlari va uning Rossiyada rivojlanishi holati bilan bog‘liq qiyinchiliklar bilan chambarchas bog‘langan. Bunda umuman kompyuter lingvistikasini va rus tili kompyuter lingvistikasini tasvirlovchi quyidagi faktorlarni alohida ta’kidlash zarur:

Kompyuter lingvistikasining fanlararo tabiati;
«Kompyuter lingvistikasi» fan sohasining turli-tumanligi;
Kompyuter lingvistik asosi alohida yo‘nalishlarining rivojlanishi bir xil emasligi;
Rus tili kompyuter lingvistikasining ingliz tili kompyuter lingvistikasidan farqi (jumladan, rus tili kompyuter lingvistikasi yo‘nalishlarining nisbatan ortda qolishi).

Avvallari kompyuter lingvistikasi «sun’iy intellekt» tadqiqot yo‘nalishining bir qismi edi. Bu yo‘nalish atamalari ancha o‘rganilgan deb hisoblanadi: «Sun’iy intellekt va intellektual tizimning maxsus atamalari 20 asrning 60 yillaridan boshlab shakllana boshladi. Atamalar shakllanishining birinchi bosqichi doimo turli maktablar va mutaxassislar guruhi ko‘p sinonimik atamalarga boyligi bilan ajralib turadi, ayniqsa o‘zbek tilida. Bu bosqichda atamalar tez paydo bo‘ladi va ularning bir qismi shunday tez yo‘qolib ketadi. 70 yillarning o‘rtasiga kelib sun’iy intellekt sohasida atamalar majmui o‘z o‘rniga ega bo‘la boshladi. Aksariyat mutaxassislar tomonidan tan olingan atamalar yuzaga keldi. Bu atamalarning barchasi (kamdan kam hollardan tashqari) ingliz tilidan kelib chiqqan, chunki aynan AQSH da bu soha shiddat bilan rivojlandi. Asosiy atamalar majmui 80 yillarning birinchi yarmida tamomila mustahkamlandi».
Sun’iy intellekt – bu oxirgi o‘n yillikda uslublari turli fan sohalariga, jumladan, kompyuter lingvistikasida faol bo‘lgan sohalardan biridir. Kompyuter lingvistikasining atamalar majmui alohida bo‘limlarda birinchi bosqich xususiyatlarini saqlab qolgan (sinonimlarning ko‘pligi, masalan, semantik munosabatlar bo‘limida). Sun’iy intellekt ham fanlararo soha hisoblanadi, ammo bu parametr nuqtai nazaridan qaraganda sun’iy intellekt va kompyuter lingvistikasi bir-biriga zid: sun’iy intellekt fanlararo sohadir, chunki uning usullaridan turli fanlarda foydalaniladi, kompyuter lingvistikasi esa lingvistika (nutqni va matnlarni tadqiq qilish bilan bog‘liq bo‘limlari), psixologiya kabi turli fanlarni, sun’iy intellektning ayrim bo‘limlarinigina qamrab oladi.
Yuqorida keltirilgan omillarning natijasi bu ingliz tilidagi manbalardan farqli o‘laroq, zamonaviy kompyuter lingvistikasi tuzilmasini yetarli darajada to‘liq aks ettiruvchi rus tili va boshqa tillardagi o‘quv yoki leksikografik manbalarning yo‘qligidir.
Rus tilidagi atamalarning asosiy manbasi sifatida rus tili kompyuter texnologiyalari atamlaridan foydalanishni aks ettiruvchi 2000 – 2010 yillarda bo‘lib o‘tgan «Dialog (Suhbat)» Xalqaro anjumani ma’ruzalar to‘plamini ko‘rsa bo‘ladi.
Bu to‘plamda lingvistik modellar (morfologik va sintaktik tahlil) hamda statistik ko‘rsatkichlar asosida ushbu fan sohasidagi so‘zlar va so‘z birikmalarini, ya’ni fan sohasining atamalarini tanlab olishga ko‘mak beruvchi lug‘atga tegishli bo‘lgan yo‘l-yo‘riqlar tadbiq qilingan. So‘ngra bu ro‘yxat kompyuter lingvistikasi sohasi ekspertlari tomonidan tayyorlangan. Bunda ekspertlar nafaqat kompyuter lingvistikasi sohasidagi bilimlarga, balki atamashunoslik haqidagi umumlingvistik tushunchalarga ham asoslanadi. Shunday qilib, fan sohasiga uning tuzilishini avvaldan e’tiborga olgan holda yondashishimiz so‘zlarning darajalanuvchi sxemalari asosida shakllanishi haqidagi umumiy metodika bilan muvofiqlashadi.
Agar bu lug‘at ingliz tili uchun tuziladigan bo‘lsa, yaratilayotgan tezaurusning rus-ingliz tilida ekanligini e’tiborga olib kompyuter lingvistikasining ingliz tilidagi manbalaridan tarjimaga oid ekvivalentlar tanlab olindi.
Boshqa tarafdan esa rus tilidagi kompyuter lingvistikasining bo‘shliqlarga ega bo‘lgan qismlarini to‘ldirish uchun bu qismlarga atamalar yig‘ish va ularni qo‘llash, lug‘atga kiritish jarayonida yana ingliz tilidagi manbalarga tayanishga to‘g‘ri keldi. Chunki ruslarga va boshqa tillarga nisbatan ingliz tilida atamalar va ularning izohi yoritilgan manbalar anchagina kengdir. Xuddi shunday, kompyuter lingvistikasining nutqiy texnologiyalar kabi yuqori texnologik qismida oxirgi bir necha yil davomida yuz bergan keskin o‘sish, shuningdek, bu yo‘nalish «Dialog» to‘plamida sal-pal yoritilganligi, bu qism uchun atamalar to‘plashda qaytuvchi uslub qo‘llanilgan hisoblanadi, ya’ni asosiy manba sifatida ingliz manbalaridan foydalanilgan: o‘quv-tanishtiruv ixtisosiga tegishli bo‘lgan zamonaviy va nufuzli ingliz tilidagi kitob manbalarining fan ko‘rsatkichlari va taniqli tovush analizatorlari hujjatlariga kiruvchi glossariylar shular jumlasidandir. Ushbu terminologik asosda parallel terminlarning ingliz-rus lug‘atini yaratish imkoniyati tug‘ilgan.
Ko‘p sonli sinonimik atamalardan asosiy atama-deskriptorni tanlab olish muammosi ham qiyin kechmoqda, chunki kundan-kunga yangi tushunchalar va ularga mos keluvchi atamalar paydo bo‘lib borishi asosiy muammo sifatida qaralib kelinmoqda. Xuddi shunday, inglizlarda avtomatik tarjima sohasida ”translation memory” tizimlarining paydo bo‘lishi ilmiy jamiyat tomonidan tan olinmagan edi va tarjimaviy xotira atamasini bunga qarama-qarshi qo‘ygan, ammo tarjimon-amaliyotchilar tomonidan tarjimalar xotirasi tushunchasi keng qo‘llanildi va asosiy iste’moldagi tushuncha sifatida shakllanishiga olib keldi. (sinonimik qatorlari: tarjimaviy xotira - 8, tarjimalar xotirasi - 0, tarjimalar arxivi - 1, tarjimalar to‘plovchisi - 0, tarjimalar to‘plami - 0).
Kompyuter lingvistikasining ayrim yo‘nalishlarining rivojlanib ketishi (masalan, onlayn tizimida avtomatik tarjima kabilarda) atamalarning o‘z eski ko‘rinishlari bilan to‘qnashuviga sabab bo‘ladi. Xuddi shunday, INION va LESda avtomatik tarjima va MASIHNA yordamidagi tarjima juftligida avtomatik tarjima asosiy hisoblanadi va unga deskriptor maqomi beriladi. Biroq «Dialog» to‘plamida tez-tez uchrashiga ko‘ra MASIHNA yordamidagi tarjima ustun turadi: MASHINA yordamidagi tarjima – 318 vs., avtomatik tarjima – 58. «Vikipediya» va «Krugosvet (dunyo bo‘ylab)» internet ensiklopediyasi, shuningdek, darsliklar ham mana shu an’anaga asoslanadilar. Yevropa assotsiatsiyasi (uyushmasi)ning MASHINA yordamidagi tarjima saytida qayd qilinganidek, MASHINA tarjimasi (machine translation) atamasi eskirgan mavjud esa-da, butun soha uchun asosiy umumiy atama bo‘lib qolmoqda. Bu holda ekspertlar ushbu nuqtai nazarni tan oldilar.
Shunday qilib, atama deskriptorlarni tanlab olishda biz nafaqat statistikaga, balki tilshunoslar ilmiy jamiyatida ayni kunlarda yuzaga kelgan so‘zlardan foydalanish an’analariga ham tayanmog‘imiz lozim. Ko‘rib chiqilgan tahlillarda kompyuter lingvistikasi bo‘yicha rus-ingliz tezaurusini yaratish misol qilib olingin bo‘lsa-da, uning tarkibida tezaurus tuzilishini ta’minlovchi va ularda qo‘llanadigan so‘zlarning semantik xususiyatlarini ta’minlovchi vositalar mavjudligi tufayli ulardan har qanday til va fan sohalari uchun ko‘p tillik tezauruslarni qurishda foydalanish imkoni mavjud.
Hozirgi kunda tezaurus lag‘atlarini yaratish va ular bilan ayni vaqtda 1000 dan ortiq atamalarni, ular o‘rtasidagi 3500 atrofidagi bog‘lanishlarni va 120 dan ortiq atamalar manbalarini va ularning ta’riflarini qamrab oluvchi elektron tezaurus tarkibini to‘ldirish bo‘yicha ruslarda va inglizlarda faol ishlar olib borilmoqda.

Download 475.5 Kb.

Do'stlaringiz bilan baham:

1 ... 19 20 21 22 23 24 25 26 27