I bob. 1 Korpus tushunchasi va korpus lingvistikasi tahlili
Download 44.96 Kb.
|
Bob 1
I BOB. 1.1 Korpus tushunchasi va korpus lingvistikasi tahlili Sh.Tursunovning izohlashicha, Korpus katta hajmli va tizimga solingan matnlar to‘plamidan iborat til manbasi hisoblanadi. Korpus tilshunosligida ular ma’lum bir til doirasida yoki tilning ma’lum bo‘limida statistik tahlillarni amalga oshirish, qarashlarni, tildagi hodisalar yoki nazariy qoidalarni tekshirish uchun foydalaniladi1.Korpus bir til yoki bir necha tildagi matnli ma’lumotlardan iborat bo‘lishi mumkin. Korpus deganda, odatda, matnli korpus tushunchasi anglanadi, lekin hozirgi kunda korpuslar faqatgina matnlardan iborat bo‘lmay qoldi. Shuning uchun korpus so‘zi o‘rniga matnli korpus tushunchasini ishlatamiz. Tilga oid tadqiqotlarni olib borishni yanada samaraliroq qilish uchun korpuslar annotatsiyalanadi. Masalan, korpusni annotatsiyalashning bir turi bu so‘zlarni teglash hisoblanadi (POS-tagging). Bunda so‘zning turkumi va shu turkum kategoriyalari asosida teglab chiqish tushuniladi. Ya’ni kitoblarga so‘zi quyidagi ma’lumotlarni tashiydi: ot, ko‘plik, jo‘nalish kelishigi. Ayni mana shu ma’lumotlar teglar orqali so‘zga biriktirib chiqiladi. Annotatsiyalashning yana bir ko‘rinishi o‘zaklash (lemmatizatsiya) bo‘lib, u so‘zning tayanch shaklini ko‘rsatib berish hisoblanadi. Masalan, kitoblar, kitobning, kitobga so‘zi uchta shaklda turibdi lekin ularning asosi bir xil – kitob. Ana shu lemmatizatsiya (o‘zaklash) deb ataladi. Bu yerda asos hamda o‘zak tushunchalarini adashtirib yubormaslik kerak. Masalan, bostirma so‘zi bostir+ma shaklida yasalagan, lekin uni o‘zaklashda bostir so‘zini lemma deb qaray olmaymiz, bostirma yagona so‘z hisoblanadi. Agar, bostirmada, bostirmaga, bostirmaning so‘zlarini o‘zaklash kerak bo‘lsa unda bostirma so‘zini olishimiz to‘g‘ri bo‘ladi. Sodda qilib aytganda, lemma so‘zning shakl yasovchi qo‘shimchalari tushirib qoldirildigan qismi hisoblanadi. Sodda qilib aytganda, korpus tilshunoslikning istalgan sohasida tadqiqotlarni olib borishning sifatli va samarali bo‘lishiga yordam beradi. Korpus — til birliklarining xususiyatlarini aniqlash maqsadida qidiruv dasturiga bo‘ysundirilgan matnlar majmui, tabiiy tildagi elektron shaklda saqlanadigan yozma yoki og‘zaki, komp'yuterlashtirilgan qidiruv tizimiga dasturiy ta'minot asosida joylashtirilgan on-line yoki off-line tizimda ishlaydigan matnlar jamlanmasi. 2Til korpuslari — til bo‘yicha tadqiqot va amaliy topshiriqlar yechimi uchun inkor etib bo‘lmas ish quroli. U oddiy elektron kutubxonadan farqlanadi. Elektron kutubxonaning maqsadi — xalqning ijtimoiy-siyosiy, ma'naviy, iqtisodiy hayotini aks ettiruvchi badiiy va publisistik asarlarni nisbatan to‘liq qamrab olish. Elektron kutubxona matnlari til nuqtai nazaridan ishlov berilmaganligi sababli tadqiqotlar uchun noqulaylik tug‘diradi. Chunki elektron kutubxona ilmiy tadqiqot materiali bazasini tayyorlash maqsadida tuzilmaydi, balki milliy ma'naviy merosni jamlashni maqsad qilgan bo‘ladi. Til korpusi esa elektron kutubxonadan farqli o‘laroq, tilni o‘rganish va tad¬qiq qilish uchun zarur, foydali va qiziqarli matnlarni to‘plashni nazarda tutadi. Korpusni elektron kutubxonadan ajratib turuvchi birinchi omil undagi matnning xususiyati va qo‘shimcha ma'lumot bilan boyitilgani hisoblanadi hamda bu belgi korpusning alohida qismi — korpus birliklariga yozilgan izohni tashkil etadi. Foydalanuvchiga biror so‘z kerak bo‘lsa, buni odatiy matn muharriri ham topib beradi. Lekin matndagi til hodisasining ma'nosi, mazmuni va tuzilishini «tushunadigan» dasturiy tizim bilan ishlash juda afzal va qulay. Til birligini qidirish, kerak bo‘lsa, bunday dasturiy ta'minot, ya'ni korpus tadqiqotchi yoki foydalanuvchiga juda katta yordam berishi mumkin. Tadqiqotchi o‘z ishi uchun misollar topish, ularni kartotekaga (komp'yuter texnologiyalari rivojlanishidan oldingi davrda) ko‘chirishga oylab, ba'zan yillab vaqt sarflagan bo‘lsa, bugun dunyo til korpuslari yordamida sanoqli daqiqada yuzlab misollar topish, ular ustida ishlash imkoniga ega bo‘ldi. Maxsus qidiruv tizimi korpusdan ma'lumot olishga mo‘ljallangan bir qancha dasturdan iborat. U statistik axborot va qidiruv natijasini foydalanuvchiga qulay shaklda taqdim eta oladi. Tilda qanday jarayon kechayotganini aniq tasavvur qilish uchun korpus qamrovini yanada kengaytirish, nafaqat yozma, balki og‘zaki nutq materialidan ham foydalanish maqsadga muvofiq. Bunday korpus yordamida taraqqiyot natijasida tilda sodir bo‘lgan va kutilayotgan o‘zgarish haqida aniq xulosa chiqarish mumkin. Download 44.96 Kb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling