Korpus asosida bajariladigan mashq va topshiriqlar tizimi system of exercises and assignments based on the body
Download 31.84 Kb.
|
Korpus tayyor
Tokenayzer.Til korpusini yaratishda birinchi navbatda matndagi so‘zlarni qanday qilib ajratib olish tushuniladi. Buning uchun ajratuvchi belgilarni (probel, tinish belgilari va h.k.) o‘z ichiga olmagan hamma qismiy satrlar matndan ajratilib olinishi lozim. Bu esa tokenlar to‘plami bo‘ladi [Николаев И.С., 2016: 146]. Tokenayzer matnni, dastlab, so‘zlar orasidagi probellar (bo‘shliq belgilari) asosida bo‘laklaydi, so‘ngra so‘zlardan tinish belgilari olib tashlanadi. Qisqartmalar (masalan, TATU, BMT, MDH, h.k.) va sana yozuvi (masalan, 09.04.2018) ham token sifatida olinadi [Tursunov M.S., DOI: 10.1109/ICISCT50599.2020.9351376, 2020].
Matn – bu kiruvchi ma’lumot bo‘lib, maydonga foydalanuvchi o‘zining matnini joylashtiradi; Tugma – bu tugmaning ustidan sichqoncha bilan bosilsa, kiritilgan matnni tokenlarga jaratadi; Tokenlar – bu maydonda matndan ajratib olingan tokenlar ro‘yxati hosil bo‘ladi; Statistika – bu yerda matndagi tokenlar miqdori ko‘rsatiladi [Tursunov M.S., DOI: 10.1109/ICISCT50599.2020.9351376, 2020].98e79 Mutaxassislar korpus tuzishning texnologik jarayonida quyidagi bosqichlarni ajratishadi [https://uz.eferrit.com/]: 1. Belgilangan manbaga muvofiq holda matnning korpusga kirishini ta’minlash. 2. Matnni avtomatik o‘qilish shaklida qayta ishlash. Korpusga kiritiladigan elektron shakldagi matn turli usul bilan olingan bo‘lishi mumkin: qo‘lda terilgan, skanerlangan, mualliflik nusxasi, hadya, ayirboshlash, Internet, nashriyotlar tomonidan korpus tuzuvchisiga beriladigan original-maketlar. 3. Tahlil, matnga dastlabki ishlov berish. Ushbu bosqichda turli manbalardan qabul qilingan matnlar filologik tekshiruv, tahrirdan o‘tadi. 4. Konversiyalash, grafematik tahlil. Ba’zi matnlar qayta kodlashtirish jarayoni amalga oshadigan ilk mashina ishlovidan qayta-qayta o‘tadi, nomatniy qismlar (rasm, jadval) o‘chiriladi yoki o‘zgartiriladi. Matndagi bo‘g‘in ko‘chirish, chegaralar (MSDOS matnlarida) bekor qilinadi, tire, boshqa belgilar bir xilligiga erishiladi. Grafematik tahlil korpusga kiruvchi matnni qismga (so‘z, bog‘lovchi) ajratish, nomatniy elementni o‘chirish kabi amallarni bajarishdan iborat. 5. Nostandart (noleksik) elementni belgilash, rasmiylashtirish, maxsus matniy elementni (qisqartma asosida yozilgan nom (ism, familiya), boshqa alifboda yozilgan o‘zlashma leksema, rasmga berilgan nom, izoh, zarvaraq, adabiyotlar ro‘yxati va bir xil mezon asosida qayta ko‘rib chiqish. Albatta, bu amallar avtomatik ravishda matn muharriri tomonidan bajariladi. Korpusni loyihalashtirishning keyingi bosqichi manbani saralash hisoblanadi. Korpusning ahamiyati uning bir tildagi keng ko‘lamli matnlarni bir joyga yig‘ib,tartib berilganida emas, shu sababli uni tuzishda bir necha mezon asosida ish ko‘riladi. Korpus materialini saralashda korpusning asosiy birligi nimadan iboratligi,uning hajmi qanday bo‘lishi (unda qancha so‘z bo‘lgani ma’qul), yozma matn qaysimanbaga asoslanishi, qancha miqdorda bo‘lishi, unga kiruvchi matn tilning qaysi sohasiga tegishli bo‘lishi kabi masalalarga yechim topiladi. Korpusning asosiy birliklari so‘zshakl, o‘zak (negiz, lemma) va gap. Tuziladigan korpus hajmi korpusning maqsadidan kelib chiqib belgilanadi. Agar u harf, harfiy birikma, tovush, diftonglarni tadqiq etishni maqsad qilgan bo‘lsa, u qadar katta bo‘lishi shart emas. Matnning leksik birliklari, morfologik hodisa, sintaktik, uslubiy xosligini tadqiq etish maqsadida tuzilsa, katta hajm talab etiladi. S.A.Sharovning fikricha [Elena Tognini-Bonelli, 2004:4], saralash jarayonida qaysi janrga oid matnni (nasr, drama, she’riyat, ilmiy matn, gazeta, jurnalmateriali va h.) tanlash, matnning qaysi davrni (zamonaviy, 10 yillik, 50 yillik va mumtoz matn) qamrab olishi, matn faqat adabiy tilda bo‘lishi yoxud boshqa manbalarham kirishi kabi masalalar ham muhim ahamiyat kasb etadi. Korpus tuzuvchisi bujarayonda, albatta, tilshunos, lingvostatistika mutaxassisi yoki anketa metodigamurojaat etadi. Korpus tuzish jarayonida muallif o‘z tajribasiga tayangan holda korpusning umumiy hajmi, matnning nashr vaqti, matn soni, elementar tanlov hajmi,tanlanadigan janr xili, turini asosiy omil hisoblaydi. So‘rovnoma usuli “Amerikameros korpusi” (“The American Heritage Intermediate Corpus”) tuzuvchilaritomonidan qo‘llangan. 5 million so‘zshakl hamda ingliz tilida 22 turdagi bolalar, o‘smirlar janriga oid matnlar kiritilgan. AQShning 221ta maktabiga qanday matnni tanlash maqsadga muvofiqligini aniqlovchi so‘rovnoma yuborilgan. So‘rovnoma natijasi o‘rganilgach, 19 000 nomdagi kitoblar ro‘yxati tuzilgan. Bu asosda har biri 500 so‘zshakldan iborat 1 045 matn tanlab olingan. Xulosa sifatida korpusni loyihalashtirish jarayonida material (matn) tanlash, saralash, uni texnik jihatdan korpusga moslashtirish eng asosiy bosqich ekanligini qayd etish joiz. Har qanday tilshunos muayyan tilning korpusini yaratishni o‘z oldiga maqsad qilib qo‘yar ekan, uning oldida bir qancha vazifalar turadi: eng avvalo, tilning grammatik, leksik imkoniyatlarini chuqur o‘rganish; jahon tilshunosligida yaratilgan tillar korpuslari, jumladan rus tili milliy korpusi, turkiy tillar: qozoq, tatar, turk tillarida yaratilgan korpuslar tajribalari bilantanishish; korpus uchun zarur bo‘lgan matnlarni tayyorlash, teglashning mavjud standartlari va texnologiyalarini modellashtirish yo‘llarini asoslash; korpus uchun zarur bo‘lgan elektron manbalarni kompyuter formatida internet tarmog‘iga joylash; korpus yartilayotgan sohaning ma’lumotlar bazasini shakllantirish va tizim arxitekturasining so‘z shakli yoki lemma bo‘yicha gibrid izlash kabi turini aniqlash va boshqalar. Xulosa o‘rnida shuni aytishimiz mumkinki, tilshunos korpus yaratish vazifasini qo‘yar ekan u nafaqat soha bilimdoni, balki, axborot texnologiylari, dasturlash ilmidan hm xabardor bo‘lmog‘i, turli algoritmik amallarni bajara bilmog‘i lozim. Download 31.84 Kb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling