I bob. 1 Korpus tushunchasi va korpus lingvistikasi tahlili
Gapirish qismi quyidagilardan iborat
Download 44.96 Kb.
|
Bob 1
- Bu sahifa navigatsiya:
- Korpusdan foydalanish
- Zamonaviy xitoy tili korpusi
Gapirish qismi quyidagilardan iborat:
Tabiiy spontan suhbatlarning 50% transkripsiyasi Buyuk Britaniya bo‘ylab 38 ta joyda yashovchi 124 nafar ko‘ngilli 2-3 kun davomida barcha suhbatlarini yozib oldi. Erkaklar va ayollarning soni teng edi, har bir yosh guruhidan taxminan teng sonlar va to'rtta ijtimoiy guruhning har biridan teng sonlar bor edi. To'rtta aniq turdagi yig'ilish yoki tadbirda qilingan yozuvlarning 50% transkripsiyasi: O'quv va ma'lumot beruvchi tadbirlar (ma'ruzalar, yangiliklar ko'rsatuvlari, o'quv qo'llanmalari). Biznes tadbirlari (savdo namoyishlari, kasaba uyushmalari yig'ilishlari, ish suhbatlari). Tashkilot va ommaviy tadbirlar (ma'ruzalar, siyosiy chiqishlar, kengash yig'ilishlari, parlament ishlari) Dam olish tadbirlari (sport sharhlari, kechki ovqatdan keyingi nutqlar, klub yig'ilishlari, radio telefonlari) Korpusdan foydalanish Leksikograflar sifatida biz katta, muvozanatli korpussiz qolishni yomon ko'ramiz. Bu so‘zlarning bugungi kunda qanday qo‘llanilishi haqida bebaho tasvirni beradi. Biz BMK-dan sezgilarimizni tasdiqlash, shuningdek, biz bilmagan yoki o'ylamagan narsalarni aytib berish uchun foydalanamiz. Biz so'z nimani anglatishini emas, balki nimani anglatishini aniq bilib olamiz. Biz uning grammatik jihatdan qanday harakat qilishini va qaysi so'zlar bilan qo'shilishini ko'rishimiz mumkin. Biz o'quvchilarimizning lug'atlarini yozishda bu ma'lumotlardan foydalanamiz. Zamonaviy xitoy tili korpusi Zamonaviy Xitoy tili korpusi (ZXTK) Xitoyning milliy korpusidir. Xitoy Milliy Til Qo'mitasi homiyligida. Korpusda 100 ta mavjud 1919-2002 yillarda ishlab chiqarilgan tizimli namunali matnlarning million xitoycha belgilari, 1977 yildan keyin yaratilgan matnlarning aksariyati bilan. 1919 yil odatda zamonaviy xitoy tilining boshlanishi hisoblanadi. Korpus uchta katta toifani qamrab oladi (gumanitar/ijtimoiy fanlar, tabiiy fanlar va turli matn toifalari, masalan, rasmiy hujjatlar, marosim nutqi va efemera) 40 dan ortiq kichik toifalarni o'z ichiga oladi. Matn toifalari besh milliondan ortiq belgilarni o'z ichiga olgan adabiyot, jamiyat, iqtisodiyot, gazetalarni o'z ichiga oladi turli va huquqiy matnlar, eng katta qismini adabiy matnlar tashkil etadi (taxminan 30 million belgi). Ko'pchilik korpusdagi namunalar bundan mustasno, uzunligi taxminan 2000 belgidan iborat 10 000 tagacha belgidan iborat kitoblardan olingan namunalar. 10Raqamlashtirilgan xatolar 0,02% dan kam bo'lishi uchun matnlar uch marta tekshirildi (Qarang: Vang 2001, 283). ZXMK korpusidagi barcha matn namunalari korpus sarlavhasida batafsil bibliografik ma'lumotlar (24 tagacha) bilan kodlangan. Korpusning asosiy komponenti, ya'ni 50 million xitoycha belgilardan tashkil topgan, tokenlashtirilgan (xatolik darajasi 0,5 ‰) va POS-belgilangan (0,5% xatolik darajasi bilan), uning kichik qismi (bir mln. belgilar, 50 000 jumlada) qurilgan. Hozirgi vaqtda korpusning 20 million belgidan iborat kichraytirilgan versiyasi mavjud kattaroq korpusdan mutanosib ravishda tanlab olingan, ommaga taqdim etilgan. Download 44.96 Kb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling