Muhammad al-xorazmiy nomidagi tatu urganch filiali


Ikkinchi avlod korpuslari, mega korpuslar


Download 254.32 Kb.
bet5/16
Sana17.06.2023
Hajmi254.32 Kb.
#1542059
1   2   3   4   5   6   7   8   9   ...   16
Bog'liq
Dissertation Rustambek

Ikkinchi avlod korpuslari, mega korpuslar. 1980-yillarning boshlarida matnlarni belgilash(teglash) tili yoki SGLM meta tili (Standard Generalized Markup Language) ishlab chiqilgan bo‘lib, bu matnlarni belgilashni standartlashtiruvchi teglar to‘plamidir. Ushbu format 2007 yilgacha yozuvlar formati bo‘lib qolaverdi, keyinchalik XML formati yaratildi.
T. Makineri va A. Xardi 1990-yillar ikkinchi avlod kelishuv dasturining davri bo‘lgan deb ta’kidlaydilar. Ikkinchi avlod korpuslari IBM platformasida ishladilar, shuning uchun ularni IBM operatsion tizimini qo‘llab-quvvatlovchi shaxsiy kompyuterlarda ishlatish mumkin edi. Ular quyidagi funktsiyalarni bajardilar: so‘zlarning o‘ng va chap qismidagi kontekstli korpus bilan, korpusdagi so‘zlar ro‘yxatini tuzish, so‘zlarni hisoblash kabi elementar tavsiflovchi statistika, so‘zlar sonining so‘zlarga nisbati. Funktsiyalar kombinatsiyasi ikkinchi avlod korpuslarining kuchi va ishlashiga salbiy ta’sir ko‘rsatdi.
Ikkinchi avlod korpuslari hajmi kamida yuz million so‘z bo‘lgan korpuslar bo‘lib, ularning maqsadi yozma va og‘zaki nutqning barcha turlarini namoyish etishdir. Tuzuvchilar aholining turli qatlamlari uchun og‘zaki va yozma nutqning iloji boricha ko‘proq janrlari va uslublarini taqdim etishga intildilar. Odatda, bu korpuslar onlayn rejimida mavjud bo‘lib, TEI talablariga muvofiq to‘planadi va belgilanadi.
1990-yillarda British National Corpus yangi korpus modeli sifatida ishlatilgan va TEI korpus standartiga aylangan bo‘lib, u SGML markup tilini tavsiya qilgan. 1987 yildan 2004 yilgacha bo‘lgan davrda korpuslarni yig‘ish, metateglarni tuzish, shuningdek matnlarni avtomatlashtirilgan teglash dasturlari ishlab chiqilgan.
Uchinchi avlod korpuslari yoki gigabaytlar. 2010 yil boshlari katta texnik imkoniyatlarning paydo bo‘lishi bilan ajralib turadi, chunki BNCweb (2009), CQPweb (2012), SketchEngine (2013), Wmatrix (2013) kabi to‘rtinchi avlod korpuslari ishlab chiqilgan. To‘rtinchi avlod korpuslari uchinchi avlod korpuslariga o‘xshashdir. To‘rtinchi avlod korpuslari shaxsiy kompyuterlarning cheklangan quvvati, shaxsiy kompyuter operatsion tizimlarining mos kelmasligi va matnlarni tarqatishda qonuniy cheklovlar kabi muammolarni hal qilish uchun ishlab chiqilgan.
Huquqiy muammolarni hal qilish va kirish huquqini olish tartibini soddalashtirish uchun korpuslar onlayn versiyalarga o‘tdilar, bu esa so‘rovlarni ko‘rib chiqish tezligini oshirdi va foydalanuvchilar sonini kengaytirdi. To‘g‘ridan-to‘g‘ri kirish onlayn qidiruv bilan jihozlangan web-brauzer orqali murojaat qilish mavjud bo‘ldi.



Download 254.32 Kb.

Do'stlaringiz bilan baham:
1   2   3   4   5   6   7   8   9   ...   16




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling