I bob. 1 Korpus tushunchasi va korpus lingvistikasi tahlili
Zamonaviy ingliz korpuslari va ularning diaxronikasi
Download 44.96 Kb.
|
Bob 1
1.2. Zamonaviy ingliz korpuslari va ularning diaxronikasi.
Amerika Milliy Korpusi (AMK) 1990 yildan beri ishlab chiqarilgan 22 million soʻz yozma va ogʻzaki maʼlumotlarni oʻz ichiga olgan amerikacha ingliz tilidagi matn korpusidir.7Hozirda AMK bir qator janrlarni oʻz ichiga oladi, jumladan elektron pochta, tvitlar va veb-maʼlumotlar. Britaniya Milliy Korpusi kabi oldingi korpuslarga kiritilmagan. U nutq va lemma, sayoz tahlil va nomli shaxslar uchun izohlanadi. AMKni Lingvistik ma'lumotlar konsorsiumidan olish mumkin. Ochiq Amerika Milliy Korpusi (OAMK) deb nomlangan korpusning o'n besh million so'zli to'plami AMK veb-saytidan foydalanishda hech qanday cheklovlarsiz bepul mavjud. Korpus va uning izohlari ISO/TC 37 SC4 lingvistik izohlar asosi spetsifikatsiyalariga muvofiq taqdim etilgan. Erkin taqdim etilgan transduktsiya vositasidan (ANC2Go) foydalanib, korpus va foydalanuvchi tanlagan izohlar bir nechta formatlarda taqdim etiladi, jumladan CoNLL IOB formati, XML Corpus Encoding Standard (XCES) ga mos keladigan XML formati (Britaniya Milliy Korpusining XAIRA bilan foydalanish mumkin). qidiruv tizimi), UIMA-mos format va turli xil muvofiqlik dasturlariga kiritish uchun mos formatlar. Matn muhandisligi uchun General Architecture (GATE) ga izohlarni import qilish uchun plaginlar ham mavjud. AMK ingliz tilining boshqa korpuslaridan farq qiladi, chunki u boy izohlarga ega, jumladan nutq annotatsiyalarining turli qismlari (Penn teglari, CLAWS5 va CLAWS7 teglari), sayoz tahliliy izohlar va bir necha turdagi nomlangan ob'ektlar uchun izohlar. Qo'shimcha izohlar mavjud bo'lganda korpusning barchasiga yoki uning qismlariga qo'shiladi, ko'pincha boshqa loyihalar hissasi bilan. Mualliflik huquqi cheklovlari tufayli faqat alohida jumlalarga kirishga ruxsat beruvchi onlayn qidiruv korpusidan farqli o'laroq, butun AMK, masalan, statistik til modellarini va to'liq matnli lingvistik izohlarni ishlab chiqishni o'z ichiga olgan tadqiqotlarni amalga oshirish uchun mavjud. AMK izohlari avtomatik ravishda ishlab chiqariladi va tasdiqlanmaydi. Manually Annotated Sub-Corpus (MASC) deb nomlangan 500 000 ta soʻzli toʻplamda taxminan 20 xil lingvistik izohlar uchun izoh berilgan, ularning barchasi qoʻlda tasdiqlangan yoki qoʻlda ishlab chiqarilgan. Bularga Penn Treebank sintaktik annotatsiyasi, WordNet ma'nosi annotatsiyasi, FrameNet semantik ramka annotatsiyasi va boshqalar kiradi. OAMK singari, MASC har qanday foydalanish uchun bepul mavjud va uni AMK saytidan yoki Lingvistik ma'lumotlar konsorsiumidan yuklab olish mumkin. Shuningdek, u Natural Language Toolkit bilan nutqning qisman yorlig'i shaklida tarqatiladi. AMK va uning kichik korporatsiyasi o'xshash korpuslardan birinchi navbatda taqdim etilgan lingvistik izohlar oralig'ida va Britaniya Milliy Korpusi kabi resurslarda uchramaydigan zamonaviy janrlarni kiritishda farq qiladi. Bundan tashqari, korpusdan dastlabki maqsadli foydalanish statistik til modellarini ishlab chiqish bo'lganligi sababli, to'liq ma'lumotlar va barcha izohlar mavjud bo'lib, bu faqat veb-brauzer orqali tanlab olinadigan Zamonaviy Amerika Ingliz tilidan (COCA) farq qiladi. OAMKning doimiy o'sishi hisoblash tilshunosligi va korpus lingvistikasi jamoalarining ma'lumotlari va izohlariga tayanadi. Download 44.96 Kb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling