Agfl rasmiy grammatika yordamida Rus tilidagi matnlarning morfologik belgilanishi


Download 21.62 Kb.
Sana04.06.2020
Hajmi21.62 Kb.
#114464
Bog'liq
AGFL rasmiy grammatika yordamida Rus tilidagi matnlarning morfologik belgilanishi


AGFL rasmiy grammatika yordamida Rus tilidagi matnlarning morfologik belgilanishi

Azarova I.V.

Sankt-Peterburg davlat universitetining matematik tilshunoslik bo'limi )

AGFL grammatikasini tahlil qiladigan avlod yaratish tizimi

AGFL tizimi (Chegaralangan panjara uchun Affiks grammatikasi) - bepul

tabiiy so'zlarni avtomatik qayta ishlash muammolarini hal qilish uchun dasturiy ta'minot

AGFL rasmiyatchiligidan foydalanadigan til. Tizim Qo'mitada ishlab chiqilgan.

K. Kostening rahbarligi ostida Nijmegen universitetida (Niderlandiya) kompyuter tadqiqotlari

pa AGFL 1 rasmiyatchiligi ikki bosqichli rasmiy grammatika: kontekstual

tana tuzuvchi grammatika cheklangan atributlar (affikslar) bilan to'ldiriladi

muvofiqlashtirish, muvofiqlashtirish va qurilishini belgilashga imkon beradigan qadriyatlar soni

boshqarish. AGFL tizimi kasallik tahlilini o'tkazish uchun samarali tahlilchilarni yaratishga imkon beradi.

chiqish formati esa tabiiy tillarning biologik va sintaktik tuzilmalari

shakldagi qoidalar bo'yicha translyatsiyalardan foydalanib, sintaktik tahlil tartibini ko'rsatish mumkin

lizma. AGFL tizimi sintaktik tahlilga qo'shimcha ravishda leksik ma'lumotlar bazalarini ulashga imkon beradi

yuqori hajmli ma'lumotlar. Oxir-oqibat, AGFL tizimi sintaktik tahlil yaratishga imkon beradi

osongina yaratiladigan va o'zgartiriladigan lingvistik tavsiflarga asoslangan.

AGFL 2.0 tizimining eng so'nggi versiyasi uchun sayt ingliz tiliga tahlillarni o'z ichiga oladi

Lilian va golland tillari ma'lumot olish uchun ma'lumot berishga e'tibor qaratdi

hujjatlarni qidirish va avtomatik tasniflash2. Yakuniy bosqichda

ispan, arab va rus tillari uchun tahlillar. Qisman AGFL tavsiflari edi

Yunon va venger uchun to'liq.

Matnlarning morfologik belgilanishi uchun AGFL tavsifi

rus tilida

Dastlab, rus tili morfologiyasining AGFL tavsifi doirasida amalga oshirildi

1997 yilda 1.5-versiya, ammo AGFL tizimining funktsiyalarida sezilarli cheklovlar mavjud

ushbu tavsifdan rasmiy grammatikani o'qitish modeli sifatida foydalanishga imkon berdi.

Sankt-Peterburg davlat universitetining matematik tilshunoslik kafedrasida olib borilgan tadqiqotlar.

Faqatgina so'nggi versiyada AGFL-opning amaliy qo'llanmalari keltirilgan

tabiiy tillarni qayta ishlash: xususan, parsers yaratish, yo'naltirish

rus tilidagi matnning morfologik belgilanishi va ma'lumotlarni taqdim etish bo'yicha o'qitildi

ma'lumot olish uchun ny 3. Ruscha matnning parsor morfologik belgilanishi

bolalar ushbu hisobotda mazmunli tavsiflangan.

AGFL tizimidagi grammatik tavsif hozirgi vaqtda modulli

Rus tili grammatikasi nominal va predikativ tuzish uchun modullarni o'z ichiga oladi

so'zlashuvlar, nutqning muhim qismlarining (ismlar va.) harakatlanishini tavsiflash uchun modullar

maqsadlar), nutqning muhim qismlari uchun egilishni kiritish vazifasi modullari. Bo'ldilar

oddiy jumlalarning tuzilishini tasvirlash uchun eksperimentlar o'tkazildi;

haqiqiy a'zoligini hisobga olgan holda murakkab jumlalarning to'liq sintaktik tuzilishi

Niya hozirda tadqiqot bosqichida.

1 AGFL tizimining tavsifi, tahlil qilish misollari, bibliografiya veb-saytda mavjud: http://www.cs.kun.nl/agfl/.

Shuningdek qarang: AGFL bo'yicha birinchi seminar materiallari // Eds. CHA Koster, E. Oltmans. Nijmegen 1996 yil.

2 Koster CHA, Verxevan T. Axborotni olish uchun bosh / modifikator ramkalari // COLING 2002. 2002.

3 Azarova I.V. Hujjatlarni avtomatik tasniflash uchun matnning AGFL belgilaridan foydalanish // M-

o'qituvchilar va aspirantlarning XXXI Butunrossiya ilmiy-uslubiy konferentsiyasi seriyasi. Vol. 4. Xavfsiz

amaliy va matematik tilshunoslik. 2-qism. 3–8.



2-sahifa

Rus tiliga tegishli bo'lgan AGFL-tavsiflari

AGFL rasmiyatchiligidagi affikslar grammatikani indikativ tavsiflashga imkon beradi

ob'ektlar. Bunday xususiyatlar sifatida grammatik kategoriyalar muntazam ishlatiladi.

masalan, gorias, sonning noinminik affiksi ( NUMBER ) va uning terminal qiymatlari -

yakka va ko'plik (1); jinsga xos bo'lmagan affiksi ( GENDER ) va uning atamalari

Umumiy ko'rsatkichlar erkak, ayol va o'rtacha (2).

(1)

NUMBER: qo'shiq | ko'plik



(2)

GENDER :: masc | fem | neytral

Terminal bo'lmagan affikslarni boshqa terminal bo'lmagan affikslar orqali aniqlash mumkin.

masalan, ishning affiks toifasi ( CASE ) terminal orqali aniqlanadi

bilvosita ishlarning nominativ holatini va noinminal affiksini ( OCASE ) o'rnating (3)

bu o'z navbatida terminali affiksi to'plami orqali aniqlanadi, ya'ni.

genitativ, dativ, ayblovchi, instrumental, predpozitsion (4).

(3)


CASE :: nom | OCASE.

(4)


OCASE :: gen | dat | acc | abl | loc.

Agar ish shakllarining semantik variantlarini farqlash kerak bo'lsa, masalan,

haqiqiy qisman va tug'ma yoki prepozitsion va mahalliy holatlar, bu

"ichki" affikslar tizimi orqali amalga oshiriladi (5-7):

(5)

OCASE :: GEN | dat | acc | abl | LOC.



(6)

GEN :: gen | gen_pt.

(7)

LOC :: tayyorlov | loc.



Affiksiyalar nutqning bir qismidagi so'zlarni leksik-grammatikaga ajratishda ham qo'llanilishi mumkin.

matematik tushirishlar, masalan, o'tish va intransiv fe'llar (8).

(8)

TRANS :: tr | ichki



Shunday qilib, masalan, grammatika nazariyasida ba'zi munozarali masalalar mavjud

toifasi bo'yicha animatsiya qilinganmi yoki leksik-grammatikaning xarakterli ma'nosi

maxsus terminallashtirilmagan yordamida olib tashlangan otlarning otilishi

affiksi ( ANIM ), bu ikki ma'noga ega: jonli va jonsiz (9).

(9)

ANIM :: anim | jonsiz.



Affiksi sifatida siz turli xil rasmiy ko'rsatkichlardan foydalanishingiz mumkin, masalan

o'lchovlar, otlarning qisqarish turi (DECLTYPE) yoki fe'llarning bo'g'in turi (CONJTYPE),

ular kichik tiplar orqali aniqlanadi, masalan, qattiq ( ORD ) va yumshoq ( PAL ) kichik tiplar

deklansiyalar; nostandart ( irreg ) va nol ( nol ) mayl turlari; I ( ETYPE ) va II ( ITYPE )

fe'llarning biriktirilishi; og'riqqa birlashgan ( irreg ) fe'llar (10-11).

(10)


DECLTYPE :: ORD | PAL | irreg | nolga teng.

(11)


CONJTYPE :: ETYPE | ITYPE | beparvo

Rus tili uchun AGFL-tavsif qoidalarida affikslardan foydalanish

Rasmiy qoidalarda noinminal va terminal affikslari qo'llaniladi.

Tarkibi va tartibiga ega bo'lgan AGFL grammatikasi nodavlat belgilarning belgilari sifatida

affikslarni kiritish doki doimiy bo'lishi kerak. Qoida (12) quyidagini belgilaydi

biz otni (nounform) otning bazasiga bog'lab,

poy) tugatish (nouning). Ism affikslari to'plamiga quyidagilar kiradi

ish, son, jins va animatsiya affiksi, ildiz affikslarining toifalarini belgilash

ot, jins, animatsiya va tur affikslarining terminologik ma'nolarini belgilaydi

deklatsiya, tugatish affiksi - ishning ma'nosi, soni, jinsi, animatsiyasi, turi

nenia. Xuddi shu terminsiz affiksni qoida sifatida ishlatish mumkin

o'ng va chap qismdagi qiymatlarning o'ziga xosligi, ya'ni " gen" terminali uchun emas





3-sahifa

otning noterminal shakli uchun chap tomonda case affiksi

(nounform) otning qo'shilishida nonminminal uchun bir xil qiymat o'rnatiladi (ot)

tugaydi). Terminal so'zlar ro'yxatlari maxsus leksiya-fayl formatida o'rnatiladi.

kona (13), terminallar zanjirlari - grammatik modullarda (14).

(12)

nounform (Case, NUMBER, GENDER, ANIM):



noun tizimi (GENDER, ANIM, DECLTYPE),

nouning (Case, NUMBER, GENDER, ANIM, DECLTYPE).

(13)

eshik


ot tizimi (fem, inanim, irreg)

(14)


nouning (gen | dat | loc, ashula, fem, ANIM, irreg): va.

(14) qoidada, tirnoqdagi terminallar ketma-ketligi maxsus bo'ladi

belgi - tahlil qilingan generatorni ko'rsatadigan defis

bo'shliq kabi ajratuvchisiz asosiy belgi satri o'ng tomonda. Xuddi shu qoidada

ixchamlashtirishga imkon beradigan termin affikslarining birlashmasi ( | ) belgisi ishlatiladi

bir xil turdagi bir nechta inshootlarni yozib oling.

Noinminal affikslar ro'yxati ularning ma'nolarining bevosita mahsulotini belgilaydi, ya'ni.

ot shakli uchun oltita holatli tizim uchun 72 ta kombinatsiya qabul qilinadi.

Terminik affikslarning ba'zi birikmalarida grammatik talqin bo'lmasligi mumkin.

yozildi, masalan, maydoni ta'rifi bitişte bo'lmagan nounform (Dat, plur, masc, voqeani) bir xil

Venn nounform (Dat, plur, fem, inanim) , ko'plik shakllari beri ot

Qoida tariqasida, umumiy tafovutlar mavjud emas, ular dativ ishning shakli uchun ham muhim emas

animatsiya affiksi qiymatlari. Terminal bo'lmagan nounform (dat, plur, GENDER, ANIM) ko'proq

affiks qiymatlarining haqiqiy kombinatorikasini aniq ko'rsatib beradi.

Terminik affikslarning kombinatorikasini hisobga olish rasmiy grammatikada zarur

com tavsifi AGFL. Masalan, rus fe'lining kategoriya tizimida kategoriyalarning ma'nolari mavjud

Mayl va vaqt tabiiy ravishda bitta affiksda ( MOOD ) birlashadi :

(15)


MOOD :: TENSE | imper | subjunc.

(16)


TENSE :: o'tgan | PRESFUT.

(17)


PRESFUT :: pres | fut | prefut

Shaxslarning toifalarini qo'shimcha taqsimlash (hozirgi va kelajakdagi davrlar) va

tabiiy (o'tmishdagi davrda) ham bittasi yordamida tabiiy ravishda tasvirlangan

affiksi:


(18)

GENPER :: GENDER | SHAXSIY.

(19)

PERSON :: birinchi | ikkinchi | uchinchi.



AGFLdagi belgilashning morfologik formati

AGFL qoidalarida siz transduktsiyani, ya'ni yo'qligini ko'rsatadigan belgini kiritishingiz mumkin

Morfologik tahlilning chiqish faylida ma'lumotni taqdim etish uchun qaysi shakl. Trans

ishlab chiqarish qismi qoidaning o'zida "/" belgisi va undan keyin ro'yxat bilan ajratilgan

qoidaning o'ng qismidagi terminalsimon va terminal bo'lmagan affikslar, ularning ma'nosi bo'ladi

chiqish faylida chat.

Qoida (20) ot terminal (bildiradi terminal ot ) bo'lishi mumkin

chiqish ketma-ketligida joylashadigan otning shakli.

(20)

terminali ot (CASE, NUMBER, GENDER, ANIM):



nounform (Case, NUMBER, GENDER, ANIM) / nounform.

Agar biz chiqish faylining xml formatini rejalashtirsak, unda biz tarjima belgilarini qo'shishimiz mumkin

avtoulovlarni tashish, yorliqlarni ajratish va xml belgilari:

(21)


terminali ot (CASE, NUMBER, GENDER, ANIM):

ism (Case, NUMBER, GENDER, ANIM) /

"\ n \ t \ t \ t ", nounform, "".



4-sahifa

Agar biz so'z matnining o'rniga asl nusxasini o'rnatishni xohlasak

forma (24), keyin bu parametrni o'ng tomonda affiks (LEMMA) sifatida taqdim etishimiz kerak

wil (12 o'rniga 22) va ushbu parametrni leksikonda (13 o'rniga 23) o'rnating:

(22)


nounform (Case, NUMBER, GENDER, ANIM, LEMMA):

noun tizimi (GENDER, ANIM, DECLTYPE, LEMMA),

nouning (Case, NUMBER, GENDER, ANIM, DECLTYPE).

(23)


eshik

ot tizimi (fem, inanim, irreg, eshik)

(24)

terminali ot (CASE, NUMBER, GENDER, ANIM):



ism (CASE, NUMBER, GENDER, ANIM, LEMMA) /

"\ n \ t \ t \ t ", LEMMA, "".

Xuddi shunday, siz nutq va ma'noning qismini belgilashingiz mumkin

grammatik toifalar, ya'ni batafsil morfologik ma'lumotlar:

(25)

terminali ot (CASE, NUMBER, GENDER, ANIM):



ism (CASE, NUMBER, GENDER, ANIM, LEMMA) /

"\ n \ t ", ism,

"\ n \ t \ t "

"".

Rus tili morfologik qoidalarining xususiyatlari AGFL-tavsiflari

Morfologik modullar fleksiyon tayinlash modullari va qoida modullari

shakllar yaratish. Morfologik modullar uchun asosiy muammo bu

paradigmalarda o'zgaruvchan poydevorlar va o'zgaruvchan yoki atipik infektsiyalardan foydalanish.

Rus morfologiyasida xususiy parafiya asoslarining o'zgarishi muntazam kuzatiladi.

digmas, masalan, yakka va ko'plik otlarning paradigmalarida.

Bunday holda, asoslar uchun bir nechta terminallar joriy etiladi (bitta uchun nounstem_sg)

sonlar, ko'plik uchun nounstem_pl), shakllarni tuzish qoidalari murakkab (26–

27), leksikonga asoslarning tavsifi (28) qo'shiladi, unda moyillik turi odatda o'zgaradi,

ehtimol boshqa belgilar.

(26)


nounform (CASE, sg, GENDER, ANIM):

nounstem_sg (GENDER, ANIM, DECLTYPE),

nouning (CASE, sg, GENDER, ANIM, DECLTYPE).

(27)


nounform (CASE, pl, GENDER, ANIM):

nounstem_pl (GENDER, ANIM, DECLTYPE),

nouning (CASE, pl, GENDER, ANIM, DECLTYPE).

(28)


"quloq" nounstem_sg (neytral, inim, ordk, "quloq")

"quloq" nounstem_pl (plmasc, inanim, ordsh, "ear")

Tugallanmagan so'zlar uchun aniq paradigmalarning o'zgaruvchan asoslari

paradigma, masalan, singularia tantum ( g'azab, barglar ) va pluralia tantum ( xamirturush, qorin



ki ) shakllarning shakllanishida cheklovlarning yo'qligi ortiqcha deb ataladigan narsalarga olib keladi

aniq haddan tashqari o'sish, bu jiddiy tahlil qilish xatosi emas, chunki

Bunday shakllar kirish matnlarida shunchaki bo'lmaydi.

Atipik qo'shimchalarni, masalan, otni tasvirlash qiyinroq

nominativ ko'plikda "quloq" (28) jinsi "-i",

erkak va ayollarga xos bo'lgan otlarga xos xususiyat. Bunday holda, ishlatilgan

plasmc ko'plik otlar uchun maxsus umumiy ma'no

Roy ham otlarning ko'plik shakllarini jinsini tavsiflash uchun ishlatiladi

tantum, A. A. Zaliznyak 1- da qayta tiklangan umumiy ko'rsatkichga o'xshash narsa.

1 A. Zaliznyak, rus tilining grammatik lug'ati: kirish. M., 1977 yil.





5-sahifa

AGFLdagi rus iboralarini sirt sintaktik tahlili

So'zning sintaksis darajasida yuzaki sintaktik tavsif elementlari

morfologik shakllarni ajratish uchun tahlillar tahlil qilindi. Yoqilgan

masalan, "eshik" turidagi 3-chi deklatsiya tarkibidagi otlar 5 shaklni ajratmaydi: birliklar. h Rodi-

dative, dative, prepositional case va boshqalar nominativ va ayblov ishi. Agar

bu shakl sifatlovchi bilan birga keladi ( og'ir eshik, og'ir eshik )

yoki oldingi dizaynda ( og'ir eshikka, og'ir eshiklarga ) (29-30), keyin

morfologik belgining ahamiyati sezilarli darajada kamayadi.

(29)

ot birikmasi (Case, NUMBER, GENDER, ANIM):



termin sifati (CASE, NUMBER, GENDER, ANIM),

terminali ot (CASE, NUMBER, GENDER, ANIM).

(30)

prefraz (CASE): terminal oldingi holati (CASE),



ot birikmasi (Case, NUMBER, GENDER, ANIM).

Xulosa

Hisobotda morfologik tizimni qurishning asosiy printsiplari tavsiflangan

AGFL rasmiyatchiligidan foydalangan holda rus tilidagi matnlarni markalash. Hozir yakunlandi

lekin morfologik tahlilning o'zagi. Grammatik modullarga sharhlarni qo'shgandan so'ng

Ushbu tavsif AGFL veb-saytida http://www.cs.kun.nl/agfl/ bepul foydalanish uchun joylashtiriladi.

foydalanish. Bevosita vazifalar qatoriga morfologik belgilarni tahlil qilish kiradi

rus gazetasi matnlarida salbiy materialni aniqlash uchun (noaniq yoki

matnni noto'g'ri talqin qilish) va tizim tarkibiga kirganligi sababli so'z boyligini kengaytirish

yangi poydevorlar va standart so'z birikmalaridan foydalangan holda umumlashtirilgan tavsiflar

elementlar (qo'shimchalar, prefikslar).

AGFL rasmiyatchiligidagi rus tilining grammatik tavsifi bilan cheklanmaydi

har ikkala usulda ham. Taklif etilayotgan variant maqbul echimni izlash natijasidir

ularning katta qismi tadqiqotchining afzalliklari ta'siri ostida o'zgarishi mumkin.

Ta'rifning eng qimmatli tomoni shundaki, u "ochiq", "o'qish", qayta o'qish



tushundi va o'zgartirildi.
Download 21.62 Kb.

Do'stlaringiz bilan baham:




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling