Agfl rasmiy grammatika yordamida Rus tilidagi matnlarning morfologik belgilanishi
Download 21.62 Kb.
|
AGFL rasmiy grammatika yordamida Rus tilidagi matnlarning morfologik belgilanishi
- Bu sahifa navigatsiya:
- Matnlarning morfologik belgilanishi uchun AGFL tavsifi rus tilida
AGFL rasmiy grammatika yordamida Rus tilidagi matnlarning morfologik belgilanishi Azarova I.V. ( Sankt-Peterburg davlat universitetining matematik tilshunoslik bo'limi )
AGFL tizimi (Chegaralangan panjara uchun Affiks grammatikasi) - bepul tabiiy so'zlarni avtomatik qayta ishlash muammolarini hal qilish uchun dasturiy ta'minot AGFL rasmiyatchiligidan foydalanadigan til. Tizim Qo'mitada ishlab chiqilgan. K. Kostening rahbarligi ostida Nijmegen universitetida (Niderlandiya) kompyuter tadqiqotlari pa AGFL 1 rasmiyatchiligi ikki bosqichli rasmiy grammatika: kontekstual tana tuzuvchi grammatika cheklangan atributlar (affikslar) bilan to'ldiriladi muvofiqlashtirish, muvofiqlashtirish va qurilishini belgilashga imkon beradigan qadriyatlar soni boshqarish. AGFL tizimi kasallik tahlilini o'tkazish uchun samarali tahlilchilarni yaratishga imkon beradi. chiqish formati esa tabiiy tillarning biologik va sintaktik tuzilmalari shakldagi qoidalar bo'yicha translyatsiyalardan foydalanib, sintaktik tahlil tartibini ko'rsatish mumkin lizma. AGFL tizimi sintaktik tahlilga qo'shimcha ravishda leksik ma'lumotlar bazalarini ulashga imkon beradi yuqori hajmli ma'lumotlar. Oxir-oqibat, AGFL tizimi sintaktik tahlil yaratishga imkon beradi osongina yaratiladigan va o'zgartiriladigan lingvistik tavsiflarga asoslangan. AGFL 2.0 tizimining eng so'nggi versiyasi uchun sayt ingliz tiliga tahlillarni o'z ichiga oladi Lilian va golland tillari ma'lumot olish uchun ma'lumot berishga e'tibor qaratdi hujjatlarni qidirish va avtomatik tasniflash2. Yakuniy bosqichda ispan, arab va rus tillari uchun tahlillar. Qisman AGFL tavsiflari edi Yunon va venger uchun to'liq.
Dastlab, rus tili morfologiyasining AGFL tavsifi doirasida amalga oshirildi 1997 yilda 1.5-versiya, ammo AGFL tizimining funktsiyalarida sezilarli cheklovlar mavjud ushbu tavsifdan rasmiy grammatikani o'qitish modeli sifatida foydalanishga imkon berdi. Sankt-Peterburg davlat universitetining matematik tilshunoslik kafedrasida olib borilgan tadqiqotlar. Faqatgina so'nggi versiyada AGFL-opning amaliy qo'llanmalari keltirilgan tabiiy tillarni qayta ishlash: xususan, parsers yaratish, yo'naltirish rus tilidagi matnning morfologik belgilanishi va ma'lumotlarni taqdim etish bo'yicha o'qitildi ma'lumot olish uchun ny 3. Ruscha matnning parsor morfologik belgilanishi bolalar ushbu hisobotda mazmunli tavsiflangan. AGFL tizimidagi grammatik tavsif hozirgi vaqtda modulli Rus tili grammatikasi nominal va predikativ tuzish uchun modullarni o'z ichiga oladi so'zlashuvlar, nutqning muhim qismlarining (ismlar va.) harakatlanishini tavsiflash uchun modullar maqsadlar), nutqning muhim qismlari uchun egilishni kiritish vazifasi modullari. Bo'ldilar oddiy jumlalarning tuzilishini tasvirlash uchun eksperimentlar o'tkazildi; haqiqiy a'zoligini hisobga olgan holda murakkab jumlalarning to'liq sintaktik tuzilishi Niya hozirda tadqiqot bosqichida. 1 AGFL tizimining tavsifi, tahlil qilish misollari, bibliografiya veb-saytda mavjud: http://www.cs.kun.nl/agfl/. Shuningdek qarang: AGFL bo'yicha birinchi seminar materiallari // Eds. CHA Koster, E. Oltmans. Nijmegen 1996 yil. 2 Koster CHA, Verxevan T. Axborotni olish uchun bosh / modifikator ramkalari // COLING 2002. 2002. 3 Azarova I.V. Hujjatlarni avtomatik tasniflash uchun matnning AGFL belgilaridan foydalanish // M- o'qituvchilar va aspirantlarning XXXI Butunrossiya ilmiy-uslubiy konferentsiyasi seriyasi. Vol. 4. Xavfsiz amaliy va matematik tilshunoslik. 2-qism. 3–8.
Rus tiliga tegishli bo'lgan AGFL-tavsiflari AGFL rasmiyatchiligidagi affikslar grammatikani indikativ tavsiflashga imkon beradi ob'ektlar. Bunday xususiyatlar sifatida grammatik kategoriyalar muntazam ishlatiladi. masalan, gorias, sonning noinminik affiksi ( NUMBER ) va uning terminal qiymatlari - yakka va ko'plik (1); jinsga xos bo'lmagan affiksi ( GENDER ) va uning atamalari Umumiy ko'rsatkichlar erkak, ayol va o'rtacha (2). (1) NUMBER: qo'shiq | ko'plik (2) GENDER :: masc | fem | neytral Terminal bo'lmagan affikslarni boshqa terminal bo'lmagan affikslar orqali aniqlash mumkin. masalan, ishning affiks toifasi ( CASE ) terminal orqali aniqlanadi bilvosita ishlarning nominativ holatini va noinminal affiksini ( OCASE ) o'rnating (3) bu o'z navbatida terminali affiksi to'plami orqali aniqlanadi, ya'ni. genitativ, dativ, ayblovchi, instrumental, predpozitsion (4). (3)
CASE :: nom | OCASE. (4)
OCASE :: gen | dat | acc | abl | loc. Agar ish shakllarining semantik variantlarini farqlash kerak bo'lsa, masalan, haqiqiy qisman va tug'ma yoki prepozitsion va mahalliy holatlar, bu "ichki" affikslar tizimi orqali amalga oshiriladi (5-7): (5) OCASE :: GEN | dat | acc | abl | LOC. (6) GEN :: gen | gen_pt. (7) LOC :: tayyorlov | loc. Affiksiyalar nutqning bir qismidagi so'zlarni leksik-grammatikaga ajratishda ham qo'llanilishi mumkin. matematik tushirishlar, masalan, o'tish va intransiv fe'llar (8). (8) TRANS :: tr | ichki Shunday qilib, masalan, grammatika nazariyasida ba'zi munozarali masalalar mavjud toifasi bo'yicha animatsiya qilinganmi yoki leksik-grammatikaning xarakterli ma'nosi maxsus terminallashtirilmagan yordamida olib tashlangan otlarning otilishi affiksi ( ANIM ), bu ikki ma'noga ega: jonli va jonsiz (9). (9) ANIM :: anim | jonsiz. Affiksi sifatida siz turli xil rasmiy ko'rsatkichlardan foydalanishingiz mumkin, masalan o'lchovlar, otlarning qisqarish turi (DECLTYPE) yoki fe'llarning bo'g'in turi (CONJTYPE), ular kichik tiplar orqali aniqlanadi, masalan, qattiq ( ORD ) va yumshoq ( PAL ) kichik tiplar deklansiyalar; nostandart ( irreg ) va nol ( nol ) mayl turlari; I ( ETYPE ) va II ( ITYPE ) fe'llarning biriktirilishi; og'riqqa birlashgan ( irreg ) fe'llar (10-11). (10)
DECLTYPE :: ORD | PAL | irreg | nolga teng. (11)
CONJTYPE :: ETYPE | ITYPE | beparvo Rus tili uchun AGFL-tavsif qoidalarida affikslardan foydalanish Rasmiy qoidalarda noinminal va terminal affikslari qo'llaniladi. Tarkibi va tartibiga ega bo'lgan AGFL grammatikasi nodavlat belgilarning belgilari sifatida affikslarni kiritish doki doimiy bo'lishi kerak. Qoida (12) quyidagini belgilaydi biz otni (nounform) otning bazasiga bog'lab, poy) tugatish (nouning). Ism affikslari to'plamiga quyidagilar kiradi ish, son, jins va animatsiya affiksi, ildiz affikslarining toifalarini belgilash ot, jins, animatsiya va tur affikslarining terminologik ma'nolarini belgilaydi deklatsiya, tugatish affiksi - ishning ma'nosi, soni, jinsi, animatsiyasi, turi nenia. Xuddi shu terminsiz affiksni qoida sifatida ishlatish mumkin o'ng va chap qismdagi qiymatlarning o'ziga xosligi, ya'ni " gen" terminali uchun emas
otning noterminal shakli uchun chap tomonda case affiksi (nounform) otning qo'shilishida nonminminal uchun bir xil qiymat o'rnatiladi (ot) tugaydi). Terminal so'zlar ro'yxatlari maxsus leksiya-fayl formatida o'rnatiladi. kona (13), terminallar zanjirlari - grammatik modullarda (14). (12) nounform (Case, NUMBER, GENDER, ANIM): noun tizimi (GENDER, ANIM, DECLTYPE), nouning (Case, NUMBER, GENDER, ANIM, DECLTYPE). (13) eshik
ot tizimi (fem, inanim, irreg) (14)
nouning (gen | dat | loc, ashula, fem, ANIM, irreg): va. (14) qoidada, tirnoqdagi terminallar ketma-ketligi maxsus bo'ladi belgi - tahlil qilingan generatorni ko'rsatadigan defis bo'shliq kabi ajratuvchisiz asosiy belgi satri o'ng tomonda. Xuddi shu qoidada ixchamlashtirishga imkon beradigan termin affikslarining birlashmasi ( | ) belgisi ishlatiladi bir xil turdagi bir nechta inshootlarni yozib oling. Noinminal affikslar ro'yxati ularning ma'nolarining bevosita mahsulotini belgilaydi, ya'ni. ot shakli uchun oltita holatli tizim uchun 72 ta kombinatsiya qabul qilinadi. Terminik affikslarning ba'zi birikmalarida grammatik talqin bo'lmasligi mumkin. yozildi, masalan, maydoni ta'rifi bitişte bo'lmagan nounform (Dat, plur, masc, voqeani) bir xil Venn nounform (Dat, plur, fem, inanim) , ko'plik shakllari beri ot Qoida tariqasida, umumiy tafovutlar mavjud emas, ular dativ ishning shakli uchun ham muhim emas animatsiya affiksi qiymatlari. Terminal bo'lmagan nounform (dat, plur, GENDER, ANIM) ko'proq affiks qiymatlarining haqiqiy kombinatorikasini aniq ko'rsatib beradi. Terminik affikslarning kombinatorikasini hisobga olish rasmiy grammatikada zarur com tavsifi AGFL. Masalan, rus fe'lining kategoriya tizimida kategoriyalarning ma'nolari mavjud Mayl va vaqt tabiiy ravishda bitta affiksda ( MOOD ) birlashadi : (15)
MOOD :: TENSE | imper | subjunc. (16)
TENSE :: o'tgan | PRESFUT. (17)
PRESFUT :: pres | fut | prefut Shaxslarning toifalarini qo'shimcha taqsimlash (hozirgi va kelajakdagi davrlar) va tabiiy (o'tmishdagi davrda) ham bittasi yordamida tabiiy ravishda tasvirlangan affiksi:
(18) GENPER :: GENDER | SHAXSIY. (19) PERSON :: birinchi | ikkinchi | uchinchi. AGFLdagi belgilashning morfologik formati AGFL qoidalarida siz transduktsiyani, ya'ni yo'qligini ko'rsatadigan belgini kiritishingiz mumkin Morfologik tahlilning chiqish faylida ma'lumotni taqdim etish uchun qaysi shakl. Trans ishlab chiqarish qismi qoidaning o'zida "/" belgisi va undan keyin ro'yxat bilan ajratilgan qoidaning o'ng qismidagi terminalsimon va terminal bo'lmagan affikslar, ularning ma'nosi bo'ladi chiqish faylida chat. Qoida (20) ot terminal (bildiradi terminal ot ) bo'lishi mumkin chiqish ketma-ketligida joylashadigan otning shakli. (20) terminali ot (CASE, NUMBER, GENDER, ANIM): nounform (Case, NUMBER, GENDER, ANIM) / nounform. Agar biz chiqish faylining xml formatini rejalashtirsak, unda biz tarjima belgilarini qo'shishimiz mumkin avtoulovlarni tashish, yorliqlarni ajratish va xml belgilari: (21)
terminali ot (CASE, NUMBER, GENDER, ANIM): ism (Case, NUMBER, GENDER, ANIM) / "\ n \ t \ t \ t
Agar biz so'z matnining o'rniga asl nusxasini o'rnatishni xohlasak forma (24), keyin bu parametrni o'ng tomonda affiks (LEMMA) sifatida taqdim etishimiz kerak wil (12 o'rniga 22) va ushbu parametrni leksikonda (13 o'rniga 23) o'rnating: (22)
nounform (Case, NUMBER, GENDER, ANIM, LEMMA): noun tizimi (GENDER, ANIM, DECLTYPE, LEMMA), nouning (Case, NUMBER, GENDER, ANIM, DECLTYPE). (23)
eshik ot tizimi (fem, inanim, irreg, eshik) (24) terminali ot (CASE, NUMBER, GENDER, ANIM): ism (CASE, NUMBER, GENDER, ANIM, LEMMA) / "\ n \ t \ t \ t Xuddi shunday, siz nutq va ma'noning qismini belgilashingiz mumkin grammatik toifalar, ya'ni batafsil morfologik ma'lumotlar: (25) terminali ot (CASE, NUMBER, GENDER, ANIM): ism (CASE, NUMBER, GENDER, ANIM, LEMMA) / "\ n \ t "\ n \ t \ t "NUMBER =", NUMBER, "GENDER =", GENDER, " " Rus tili morfologik qoidalarining xususiyatlari AGFL-tavsiflari Morfologik modullar fleksiyon tayinlash modullari va qoida modullari shakllar yaratish. Morfologik modullar uchun asosiy muammo bu paradigmalarda o'zgaruvchan poydevorlar va o'zgaruvchan yoki atipik infektsiyalardan foydalanish. Rus morfologiyasida xususiy parafiya asoslarining o'zgarishi muntazam kuzatiladi. digmas, masalan, yakka va ko'plik otlarning paradigmalarida. Bunday holda, asoslar uchun bir nechta terminallar joriy etiladi (bitta uchun nounstem_sg) sonlar, ko'plik uchun nounstem_pl), shakllarni tuzish qoidalari murakkab (26– 27), leksikonga asoslarning tavsifi (28) qo'shiladi, unda moyillik turi odatda o'zgaradi, ehtimol boshqa belgilar. (26)
nounform (CASE, sg, GENDER, ANIM): nounstem_sg (GENDER, ANIM, DECLTYPE), nouning (CASE, sg, GENDER, ANIM, DECLTYPE). (27)
nounform (CASE, pl, GENDER, ANIM): nounstem_pl (GENDER, ANIM, DECLTYPE), nouning (CASE, pl, GENDER, ANIM, DECLTYPE). (28)
"quloq" nounstem_sg (neytral, inim, ordk, "quloq") "quloq" nounstem_pl (plmasc, inanim, ordsh, "ear") Tugallanmagan so'zlar uchun aniq paradigmalarning o'zgaruvchan asoslari paradigma, masalan, singularia tantum ( g'azab, barglar ) va pluralia tantum ( xamirturush, qorin ki ) shakllarning shakllanishida cheklovlarning yo'qligi ortiqcha deb ataladigan narsalarga olib keladi aniq haddan tashqari o'sish, bu jiddiy tahlil qilish xatosi emas, chunki Bunday shakllar kirish matnlarida shunchaki bo'lmaydi. Atipik qo'shimchalarni, masalan, otni tasvirlash qiyinroq nominativ ko'plikda "quloq" (28) jinsi "-i", erkak va ayollarga xos bo'lgan otlarga xos xususiyat. Bunday holda, ishlatilgan plasmc ko'plik otlar uchun maxsus umumiy ma'no Roy ham otlarning ko'plik shakllarini jinsini tavsiflash uchun ishlatiladi tantum, A. A. Zaliznyak 1- da qayta tiklangan umumiy ko'rsatkichga o'xshash narsa. 1 A. Zaliznyak, rus tilining grammatik lug'ati: kirish. M., 1977 yil.
AGFLdagi rus iboralarini sirt sintaktik tahlili So'zning sintaksis darajasida yuzaki sintaktik tavsif elementlari morfologik shakllarni ajratish uchun tahlillar tahlil qilindi. Yoqilgan masalan, "eshik" turidagi 3-chi deklatsiya tarkibidagi otlar 5 shaklni ajratmaydi: birliklar. h Rodi- dative, dative, prepositional case va boshqalar nominativ va ayblov ishi. Agar bu shakl sifatlovchi bilan birga keladi ( og'ir eshik, og'ir eshik ) yoki oldingi dizaynda ( og'ir eshikka, og'ir eshiklarga ) (29-30), keyin morfologik belgining ahamiyati sezilarli darajada kamayadi. (29) ot birikmasi (Case, NUMBER, GENDER, ANIM): termin sifati (CASE, NUMBER, GENDER, ANIM), terminali ot (CASE, NUMBER, GENDER, ANIM). (30) prefraz (CASE): terminal oldingi holati (CASE), ot birikmasi (Case, NUMBER, GENDER, ANIM). Xulosa Hisobotda morfologik tizimni qurishning asosiy printsiplari tavsiflangan AGFL rasmiyatchiligidan foydalangan holda rus tilidagi matnlarni markalash. Hozir yakunlandi lekin morfologik tahlilning o'zagi. Grammatik modullarga sharhlarni qo'shgandan so'ng Ushbu tavsif AGFL veb-saytida http://www.cs.kun.nl/agfl/ bepul foydalanish uchun joylashtiriladi. foydalanish. Bevosita vazifalar qatoriga morfologik belgilarni tahlil qilish kiradi rus gazetasi matnlarida salbiy materialni aniqlash uchun (noaniq yoki matnni noto'g'ri talqin qilish) va tizim tarkibiga kirganligi sababli so'z boyligini kengaytirish yangi poydevorlar va standart so'z birikmalaridan foydalangan holda umumlashtirilgan tavsiflar elementlar (qo'shimchalar, prefikslar). AGFL rasmiyatchiligidagi rus tilining grammatik tavsifi bilan cheklanmaydi har ikkala usulda ham. Taklif etilayotgan variant maqbul echimni izlash natijasidir ularning katta qismi tadqiqotchining afzalliklari ta'siri ostida o'zgarishi mumkin. Ta'rifning eng qimmatli tomoni shundaki, u "ochiq", "o'qish", qayta o'qish tushundi va o'zgartirildi. Download 21.62 Kb. Do'stlaringiz bilan baham: |
ma'muriyatiga murojaat qiling