Korpusdagi ba'zi hozirgi miqdoriy muammolar Tilshunoslik va ba'zi echimlar eskizi

Download 76.69 Kb.

Sana	25.01.2023
Hajmi	76.69 Kb.
	#1121279

Bog'liq
Korpusdagi ba

Korpusdagi ba'zi hozirgi miqdoriy muammolar
Tilshunoslik va ba'zi echimlar eskizi
Stefan Th. Gries
Kaliforniya universiteti , Santa Barbara
Ushbu maqolada hozirgi miqdoriy korpus tilshunosligining turli uslubiy muammolari ko'rib chiqiladi. Biroz
Muhokama qilingan muammolar umuman korpus lingvistikasidan, masalan, dispersiyaning ta'siri, tip chastotalari/
entropiyalar va yo'nalish (kerak) assotsiatsiya o'lchovlarini hisoblashda, shuningdek, ta'sir qiladi.
statistik tahlilda korpusning tanlab olish tuzilishiga e'tibor bermaslik mumkin. Boshqalar esa ko'proq ixtisoslashgan
Hozirgi vaqtda korpus-lingvistik ish jadal rivojlanayotgan sohalar, masalan, tarixiy tilshunoslik va o'quvchilar korpusi
tadqiqot. Muammolarning har biri uchun ushbu muammolarni qanday hal qilish mumkinligi haqidagi birinchi g'oyalar/ko'rsatmalar berilgan
va ba'zi bir batafsil misollar.
Kalit so'zlar:assotsiatsiya choralari, aralash effektlar/ko'p darajali modellashtirish, MuPDAR, token/turdagi chastotalar,
o'zgaruvchanlikka asoslangan qo'shni klasterlash
1.Kirish
Bir necha o'n yillar davomida korpus lingvistikasi eng tez rivojlanayotgan metodologiyalardan biri bo'lib kelgan.
tilshunoslik fanlari. Misol uchun , Jozef Til muharriri sifatida o'zining chiquvchi ustunida
(2004:382) korpus va internet ma'lumotlarining ko'payishi haqida aniq izohlar; yana bir misol
Janda (2013), u kognitiv-lingvistik nazariya, xususan, qanday yo'llarni batafsil muhokama qiladi.
“miqdoriy burilish”ni amalga oshirdi. Ushbu rivojlanish va bir oz aniq kuzatuvni hisobga olgan holda
korpusda chastotalar/ehtimollardan boshqa hech narsa yo'q - yuzaga kelishi yoki birgalikda paydo bo'lishi - bu emas
Ajablanarlisi shundaki, tilshunoslik umuman olganda ko'proq miqdoriy/statistik xarakterga aylangan, bu tendentsiya
korpus lingvistikasida ham guvoh bo‘lamiz: Masalan, bundan 10-15 yil avval ancha bo‘lgan bo‘lardi.
korpus-lingvistik maqolalarda multifaktorial statistik usullarga ega hujjatlarni topish qiyin - hozir,
monofaktorial statistik testlar hech bo'lmaganda ancha tez-tez uchraydi va multifaktorial statistik usullar
ortib bormoqda.
Bunday ijobiy rivojlanishga qaramay, tilshunoslik sohasidagi o'zgarishlar sekin va korpus
tilshunoslik, xususan, ikki jihatdan cheklangan: Birinchisi, ehtimol, ma'noda hisoblash usullarida
korpus tilshunoslarining ko'pchiligi hali ham ko'pincha tijorat va mulkiy kichik to'plamga tayanmoqda
Korpusni qidirish vositalarining bir turi (masalan, VordSmit Tools, MonoConc Pro yokiAntConc);
Bu jiddiy cheklovlarni hisobga olgan holda (qarang: Clark-Sánchez 2013; Gries 2010a, 2011), bu
Endi tobora ko'proq amaliyotchilar ushbu cheklovlarga o'tish orqali barcha cheklovlardan qochishlarini ko'rish quvonarli
R yoki Python kabi dasturlash tillari.
Cheklovning ikkinchi turi statistik usullarni o'z ichiga oladi: Statistikaning umumiy miqdori esa-
bu boradagi tajriba ortib bormoqda, korpus lingvistlari ham o'z tajribalarini kengaytirishlari va chuqurlashtirishlari kerak
keng qo'llaniladigan bir nechta usullardan tashqariga chiqish. Bu bilan men nafaqat korpus tilshunoslarini nazarda tutyapman
Til va tilshunoslik
16(1) 93–117
© Muallif(lar) 2015
Qayta chop etish va ruxsatnomalar:
sagepub.co.uk/journalsPermissions.nav
DOI: 10.1177/1606822X14556606
lin.sagepub.com
Maqola
94
Stefan Th. Gries
ko'proq turli statistik testlardan foydalanish kerak (bu odatda to'g'ri bo'lsa-da, ma'lum bir tanlov
test, albatta, ko'pincha muayyan tadqiqot savoliga bog'liq), lekin bo'lishi kerak
Korpus tilshunoslari an'anaviy ravishda qiladigan ba'zi tanlovlar pro bo'lishi mumkinligi haqida tobora ortib borayotgan xabardorlikmuammoli
va boshqa nuqtai nazardan foyda keltiradi. Ushbu maqolaning keyingi qismida men xohlayman
bir qancha muammolarga misol keltiring va ularni hal qilish yo'llarini ko'rib chiqing. Xususan, men muhokama qilaman
umumiy korpus statistikasi sohasidagi potentsial muammoli tanlovlar yoki kamchiliklar, xususan
birgalikdagi ma'lumotlar uchun assotsiatsiya choralarini tanlash, ya'ni qaysi korpus bilan o'lchovlar
Tilshunoslar ikkita lingvistik iboralar (masalan, ikkita so'z yoki
so'z va sintaktik qolip/konstruktsiya). Bundan tashqari, men kam foydalanilganlar haqida qisqacha izoh beraman
dispersiya tushunchasi, ya'ni elementlarning qanday teng taqsimlanganligini miqdoriy o'lchovdir.
korpus, va shuning uchun ham korpus bir xilligi tushunchasi bilan bog'liq. Nihoyat, ko'rsataman
Korporatsiyaning ierarxik tuzilishiga hozirgi tipik e'tiborsizlik qanday jiddiy muammolarni keltirib chiqarmoqda.
Hozirgi vaqtda ko'proq ixtisoslashgan sohalar jadal rivojlanmoqda, shekilli: diaxronik korpus tilshunosligi
vaqtinchalik tartiblangan korpus ma'lumotlari vaqtinchalik bosqichlarga qanday guruhlanganligi muammosini hal qilish
keyingi tahlillar uchun; va kontekstsizlashtirilgandan o'tish kerak bo'lgan o'quvchilar korpusi tadqiqoti
o'rganuvchi tili va uning kengroq modellari uchun ortiqcha va kam foydalanishni o'rganish
ona tilidan farqlar.
2. Korpusning umumiy statistikasi
2. 1 Birgalikda yuzaga kelishi ma `lumot
Korpus tilshunosligidagi eng asosiy tushunchalardan biri bu taqsimot gipotezasi , ya'ni
lingvistik elementlarning taqsimlanishi nuqtai nazaridan o'xshash bo'lgan ishchi farazdir
korpusdagi naqshlar ham ba'zi semantik yoki funktsional o'xshashlikni ko'rsatadi. Firt (1957: 11) qo'lga olingan
Bu tushuncha o'zining mashhur aqidasida "[u] siz so'zni u ushlab turgan kompaniya tomonidan bilib olasiz", lekin Xarrisning
(1970:785f.) quyidagi bayonot aslida xuddi shu ishni yanada aniqroq qiladi:
[i] soʻz yoki morfemalarni koʻrib chiqsak, Ava B dan ko'ra ma'no jihatidan farq qiladiAva
C, keyin biz ko'pincha A ning taqsimlanishini topamizva B dan farq qiladi
A taqsimotiva C. Boshqacha qilib aytganda, ma'no farqi dif bilan bog'liqreferent
tarqatish.
Ya'ni, lisoniy ifoda E —morfemalar, so'zlar, konstruksiyalar/qoliplar, . ..-bolishi mumkin
E bilan nima va qanchalik tez -tez sodir bo'lishini o'rganish orqali o'rganiladi . Buning eng oddiy usuli
Bu xom ashyo bilan birga sodir bo'lish chastotasi yoki, ehtimol, ko'proq bo'ladi, kabi shartli ehtimollar
p (funktsiya| E ) yoki p (kontekst element(lar)| E ). Xom chastotalar so'zlar bilan buziladi beri
hamma joyda tez-tez uchraydi, tez-tez uchraydigan usul assotsiatsiya choralarini (AM) qo'llashdir, ya'ni
funktsiya kabi ikkita element o'rtasidagi o'zaro bog'lanish kuchini aniqlaydigan statistika
yoki bir tomondan kontekst elementi, ikkinchi tomondan E. Ko'pchilikAMlar birgalikda yuzaga kelishiga asoslanadi
T.da keltirilgan jadvallarning kuzatilgan (birga) sodir bo'lish chastotalarini o'z ichiga oluvchi 1
lingvistik ifoda E (masalan, ma'lum bir so'z) va X funktsiyalari/kontekstlari (masalan, ma'lum bir konstruksiya )
tion). Bunday jadvalda a yoki obs a (“kuzatilgan chastota a ” uchun) chastotani bildiradi.
95
Til va tilshunoslik 16(1)
E /funktsiyada/kontekst X va boshqalar bilan kuzatiladi; keng qo'llaniladigan AMlarga misollar Mutualni o'z ichiga oladi
Axborot ( MI ), t - skor, z -skor, log-ehtimollik G ², p _{Fisher-Yates aniq}va boshqalar (qarang Evert
Ushbu o'lchovlar qanday hisoblanganligi va ularning xususiyatlarini muhokama qilish uchun 2009).
2.2 Birgalikda yuzaga keladigan miqdorni aniqlash bilan bog'liq muammolar
2.2.1 Muammo: ko'p so'zliAM yetarlicha konservativ emas
Foydalanish chastotasiga qaramay, yuqoridagi turdagi AMlar muammosiz emas. Bir kichikroq
muammo shundaki, ular n -grammga (n so'zning uzluksiz qatoriga) osonlikcha umumlashtirilmaydi ,
yoki koʻp soʻzli birliklar (masalan, ga koʻra , ga qaramay va hokazo).Shu nuqtada, n -gramm uchun MI -
log ₂( ^obs^a / _exp_a ) - ko'pincha to'liq shartli mustaqillik asosida oddiygina hisoblab chiqiladi,
bu a ning kutilgan chastotalarini kam baholaydi va shuning uchun ning kuchini ortiqcha baholaydi
uyushma. Belgilanmagan jigarrang korpusga qaramay , MI ni taqqoslash orqali hisoblansa.
to'liq mustaqillikka asoslangan kutilgan chastotaga nisbatan 54 ga qaramay kuzatilgan chastota
dan keyin , MI 12,25 juda yuqori qiymatga aylanadi. Biroq, agar kimdir MI ni taqqoslash orqali hisoblasa
in qaramay va hodisalaridan kutilganiga qaramay bir xil kuzatilgan chastotasi
ning , keyin bu MI -qiymati 4,76 ga kamayadi. Shunday qilib, korpus lingvistikasi ko'proq adekvat tadqiq qilishi kerak
va AMlarni n -grammgacha kengaytirishning konservativ usullari .
2.2.2 Muammo: deyarli hammasiAM simmetrik/ikki tomonlama
Bundan ham muhimroq muammo shundaki, deyarli barcha AMlar simmetrikdir: assotsiatsiyasi
E ifodasi kontekst C simmetrik/ikki tomonlama deb taxmin qilinadi. Biroq, birlashmalar
Umumiy va assotsiativ ta'lim, albatta, (har doim) nosimmetrik emas, shuning uchun ideal holda, korpus
tilshunoslik yo'nalishli AMlardan foydalanishni o'rganadi. Bu sohada, xususan, ba'zi ishlar mavjud
Mishelbacher va boshqalar. (2007, 2011), ular ikki xil kontseptual variantni o'rganadilar.
Birinchidan, ular sifatdosh - ot birikmalaridan shartli ehtimollarning o'zaro bog'liqligini o'rganadilar
Janubiy Florida universiteti assotsiatsiyasi me'yorlari bilan, ammo etishmayotgan chorani toping
nosimmetrik assotsiatsiyalarni aniqlash; bundan tashqari, shartli ehtimolliklar normallashtirmaydi
har qanday asosiy ko'rsatkichga nisbatan kuzatilgan foiz.
Ikkinchidan, ular darajalar farqiga asoslangan o'lchovni o'rganadilarAM (masalan, chi-kvadrat
qiymatlar). Bunday darajali o'lchovlar uchun xy birikmasi tomonidan o'rganiladi
- x bilan kollokatsiyalar uchun barcha AM larni hisoblash , ularni tartiblash va xy uchun darajani qayd etish ;
- y bilan birikmalar uchun barcha AM larni hisoblash , ularni tartiblash va xy uchun darajani qayd etish ;
- darajalardagi farqni solishtirish.
Tqodir 1: Sxematik birga sodir bo'lish chastotasi jadvali
E Totals dan boshqa elementlar
Funktsiya/kontekst X a b a + b
X dan boshqa funksiyalar/kontekstlar c d c + d
Jami a + c b + d a + b + c + d
96
Stefan Th. Gries
Shartli ehtimollik testlariga o'xshash testlarda bu daraja o'lchovi yaxshi ishlamaydi
assimetrik assotsiatsiyalar bilan, lekin nosimmetrik bo'lganlar bilan bir oz yaxshiroq; qo'shimcha tasnifda
vazifa, daraja o'lchovi shartli ehtimolliklarga qaraganda ancha yuqori xato darajasi bilan keldi. In
Mishelbacher va boshqalar. ning (2011) tadqiqoti, qo'shimcha darajali o'lchovlar ham xom birgalikda sodir bo'lishiga asoslanadi
chastotalar,G ²va t va korpusga asoslangan ma'lumotlar erkin birlashma natijalari bilan taqqoslanadi.
ushbu tadqiqot uchun maxsus bajarilgan vazifa.Ushbu tadqiqotda daraja o'lchovlarining natijalari juda ko'p
sub'ektlarga sifat va miqdoriy jihatdan ko'proq mos keladieksperimentdagi reaktsiyalar; ning
darajani o'lchaydi, G ²eng yaxshi ishlaydi.
Bu istiqbolli bo'lib tuyulsa-da, bu hisob-kitoblarga kiradigan hisoblash harakatlari
juda katta, chunki xy birikmasi uchun bitta AMni hisoblash hamma narsani hisoblashni talab qiladi.
X bilan barcha birikmalar uchun AM, keyin esa y bilan barcha birikmalar uchun alohida . Bundan tashqari, qaramay
Minglab darajali G ² qiymatlarida katta hisoblash harakatlari amalga oshirilmaydi.
shartli ehtimoldan yaxshiroq (Michelbacher et al. 2011: 270). Nihoyat, daraja-o'lchovga asoslangan
yondashuv juda istiqbolli, lekin, ehtimol, har qanday ma'noda kognitiv jihatdan real emas. Bunga qarshi
Assotsiativ ta'lim adabiyotidagi D P o'lchovi ayniqsa qiziqish uyg'otadi.
muqobil (tilshunoslikka kirish uchun Ellis 2006 ga qarang). U ham shunday jadvallarga asoslanadi
sifatida T1 ga qodir, lekin X dan E gacha bo'lgan assotsiatsiyani ajrata oladi (qarang (1a)) E dan assotsiatsiya
uchunX (qarang (1b)).
(1) a. _|_EX
ac
P _{ab cd}
D= −
++
b. _|_XE
ab
P _{ac bd}
D= −
++
Masalan, barcha an'anaviy AMlar, albatta, yuqori qiymatni qaytaradi ( qarang: Gries 2013: 144),
lekin bu DA P bo'lib of va kurs o'rtasidagi bog'lanish simmetrik emasligini tan oladi: of emas
bu kurs davom etishini yaxshi bashorat qiluvchi, kurs esa irodaning kuchli bashoratchisi .
Aslida, Gries (2013) shunga o'xshash kuchli assimetrik birikmalar juda tez-tez uchraydi - 26%
uning 2 grammlik namunasi kuchli assotsiatsiyani aks ettiruvchi yuqori G ^{2 qiymatlariga ega, ammo ular etishmayapti}
bu juda assimetrik uyushmalar ekanligi. (2a) birinchi so'z bo'lgan ba'zi 2 grammni sanab o'tadi
ikkinchisiga nisbatan ancha bashoratli; (2b) birinchisi bo'lgan ba'zi 2 grammlarni sanab o'tadi
so'z ikkinchisiga nisbatan kamroq bashorat qiladi ( albatta kabi ).
(2) a.dan tashqari ,accorteskari , teskari , aksincha ,dan qat'i nazar, ipso facto
b.hech bo'lmaganda ,yillik , status-kvo ,masalan , de-fakto , aksincha
Xulosa qilib aytganda, D PDizayni bo'yicha u an'anaviy AM-larga qaraganda sezgirroq, chunki u yo'nalishni ajratishi mumkin.
o'ziga xos effektlar ; tushunish va hisoblash juda oson; uni hisoblash/talqin qilish talab etilmaydi
taxminlar (korpus ma'lumotlarida juda kam uchraydigan normallik kabi); u Null muammolaridan qochadi
Gipotezaning ahamiyati Tbaholash paradigmasi, chunki u kuzatilgan taqsimot ma'lumotlarini sinab ko'rmaydi
illyuzion nol gipoteza taqsimotiga qarshi; nihoyat, u ikkalasini ham eksperimental qo'llab-quvvatladi
Ellis va uning hamkasblari tomonidan psixologiya va lingvistik ishlarda va Gries (2013) hech bo'lmaganda
u n -grammlarni o'rganish uchun ishlatilishi mumkin bo'lgan usul. Shuning uchun korpus lingvistlari buni qilishlari kerak
97
Til va tilshunoslik 16(1)
ushbu chorani batafsilroq o'rganing; Oxir oqibat, u hatto o'rtasidagi nomuvofiqlikni aniqlashga yordam berishi mumkin
Mollin (2009) da xabar qilingan turdagi korpus va eksperimental ma'lumotlar, masalan, kim etishmasligini topadi
Edinburgdagi assotsiatsiya ma'lumotlari o'rtasidagi korrelyatsiyaAssotsiativ tezaurus va birgalikda yuzaga kelishi
Britaniya Milliy Korpusining (BNC) ma'lumotlari bir tomonlama emas, balki ikki tomonlama o'rganilgan.
2.2.3 Muammo: deyarli hammasiAM faqat token chastotalarini o'z ichiga oladi
Bu erda muhokama qilinadigan navbatdagi AM muammosi, ehtimol simmetriya kabi asosiydir
muammo, lekin undan ham kamroq tan olingan va o'rganilgan: ya'ni deyarli barchasini hisoblash
AMlar faqat Tda ifodalangan to'rtta token chastotasini o'z ichiga oladiqodir 1. Ya'ni hal qiluvchi qism
odatiy chora-tadbirlarning birortasiga kirmaydigan ma'lumotlar
- minimal, b va c chastotalarni tashkil etuvchi turdagi chastotalar , ya'ni qanday
ko'p turli elementlar emas- E bir xil funktsiya/kontekst X ( b uchun ) bilan mavjud va
X bo'lmagan nechta turli funksiyalar/kontekstlar E bilan ishlatiladi? Javob
bu ikki savolga ikkita raqam, ikkita turdagi chastotalar asosidagi b
vac ., masalan, 10 va 20.
- Va undan ham foydali bo'lgan barcha turdagi token chastotalari bo'ladi
token chastotalari b va c . b uchun bu qancha turli elementlarni bildiradi
emas- E bir xil funktsiya/kontekst X mavjud va ularning har biri qanchalik tez-tez uchraydi
X bilan va c uchun tegishli savol . b uchun bu savolga javob bo'ladi
10 ta token chastotasi va, ehtimol, ularning entropiyasi yoki boshqa umumiy statistika bo'lishi mumkin.
Ko'pgina domenlar uchun turdagi chastotalar yoki entropiyalarning ahamiyatini hisobga olgan holda (mahsuldorlik, til
o'zgarish, tilni o'zlashtirish, . . .), turini ishlatadigan AM-ga muqobillar qanchalik kamligi ajablanarli
chastotalar yoki entropiyalar korpus lingvistikasida to'g'ri o'rganilgan. Qo'shnilardan tadqiqotlar
fanlar (Baayen 2010b; McDonald & Shillcock 2001; Recchia va boshq. 2008) hammasi shuni ko'rsatadiki
kontekstli xilma-xillik o'lchovlari, masalan, kontekstual farqlash va/yoki entropiya bilan bog'liq o'lchovlar,
Faqat token-chastota statistikasiga qaraganda psixolingvistik xulq-atvor ma'lumotlarini yaxshiroq bashorat qiluvchilar, shuning uchun
korpus lingvistikasining o'z ishi bor.
Korpus tilshunosligida Daudaravi čius va Marcinkevi č ien ė (2004) birinchi bo'lib
bu mavzu kengroq auditoriyaga ma'lum. Ular belgilangan leksik tortishish G deb nomlangan o'lchovni taklif qildilar
(3) ichida. Bu tenglamadan ko'rinib turibdiki, qolgan barcha narsalar teng bo'lganda G n _w1w2 ga ortadi ,
_{w1 dan keyin} n tur yoki _{w2 dan oldingi}n tur ortadi va n _w1 yoki n _{w2 ortishi bilan}G kamayadi .
(3) GravityG (w ₁,w ₂) = ^{12 1 12 2}
12
log ^{ww keyin turlari w ww turlari oldinw}
ww
nn nn
nn
⋅⋅
⎛⎞⎛ ⎞
+
⎜⎟⎜ ⎟
⎝⎠⎝ ⎠
Afsuski, bu tushunchaga juda kam amal qilingan.TGries bundan mustasno
(2010b) va Gries & Mukherjee (2010). Ilgari tadqiqot sub-registrlarning klaster tahlilidan foydalanadi
(BNC Baby) korpusdagi barcha 2 gramm uchun G -qiymatlariga asoslanadi va uni bitta asoslangan bilan solishtiradi
t -qiymatlari bo'yicha va birinchisi namuna olish qarorlarini deyarli mukammal tarzda qayta yaratishga qodir ekanligini aniqlaydi
98
Stefan Th. Gries
korpus kompilyatorlarining (ikkinchisi esa yomonroq ishlaydi). Xususan, G - ga asoslangan klaster
tahlil
- nutqni yozishdan mukammal ajrata oladi;
- badiiy adabiyot, yangiliklar va akademik registrlarni yozma ravishda mukammal ajratib turadi;
- yangiliklar va akademik kichik registrlar ichida hatto shunga o'xshash kichik registrlarni ham aniqlaydi.
Oxirgi tadqiqot turli xil navlardagi n -gramlarni aniqlash uchun G ning kengaytmasini o'rganadi.
Ingliz tili. Aniqrog'i, u n -grammni aniqlash uchun G dan qanday foydalanish mumkinligini va G ga asoslanganligini ko'rsatadi
to'rt xil turdagi og'zaki va yozma ma'lumotlarni klaster tahlili (Britaniya, Gonkong,
Hind va Singapur inglizlari) gapirishni yozishdan mukammal ajratib turadi.
Xulosa qilib aytganda, nazariy nuqtai nazardan turdagi chastotalarni kiritish uchun ishonchli dalillar mavjud.
Shuningdek, psixolingvistika yoki kompyuter tilshunosligi kabi qo'shni fanlardan,
va korpus lingvistikasida birinchi istiqbolli natijalar mavjud, ammo ko'proq tadqiqotlar
albatta talab qilinadi. Xususan, yuqoridagi barcha yondashuvlar faqat minimal miqdor bilan shug'ullanadi
o'z ichiga olishi kerak bo'lgan ma'lumot - token va turga oid kengroq ma'lumot
chastota taqsimoti va entropiyalar hali ham birinchi tadqiqotni kutmoqda.
2.3 Korpus tarkibida taqsimlanishni e'tiborsiz qoldirish bilan bog'liq muammolar
2.3.1 Promuammo: (birgalikda) yuzaga kelishi kam tarqalgan bo'lishi mumkin
Bu erda muhokama qilinadigan navbatdagi AM muammosi korpusning yana bir muhim o'lchamiga tegishli
AM yondashuvining an'anaviy turiga asoslangan ma'lumotlar1-jadval ko'rsatmaydi. Xususan, ichida
Oldingi bo'limda deyarli barcha AMlar mavjud bo'lgan ma'lumotlardan qanday qilib to'liq foydalanmasligi ko'rsatilgan
b va T da c larda umumlashtirilgan1 ga qodir, chunki b va c turdagi chastotalarni ta'minlamaydi (u yoqda tursin
entropiyalar) b va c tokenlarini tashkil qiladi. Biroq, yana bir muammo shundaki, birgalikda yuzaga keladi
1-jadvaldagi a chastotasi a korpusi bo'ylab qanday (no) tengligi haqida ma'lumot bermaydi
E element va funksiya/kontekst X ning birgalikdagi hodisalari topiladi. Misol uchun 1-rasmni ko'rib chiqing
bunda a o'zboshimchalik bilan 180 ga o'rnatilgan: yuqori panelda bu 180 ta birgalikda sodir bo'lishi mumkinligini ko'rsatadi.
500 qismli korpusning juda kichik qismida yuqori chastotalar bilan to'plangan (masalan, Britaniya
Xalqaro ingliz korpusining komponenti, ICE-GB) yoki pastki panelda bo'lgani kabi, yana ko'p narsalar
kichikroq chastotalar bilan keng tarqalgan. Ushbu taqsimot tushunchasi dispersiya deb nomlanadi (qarang
Gries 2008 ko'plab dispersiya o'lchovlarining yaqinda ko'rib chiqilishi uchun) va uni nafaqat miqdoriy aniqlash mumkin
( 1-rasmdagi DP qiymatiga qarang, bu to'planishni aks ettiradi), lekin bu ham muhim oqibatlarga ega.
korpus-lingvistik tahlil uchun, shuningdek, psixolingvistik yoki umumiyroq ilovalar uchun.
Korpus-lingvistik tahlilning oqibatlariga kelsak, qaysi fe'llar haqidagi savolni ko'rib chiqing
imperativ so‘zlarda qo‘llanishi ehtimoli bor. Amutlaqo normal an'anaviy korpus-lingvistik hisob mumkin
Bu savolga imperativda kelgan korpusdagi har bir fe'l lemmasi uchun hisoblash orqali yondashing
kamida bir marta bu lemma va imperativ o'rtasidagi bog'lanishni aniqlaydigan AM
T kabi jadvallar asosidaqodir 1 va keyin fe'llarni assotsiatsiya kuchiga qarab tartiblang.
Stefanowitsch & Gries (2003) buni ICE-GB yordamida amalga oshirdi va (4) reytingini qo'lga kiritdi:
99
Til va tilshunoslik 16(1)
(4) Keling , ko'ring ,qarang , tinglang ,Xavotir , katlama , esda tut ,tekshirish , ishlov berish , harakat qilish , ushlab turish ,ayt , eslatma ,qo'shish ,
tutish , ...
(4) dagi ko'pchilik fe'llar buyruq bilan bog'langan lemmalar sifatida to'liq ma'noga ega, lekin katlama
vaprOcess biroz hayratlanarli. Yaqinroq tekshirish shuni ko'rsatadiki, har birining yuqori chastotasi
Bu ikki fe'lning eng yaxshi 10 ta ro'yxatda turishi uchun javobgar bo'lgan buyruq fe'li tufaylidir
500 ta fayldan bittasi, ya'ni origami kitobidan parcha bo'lgan fayl ( katlama uchun )
va oshpazlik kitobidan parcha bo'lgan fayl ( jarayon uchun ). Aniq, bu shuni ko'rsatadikiAM asosida
martaba juda noto'g'ri bo'lishi mumkin, chunki katlama va jarayon yanada kuchliroq ko'rinadi
eslab qolish yoki urinishdan ko'ra imperativ bilan bog'langan , holbuki bu registr artefakti bo'lishi mumkin
a qo'shma hodisalarning dispersiyalari o'rganilgandan keyin tan olinadi . Yuqori chastotalar bilan birga
birgalikda paydo bo'lish umuman kengroq dispersiya bilan bog'liq bo'ladi, bu korrelyatsiya hech qachon mukammal bo'lmaydi.
va biz yuqorida aytib o'tganimizdek, oddiy deb qabul qilinishi mumkin emas. Shunday qilib, tahlil qilish mantiqan to'g'ri keladi
AM yordamida birgalikda yuzaga kelgan ma'lumotlar dispersiyani hisobga olgan holda sezilarli foyda keltirishi mumkin.
Buni, masalan, yuqorida ko'rsatilgandek, birgalikda sodir bo'lgan ma'lumotlar uchun AM hisoblash orqali amalga oshirilishi mumkin,
balki elementlarni solishtirish uchun dispersiyani ham o'lchaydi.ularning dispersiya qiymatlari
1-rasm: T 180 ta birgalikda hodisalarni korpus bo'ylab taqsimlashning (ekstremal) usullari
500 qismdan (fayllardan) iborat: o'ta notekis/to'plangan taqsimot (yuqori panel) va juda ko'p
yanada tekis taqsimlash (pastki panel)
100
Stefan Th. Gries
AM-qiymatlari va/yoki ularning koʻrib chiqilayotgan funksiya/ kontekstda / bilan birgalikda paydo boʻlish chastotalari . Agar
ikkinchisi ICE-GBdagi ditransitivdagi fe'llar uchun bajariladi, 2-rasmda aniq holat ko'rsatilgan.
birgalikda paydo bo'lish chastotasi ( x - o'qi bo'yicha) va dispersiya ( y - o'qi bo'yicha ) o'rtasidagi korrelyatsiya.
Shunday qilib, bu holda va yuqoridagi imperativ misoldan farqli o'laroq, birgalikda yuzaga keladigan chastotalar,
chastotaga asoslangan AM va dispersiya o'lchovlari juda o'xshash fe'l reytinglarini beradi, ammo, faqat
Ushbu o'lchamlarning barchasini o'rganib chiqib, biz turli xil o'lchamlar mavjudligiga amin bo'lishimiz mumkin
korpus ma'lumotlari aslida birlashadi.
Psixolingvistik va ko'proq umumiy (nazariy) ilovalar uchun ta'sirlarga kelsak, dispersiya
Hozirgi vaqtda asosiy korpus tilshunosligidan tashqari boshqa sohalarda ham dolzarb ekanligi ko'rsatilgan. Masalan,
Simpson-Vlach & Ellis (2005) va Ellis va boshqalar. (2007) shuni ko'rsatdiki, hatto eng oddiy tasavvur qilish mumkin
dispersiya o'lchovi - diapazon, (birgalikda) sodir bo'lgan korpus qismlarining (normallashtirilgan) soni
tasdiqlangan - o'rganishda xom chastotadan yuqori va undan yuqori sezilarli bashorat qilish kuchiga ega
akademik formulalar; Casenhiser & Goldberg (2005) taqsimotning bir tekisligini aniqladilar
Yangi qurilishdagi fe'l turlari (aslida uning entropiyasiga teng) bilan bog'liq.
bolalar va kattalar yangi sintaktik qurilishni qanchalik yaxshi o'rganadilar; Gries (2010c) qanday qilib ko'rsatgan
ko'plab dispersiya o'lchovlari yoki tegishli sozlangan chastotalar psixolingvistikaning yaxshiroq prognozi hisoblanadi
korpus chastotalariga qaraganda xatti-harakatlar ma'lumotlari va boshqalar To korpus tilshunoslari o'z ishlarini qanchalik xohlashlari
fanlararo bo'lish, qo'shni konlarga ham ta'sir qilish uchun ular dispers tadqiqotlarini qo'shishlari kerak.-
birgalikda yuzaga kelgan ma'lumotlarni har qanday o'rganish bo'yicha chora-tadbirlar, faqat o'zlarini yaroqsizlardan himoya qilish uchun
haddan tashqari to'plangan va shuning uchun vakili bo'lmagan ma'lumotlarga asoslangan umumlashmalar. Shu ma'noda, kashf qilish
dispersiya korpusning heterojenligi tufayli tarafkashlikdan zarur himoyani ta'minlaydi.
2-rasm: Verbs'ICE-GBda ditransitivga jalb qilish: dispersiya ( y o'qi bo'yicha ) chizilgan
ro'yxatga olingan birga sodir bo'lish chastotalariga qarshi ( x o'qi bo'yicha)
101
Til va tilshunoslik 16(1)
2.3.2 Muammom: korpusning ierarxik tuzilishiga e'tibor bermaslik
Ushbu bo'limda muhokama qilinadigan yakuniy muammo keng ko'lamli ekanligi bilan bog'liq
ko'pchilikKorpus lingvistikasida statistik tahlillar - xoh ular chi-kvadrat testlari, xoh oddiy korrelyatsiyalar,
umumlashtirilgan chiziqli modellar (GLM, masalan, ikkilik logistik regressiyalar), . . .-asosiy qoidani buzish
Ushbu statistik usullarning taxmini: ma'lumotlar nuqtalarining bir-biridan mustaqil ekanligi. Aksincha,
ko'p korpus ma'lumotlar nuqtalari har biri bilan bog'liq sifatida ko'rish mumkin bo'lgan uch xil usul mavjud
boshqa, birinchi ikkitasi psixolingvistik ishda yaxshi ma'lum:
- Korpus ma'lumotlari/fayllaridagi ma'ruzachilar/yozuvchilar ko'pincha muvofiqlikda bir nechta ma'lumotlar nuqtasini taqdim etadilar
Shunday qilib, ma'lum bir ma'ruzachi/yozuvchining barcha ma'lumotlar nuqtalari bir-biri bilan bog'liq (ular kabi
so'zlovchining o'ziga xos xulq-atvorini aks ettirishi mumkin). Psixolingvistikada bu shunday
ko'pincha F ₁- yoki tegishli ANOV bilan murojaat qilinadiAstatistika.
- Ko'pgina grammatik naqshlar uchun muvofiqlik qatorlari bir xil leksik elementni o'z ichiga oladi
Ushbu leksik element bilan barcha ma'lumotlar nuqtalari bir-biri bilan bog'liq (chunki ular buni aks ettirishi mumkin).
leksik bo'lakning o'ziga xos qoliplanishi). Psixolingvistikada bu ko'pincha hal qilinadi
F ₂- yoki tegishli ANOVAstatistika.
- Korpora ko'pincha ierarxik tarzda joylashtirilgan tuzilishga ega bo'lib, unda karnaylar joylashtirilgan
fayllar, ular o'z navbatida pastki registrlarga joylashtirilgan, ular o'z navbatida registrlarga joylashtirilgan;
ular o'z navbatida rejimlarga joylashtirilgan (masalan, og'zaki va yozma). Shunday qilib, bir nechta bor
ta'sirlar joylashgan bo'lishi mumkin bo'lgan korpus tashkilotining darajalari, lekin bu darajalar odatda
hammasi ham tekshirilmagan.
Odatda korpus ma'lumotlari (ko'pincha
ehtiyotkorlik bilan) nazorat qilinadigan psixolingvistik eksperimental ma'lumotlar, korpus ma'lumotlarining ommaviy o'zaro bog'liqligi
yuqoridagi uchta chiziq bo'ylab odatda e'tiborga olinmaydi. Ushbu bo'limda men bu qanday muammoli ekanligini misol qilib keltiraman
odatdagidek, bu o'zaro bog'liqlikni e'tiborsiz qoldiradigan tahlilni uni hisobga oladigan tahlil bilan solishtirish.
Haqiqiy lingvistik ta'sirlari bilan men qiziqmaydigan kichik bir misol sifatida keling, quyidagilarni davom ettiramiz.
siderMen yoki siz - erkaklar yoki ayollar - kim ko'proq foydalanishi va qaerda/qachon (erta/) degan savol.
suhbatda kech va/yoki jumlada erta/kech); ehtimol ayollar degan taxmin bor
odatda I dan foydalanish ehtimoli kamroq . . . R skriptidan foydalanish (R Core Team 2014), men hammasini chiqarib oldim
Britaniya Milliy Korpusi W ning barcha 21 ta faylidagi men va siz (PNP sifatida belgilanganda) misollariorld
Nomlari "KR" bilan boshlanadigan nashr (XML). Har bir misol uchun men quyidagilarni oldim/annotatsiya qildim
o'zgaruvchilar:
- M ATCH : ma'ruzachi I yoki siz ishlatdimi ;
- F ILE : ma'ruzachi I yoki you so'zini ishlatgan fayl nomi ;
- S PEAKER : men yoki sizdan foydalangan ma'ruzachi uchun noyob identifikator ;
- S EX : so'zlovchining jinsi, ayol va erkak ;
- S ENTENCE : fayllardagi jumlaning ID raqamining kvadrat ildizi (1 dan n gacha )
bunda ma'ruzachi I yoki siz ishlatgan (kvadrat ildiz o'zgarishi
S ENTENCE ning tarqalishi normalroq );
102
Stefan Th. Gries
- D MASALADA : gapdagi I yoki sizdan oldingi belgilar sonining tabiiy jurnali
savol (teglar va h.k.lar olib tashlanganidan so'ng; jurnalni o'zgartirish uchun
D ISTANCE ning taqsimlanishi normalroq ).
Bu ikkilik logistika kabi ko'p faktorli tahlil usulini talab qiladigan ma'lumotlar to'plami
regressiya. Faraz qilaylik, bashorat qilishga harakat qiladigan birinchi maksimal modeldan boshlashga qaror qildik
M ATCH , ya'ni men va sizni barcha o'zgarmas effektlar bashorat qiluvchilar asosida tanlash - S EX , S ENTENCE ,
va D ISTANCE -shuningdek , ularning juftlik o'zaro ta'siri va u orqaga qarab model tanlashdan foydalangan
faqat muhim bashorat qiluvchilar qolmaguncha, eng kam ahamiyatli bashoratchi o'chiriladi. Bu
Ma'lum bo'lishicha, ushbu modelni tanlash jarayoni o'zaro ta'sirlarni yo'q qilishni o'z ichiga oladi S ENTENCE :D ISTANCE
( p = 0,058) va S EX :D ISTANCE ( p = 0,05) va natijada juda muhim model (LR chi-kvadrat)
881,9;df = 6, p < 0,0001); ushbu modelning koeffitsientlari T da keltirilganqodir 2.
E'tibor bering, regressiya modeli juda muhim bo'lsa-da, uning bashorat qilish kuchi juda katta
zaif: R ²= 0,055, C = 0,613 va tasniflash aniqligi atigi 58,3% ni tashkil qiladi, bu hech qanday ahamiyatga ega emas.
tasodifdan ko'ra yaxshiroq. Ta'sirlarning tabiati T.dan biroz aniqqodir 2, lekin qulaylik uchun
talqini 3-rasmda ham vizual tarzda tasvirlangan: ma'ruzachilar sizni keyinroq ishlatish ehtimoli ko'proq
so'z (chap panel) va ayollar keyinroq suhbatda sizni ishlatish ehtimoli ko'proq , erkaklar va
noma'lum jinsdagi ma'ruzachilar suhbatda keyinroq I dan foydalanish ehtimoli ko'proq (o'ng panel).
3-rasm: GLM ning yakuniy modelining muhim ta'siri, bu esa talabni qabul qilmaydi
Ma'lumotlar nuqtalarining o'zaro bog'liqligi e'tiborga olinadi: bashorat qiluvchilarning bashorat qilingan ehtimolga ta'siri
sizdan foydalanish ( men o'rniga ) ( y o'qida)
Tqodir 2: Resumumlashtirilgan chiziqli modelning yakuniy modeli (yumaloq)
Bashoratchi bsez pp
o'chirish
Kesish -0,742 0,044 – 16,721 <0,0001
S EX _{noma'lum ayol/erkakga nisbatan}0,044 0,032 1.391 0,164 <0,0001
S EX _{ayol va erkak}0,197 0,034 5,761 <0,0001
D MASALOVI 0,193 0,008 24.925 <0,0001 <0,0001
S ENTENCE -0,004 0,001 -3,961 <0,0001 <0,0001
S EX _{noma'lum ayol/erkakga nisbatan} : S ENTENCE 0,003 0,001 4.139 <0,0001 <0,0001
S EX _{ayol va erkak} :S ENTENCE –0,008 0,001 – 10,365 <0,0001
103
Til va tilshunoslik 16(1)
Garchi bu protsedura ko'pchilik korpus lingvistlari tomonidan amalga oshirilgan bo'lsa-da
chi-kvadrat testlari, ya'ni, qat'iy aytganda, noto'g'ri, chunki u e'tiborga olinmaydi.
ma'lumotlar nuqtalari bir-biridan mustaqil emasligi.Juda yaxshi (garchi hali ham yaxshilanishi mumkin)
yondashuv umumiy chiziqli aralash effektlar modeli (GLMEM) bo'lib, unda bular o'zaro bog'liqdir.
talablar hisobga olindi. Dinamiklar fayllarga joylashtirilganligi sababli - har bir karnay
bitta va faqat bitta faylda sodir bo'ladi - bir xil maksimal qattiq effektli tuzilmani tanlash mumkin
yuqorida - S EX , S ENTENCE va D ISTANCE hamda ularning juftlik o'zaro ta'siri - lekin nimani ham o'z ichiga oladi
tahlilga tasodifiy effektlar deyiladi . Tasodifiy effektlarni darajalari bo'lgan effektlar sifatida aniqlash mumkin
namunada sobit ta'sirlardan farqli o'laroq, populyatsiyadagi barcha mumkin bo'lgan darajalarni qamrab olmaydi
namunadagi darajalar populyatsiyaning barcha mumkin bo'lgan darajalarini qamrab oladi. Tbirinchisiga xos misollar
S PEAKERni o'z ichiga oladi (chunki tilda so'zlashuvchilarning hammasi ham namunaning bir qismi emas), L EXICAL I TEM
(chunki qolipda ishlatilishi mumkin bo‘lgan barcha leksik birliklar namunada bo‘lmaydi), T EXT S OURCE
(chunki, masalan, namuna olish mumkin bo'lgan barcha gazetalar namunada emas) va boshqalar;
ikkinchisiga misollar S EX ( ayolerkakka nisbatan ; boshqa darajalar yo'q), P REVIOUSLY M EN -
TIONED ( yo'q , ha , boshqa variantlar yo'q) va hokazo. An'anaviy GLM faqat regressni qaytarsa-da
Har bir bashoratchi uchun bitta kesishma va bitta koeffitsientni o'z ichiga olgan sion tenglamasi, GLMEM
tadqiqotchiga yanada moslashuvchan bo'lishga va, shuningdek, har bir tasodifiy har bir daraja uchun olish imkonini beradi
ta'sir umumiy kesishmaga tuzatishlar, shuningdek, vositalar farqiga tuzatishlar kiritilgan
va qiyaliklar. Bu yerga, ma'lumotlar nuqtalarining o'zaro bog'liqligi, so'zlovchiga xos, leksik elementga xos, . . .
ta’sirlari hisobga olinadi.
Qachonki, muhim bo'lmagan sobitni yo'q qilish orqali o'xshash model tanlash jarayoni amalga oshiriladi
Effektlar, avvalgidek bir xil o'zaro ta'sirlar o'chirilgach - juda boshqacha p -qiymatlari bilan, lekin:
S ENTENCE :D MASALADA (p = 0,216) va S EX :D ISTANCE (p = 0.224) - va biri bilan yakuniy modelga keladi
T da ifodalangan koeffitsientlarqodir 3. ¹
Tqodir 3: GLMEM yakuniy modelining natijalari (yumaloq)
Ruxsat etilgan effektlarni bashorat qiluvchilar bsez pp
o'chirish
Kesish -0,982 0,106 –9,245 <0,0001
S EX _{noma'lum ayol/erkakga nisbatan}0,0026 0,083 0,031 0,975 0,523
S EX _{ayol va erkak}0,099 0,085 1,163 0,245
D MASALOJI 0,23 0,009 26.874 <0,0001 <0,0001
S ENTENCE -0,001 0,002 –0,444 0,657 0,525
S EX _{noma'lum ayol/erkakga nisbatan} : S ENTENCE 0,002 0,002 0,866 0,386 0,002
S EX _{ayol va erkak} :S ENTENCE -0,004 0,001 –3,469 0,0005
Tasodifiy effektlar (turli xil kesishmalar)
F ILE sd = 0,026
F ILE /S PEAKER sd = 0,821
1 _{Oddiylik uchun, Men tasodifiy effektlar tuzilishini ham qisqartirmadim. Barcha niyat va maqsadlar uchun,}
natijalar bir xil; Bunday modellashtirish va tegishli R haqida muhokama qilish uchun Gries (kelgusidagi) ga qarang
kod.
104
Stefan Th. Gries
Ushbu modelning tasniflash kuchi haqida nima deyish mumkin? Garchi u hali ham u qadar yaxshi emas
nazariy jihatdan bo'lishini xohlasangiz, u avvalgisidan ancha yuqori: marginal R ²= 0,044 va kon-
ditional R ²= 0,24, C = 0,717 va tasniflash aniqligi hozirda 65,7% ni tashkil qiladi, bu hozir.
imkoniyatdan ancha yaxshi. ²Ikki modelni solishtirishdan oldin, keling, yana bir bor ko'rib chiqaylik
4-rasmda ko'rsatilgan eng yuqori darajadagi muhim effektlarni vizualizatsiya qilishda.
Umumiy tomonlarga kelsak: ikkala model ham bir xil sobit effektlarni o'z ichiga oladi va ikkala modelda ham
D IST ta'siriANCE , ehtimol, xuddi shunday. Shu bilan birga, juda ko'p (ko'proq) sezilarli farqlar mavjud.
Eng ravshan narsa allaqachon aytib o'tilgan: GLMEM ancha yuqori va juda muhim natijalarga erishadi
tasniflashning aniqligi.Keyin, fayl va dinamik ma'lumotlari bo'lgandan keyin GLMEM buni ko'rishi mumkin
shu jumladan, S ENTENCE muhim emas, GLMda esa u muhim. Eng muhimi, qanday qilib -
S EX :S ENTENCE eng muhim o'zaro ta'sir uchun farqlar har doim qiziqish uyg'otadi . Birinchidan, GLM
bu o'zaro ta'sirga 24 marta kichikroq (ya'ni muhimroq) bo'lgan p -qiymatini belgilaydi.
GLMEMga qaraganda. Ikkinchisi va undan ham qiziq tomoni shundaki, yuqoridagi ikkita model foydalanuvchi bilan jihozlangan-aniqlangan
ortogonal kontrastlar - korpus tilshunosligida juda kam uchraydigan boshqa narsa - ko'rish uchun
osongina (i) noma'lum jinsdagi ma'ruzachilar jinsi ma'lum bo'lganlardan farq qiladimi,
va (ii) ayol va erkak ma'ruzachilar o'zlarini boshqacha tutadimi. Chunki GLM qabul qilmaydi
Har bir ma'ruzachining ma'lumotlar nuqtalarining o'zaro bog'liqligi hisobga olinsa, u butunlay boshqacha natijalarni beradi
aniqroq GLMEM dan:
- Ayol va erkakning kontrastiga kelsak , GLM juda katta ahamiyatga ega
koeffitsienti ayollar va erkaklar uchun ahamiyatsiz koeffitsientdan ≈ 2 baravar yuqori
GLMEM dan. Boshqacha qilib aytganda, GLM bu kontrastni juda yuqori baholaydi, ko'p
bu aslida ma'ruzachiga xos xatti-harakatlarga bog'liq.
4-rasm: GLMEM ning yakuniy modelining muhim asosiy effektlari
Ma'lumotlar nuqtalarining o'zaro bog'liqligi e'tiborga olinadi: bashorat qiluvchilarning bashorat qilingan ehtimolga ta'siri
sizdan foydalanish ( men o'rniga ) ( y o'qida)
2 _{Marginal va shartli}_R 2 _{Nakagawa & Schielzeth (2013) mantig'i asosida hisoblab chiqilgan; marginal}
R ²moslikni faqat qat'iy ta'sirlar asosida belgilaydi, shartli R ²barcha effektlar asosida moslikni belgilaydi.
105
Til va tilshunoslik 16(1)
- Ayol va erkakning kontrastiga kelsak , GLM juda katta ahamiyatga ega
Ayollarga nisbatan erkaklar koeffitsienti juda muhim koeffitsientdan 2 baravar yuqori.
GLMER dan ayollarga nisbatan erkaklar uchun aniq. Shunga qaramay, kontrast muhim bo'lsa-da
ikkala modelda ham GLM o'z kuchini haddan tashqari oshirib yuboradi.
Kosmos ushbu ma'lumotlar yoki aralash ma'lumotlarning o'ziga xos xususiyatlarini batafsilroq muhokama qilishga imkon bermaydi.
effektlar va ko'p darajali modellashtirish bu erda (korpusda qo'shimcha ma'lumot olish uchun Gries-ga qarang)
lingvistik kontekst). Biroq, bu aniq bo'lishi kerak edi, korpus ma'lumotlarida sodir bo'ladigan ko'p narsalar
sobit ef emas, balki so'z-/spiker-/fayl-/registrga xos tasodifiy effektlar natijasidir.bizga ta'sir qiladi
Korpus lingvistlari odatda GLMlar yoki boshqa har qanday statistik vositalarga qiziqish bildirishadi
e'tiborga olingan ma'lumotlar nuqtalarining o'zaro bog'liqligi hajmini haddan tashqari oshirib yuborish xavfini tug'diradi va
ta'sirlarning ahamiyati. Ammo bundan ham yomoni , GLMlar baholanmagan bo'lishi mumkin
ta'sirlarning hajmi va ahamiyati - muammo shundaki, yo'nalishni bilishning hech qanday usuli yo'q
muddatidan oldin GLM xatosi. Shuning uchun korpus tilshunoslari rahbarlik qilishlari shart
psixolingvistikadagi so'nggi o'zgarishlar va aralash effektlar/ko'p darajali modellashtirishni markaziy o'ringa aylantiradi
analitik vosita: usiz biz hech qachon ta'sir qanchalik qiziqarli va qanchalik qiziqarli ekanligini bilmaymiz
faqat korpusda namuna olingan ma'lum ma'ruzachilarga bog'liq.
2.4 Vaqtinchalikxulosa
Yuqorida muhokama qilingan taqsimot gipotezasini hisobga olgan holda, birgalikdagi
hodisa ma'lumotlari korpus lingvistikasidagi eng asosiy metodologik vosita va oxirgi bir nechasidir
o'nlab yillar davomida birgalikda sodir bo'lish chastotasiga asoslangan ko'plab hujjatlar va topilmalar yaratildi.
ko'rsatkichlar, birgalikda yuzaga kelish ehtimoli, assotsiatsiya o'lchovlari va boshqa statistik yondashuvlar (ko'pincha
regressiya-analitik usullar). Bu ishlarning aksariyati, albatta, muvaffaqiyatli bo'lgan bo'lsa-da, chunki, chunki
Masalan, b va c dagi yuqori token chastotalari yuqori turdagi chastotalar bilan ijobiy bog'liqdir va
a dagi yuqori token chastotalari noaniq taqsimotlar bilan salbiy bog'liq, qanday qilib aniq emas.
potentsial egri bo'lgan natijalar bu korrelyatsiyalar mavjud bo'lmagan holatlar uchundir. Aharakat qiladigan o'rganish
ko'p so'zli birliklarni aniqlash va bir vaqtning o'zida ushbu barcha AM muammolarini hal qilishga harakat qilish
yuqorida Wahl (davom etmoqda).
Bundan tashqari, takroriy o'lchovlar tabiatiga, shuningdek, ierarxik tuzilishga e'tibor bermaslik
korpus ma'lumotlari nafaqat ko'pgina statistik usullarning asosiy taxminlarini buzadi - bu
ma'lumotlar nuqtalarining mustaqilligi - lekin bizning natijalarimizni oldindan aytib bo'lmaydigan tarzda buzadi. Shunday qilib, ko'pchilik
Yuqoridagi yondashuvlar nisbatan oson yo'llar bo'lib, ular bilan birgalikda sodir bo'lishimizga asoslanishga harakat qilishimiz mumkin
o'rganish yanada mustahkamlanadi; Agar butun korpus tilshunosligi bo'lsa, bu strategiyalarni qo'llamaslik uchun hech qanday sabab yo'q
boshqa fanlarda sodir bo'layotgan voqealar bilan tandemda rivojlanishni xohlaydi.
3. Ko'proq maxsus ilovalar
Yuqorida muhokama qilingan uchta muammo ko'pchilik korpus-lingvistik tadqiqotlarga ta'sir qiladi:
dispersiya yoki taqsimlashda to'planish muammosi har qanday statistik ma'lumotlarga tahdid soladi
chastota ma'lumotlari - chunki ularning barchasi paydo bo'lish va birgalikda sodir bo'lish chastotalarini o'z ichiga oladi. Xuddi shunday,
AM larni hisoblashda ikki yo'nalishlilik va turdagi chastotalar va ularning taqsimlanishining yo'qligi
106
Stefan Th. Gries
birgalikda yuzaga kelgan ma'lumotlarga asoslangan deyarli barcha tadqiqotlar uchun tahdiddir. Biroq, bu vaqtda,
miqdoriy korpus lingvistikasi aniq tilshunoslikda ham tobora mustahkamlanib bormoqda
o'ziga xos, ko'proq ixtisoslashgan muammolarni keltirib chiqaradigan kichik fanlar. Ushbu bo'limda men birini muhokama qilaman
korpus tadqiqotlari jadal rivojlanayotgan ikkita sohadan har biriga misol . §3.1da men muhokama qilaman
Vaqtinchalik tartiblangan korpus ma'lumotlarini pastdan yuqoriga/tadqiqotga asoslangan tarzda o'rganish masalasi
va printsipial/ob'ektiv; §3.2 da men o'quvchilar korpusini tadqiq qilish sohasiga va savolga murojaat qilaman
mahalliy va mahalliy bo'lmagan o'quvchilar korpusi taklif qiladigan narsalardan qanday qilib eng yaxshi foydalanish haqida.
3.1 Temporativ tartiblangan ma'lumotlar va bosqichlarni aniqlash muammosi
Vaqtinchalik tartiblangan korpus ma'lumotlari ikkita farqda muhim rol o'ynayditilshunoslikning turli sohalari.
Bir tomondan, birinchi tilni o'zlashtirish sohasi mavjud. Ushbu sohada korpus ma'lumotlari ikkalasi ham
bo'ylama va kesma va tartibda: (i) ma'lumotlarning bo'ylama tendentsiyalarini aniqlash uchun
yoki undan ko'p bolalar, (ii) tasavvurlar bo'yicha taqqoslanadigan rivojlanish darajasidagi bolalarni aniqlash
tahlil qilish yoki (iii) namunalar hajmini oshirish va/yoki chekka ko‘rsatkichlarni filtrlash uchun ko‘pincha quyidagi imkoniyatlarga ega bo‘lish foydalidir.
bolalar uchun vaqtinchalik ma'lumotlarni turli bosqichlarga guruhlash.
Boshqa tomondan, diaxronik tarixiy korpus tilshunosligi sohasi mavjud bo'lib, unda korpus mavjud
ma'lumotlar - tegishli vaqt oralig'ini hisobga olgan holda - odatda kesma bo'lib, masalan, bir nechta ma'lumotlarni qamrab oladi.
tilning ko'p asrlik tarixi. Tarixiy ma'lumotlar diqqat bilan yig'ilmaganligini hisobga olsak
psixolingvistlar tilni o'zlashtirish korpusi ma'lumotlarini to'plashning boshqariladigan usullari, masalan
Tarixiy ma'lumotlar ko'pincha juda xilma-xildir, shuning uchun bu erda ham vaqtni guruhlarga ajratish foydali bo'ladi.
poral ma'lumotlar va bir vaqtning o'zida printsipial tarzda o'zgarib turadigan ma'lumotlarni tozalash. 5-rasmga misol
bu qiyinchiliklarni hal qiladi. Chap panelda so'zlarning o'rtacha uzunligi (MLU) o'zgarishi ko'rsatilgan.
Sabine Stollning rus tilidan 2 yoshdan 4,5 yoshgacha bo'lgan bitta rus bolasining so'zlari bilan
sotib olish korpusi (batafsil ma'lumot uchun Stoll & Gries 2009 ga qarang) va mavjudligi aniq bo'lsa-da
vaqt o'tishi bilan kutilgan umumiy o'sish, u ko'plab ko'tarilishlar va pasayishlar bilan birga keladi va aniq ajratish yo'q
bosqichlarga bo'linadi. O'ng panelda uchinchi shaxs birlik ( e ) lar nisbatining o'zgarishi ko'rsatilgan
uchinchi shaxs birlik ( e ) lar va ( e ) th ikki asrdan ko'proq vaqt davomida Parsed Corpus Early
Inglizcha yozishmalar va yana, zamonaviy shaklga o'sish kutilmoqda, lekin
yana ko'plab ko'tarilishlar va pasayishlar va vaqt nuqtalarini bosqichlarga bo'lishning turli imkoniyatlari (qarang
Tafsilotlar uchun Gries & Hilpert 2010). ³
3 _{Yo'qmi degan savol tug'ilishi mumkin, Baayen (2010a) mantig'iga binoan, raqamli ma'lumotlarni diskretlashtirish (T}_{IME kabi)}
yoki A GE ) tartib darajali omilga har doim foydalidir. Odatdagidek, javob nima qilishni xohlayotganiga bog'liq
ma'lumotlar bilan. Men Baayen bilan rozi bo'lsam-da, aksariyat hollarda diskretizatsiya kerak emas va
T IME yoki A ning ba'zi versiyalarini o'z ichiga olgan regressiya mos bo'lishi kerak bo'lgan hollarda hatto zararli bo'lishi mumkin.GE sifatida
bir bashoratchi, u xom T IME tartibsizlik yoki ko'rinadiGE qiymatlari (yana 5 - rasmga qarang) muammolarni keltirib chiqaradi
regressiya-analitik yondashuvlar uchun. Gries va Hilpert (2010) T IME ning xom qiymatlari bilan mos keladigan modelni solishtirdilar
T IME ning besh bosqichiga mos keladigan modelga ular o'zgaruvchanlikka asoslangan qo'shni klasterlashdan foydalanishga erishdilar.
(VNC) va oxirgi model mosroq edi. Shunday bo'lsa-da, buni hamma uchun mos keladigan adyol sifatida tushunish kerak emas
tavsiya - bunday qarorlar har bir holatda qabul qilinishi kerak. Masalan, vaziyatda
Quyidagi 6-rasmda ko'rsatilgan ancha monoton tendentsiya, hech bo'lmaganda regressiya-analitik maqsadlarda,
T IME ning xom qiymatlari VNC-dan olingan o'rtacha chastotalarni ishlatish kabi foydali bo'lishi mumkin.
107
Til va tilshunoslik 16(1)
Umumiy o'sish tendentsiyalari mavjudligini korrelyatsiya koeffitsientlari bilan osongina tekshirish mumkin
masalan, Kendall's t yoki boshqalar. Biroq, nafaqat bunday ma'lumotlar taxminlarni buzishi mumkin
tez-tez ishlatiladigan statistik testlar, masalan, chiziqli regressiya, lekin ko'p tez-tez ishlatiladigan statistika
ma'lumotlar haqida juda kam ma'lumot bering. Xususan, bunday statistika har doim ham javob bermaydi
kabi savollar: (i) Farq bormi?ma'lumotlarning o'zgaruvchan bosqichlari, agar shunday bo'lsa, qancha?; (ii) Bularni bajaring
turli bosqichlar tendentsiya turlarini namoyish etadimi?
Birinchi savolga javob berishning tez-tez izlanish usuli, ya'ni quyi tuzilma(lar)ni aniqlash.
korpus ma'lumotlarida, ierarxik klaster tahlili, ma'lumotlar nuqtalarini klasterlarga guruhlaydigan statistik vosita
ballar asosida"juftlik o'xshashligi (masalan, MLU qiymatlari o'rtasidagi farqlar yoki
( e ) s ning foizlari orasidagi farqlar ). Biroq, bunday klaster tahlillari to'g'ridan-to'g'ri amalga oshirilmaydi
bunday vaqtinchalik tartiblangan ma'lumotlarga nisbatan qo'llanilishi mumkin: O'xshashlik matritsasi hisobi, aytaylik, the
( e ) s ning foizlari bir- biridan 150 yil yoki undan ko'proq masofada joylashgan ma'lumotlar nuqtalari uchun juda yuqori o'xshashlikni qaytaradi.
Biroq, klaster tahlili bunday uzoq ma'lumotlar nuqtalarini bir joyga to'plamasligi kerak
tarixiy ma'lumotlar, bir-biridan 150 yoki undan ko'proq yil bo'lishi mumkin bo'lgan ma'lumotlar nuqtalarini guruhlash juda mantiqiy emas.
Xuddi tilni o'zlashtirish ma'lumotlarida 2 yoki undan ortiq yil bo'lishi mumkin bo'lgan ma'lumotlar nuqtalarini guruhlash kabi
kognitiv jihatdan juda oz ma'noga ega.Shunday qilib, klaster-analitikning modifikatsiyasi talab qilinadi
yondashishga ruxsat berishdan ko'ra, uni mahalliy darajada ishlashga majbur qiladijuda uzoq bo'lgan ge ma'lumotlar nuqtalari
alohida.
Bunday yondashuvlardan biri o'zgaruvchanlikka asoslangan qo'shni klasterlashdir (VNC; qarang: Gries & Hilpert 2008).
VNC an'anaviy klasterlash yondashuvlaridan farq qiladi, chunki u faqat vaqtinchalik qo'shni ma'lumotlarga ruxsat beradi.
nuqtalarni birlashtirish kerak. Xususan, bu iterativ yondashuv bo'lib, har bir iteratsiya davomida,
barcha qo'shni (klasterlar) vaqt nuqtalarini ularning o'xshashligini tekshiradi, qaysi ikkitasini (klasterlarni) aniqlaydi.
vaqt nuqtalari bir-biriga eng o'xshash bo'lib, ularni bitta yangi nuqta klasteriga (klaster) birlashtiradi
vaqt va takrorlanadi. Bu yerga, keng tarqalgan vaqt davrlarini birlashtirib bo'lmaydi (diaxronik-
ittifoqdosh yoki sotib olish yo'li bilan) haqiqiy bo'lmagan klaster, ammo bosqichlar va chet elliklar printsipial ravishda aniqlanishi mumkin.
va takrorlanadigan usul.
Oddiy misol sifatida 6-rasmni ko'rib chiqing. Chap panelda uning rivojlanishi ko'rsatilgan
chastotalar/10K so'zlar, chunki Time jurnali korpusida. Shubhasiz, tendentsiya mavjud
5-rasm : Geterogen temporal korpus ma'lumotlariga misollar: birinchi tilda MLU ma'lumotlari
olish (chap panel) va uchinchi shaxs birlik ( e ) lar nisbati (o‘ng panel)
108
Stefan Th. Gries
shuning uchun tez-tez bo'lib bormoqda (va darajali korrelyatsiya bu tendentsiyani ochib beradi
muhim bo'lishi ( t = 0,743, p = 0,005). O'ng panel hali ham kuzatilgan chastotalarni ko'rsatadi
chunki (kulrang), lekin VNC tahlilining natijasini qoplaydi.Ierarxik klasterda odatdagidek
tahlil qilish uchun tahlilchi o'xshashlik ko'rsatkichi va birlashma qoidasini tanlashi kerak va bu tahlil
birinchisi uchun o'zgaruvchanlik koeffitsientlari va ikkinchisi uchun birlashma ishlatildi. VNC algoritmi
keyin uchta klasterni qaytaradi (1920-1950-yillar, 1960-1980-yillar va 1990-2000-yillar) va tahlilchiga imkon beradi
ning o'rtacha kuzatilgan chastotasini hisoblang (va kesilgan gorizontal chiziqlar bilan ifodalang) .
har bir vaqt oralig'ida.
Bunday yondashuv qiziqarli imkoniyatlarga ega. U faqat bosqichlarni aniqlash uchun ishlatilishi mumkin
tarixiy ma'lumotlar, bu o'z-o'zidan qiziqarli bo'lishi mumkin. Keyin, fn da ilgari aytib o'tilganidek. 3, shunga o'xshash
bosqichlar o'z navbatida keyingi tahlillar uchun ham ishlatilishi mumkin, masalan, regressiya-analitik yondashuvlarda.
Shubhasiz, usul rivojlanishni aniqlash uchun tilni o'zlashtirish ma'lumotlariga ham qo'llanilishi mumkin
bolalarning bosqichlari yoki boshqa barcha berilgan odatdagidan tashqari o'zini tutish yozuvlar aniqlash uchun
Ulardan oldin va keyin yozuvlar.
Masalan, 7-rasmda VNCni grammatik chastotalarga qo'llash natijalari ko'rsatilgan
Patricia Clancy's koreys tilidagi koreys bolasining 13 ta yozuvidagi naqshlar (xronologik tartibda)
birinchi tilni o'zlashtirish korpusi (qarang: Clancy 2003). Chap panelda VNC dendrogrammasi ko'rsatilgan
nafaqat uchta alohida ko'p yozuvli klasterni aniqlaydi, balki birinchi yozuvni ham ko'rsatadi,
bola eng kichik bo'lgan joyda, biroz chetga chiqadi. Uchta klaster qabul qilinganda, keyin bitta
har bir klaster uchun o'rtacha (normallashtirilgan) paydo bo'lish chastotalarini hisoblashi mumkin. Bunday holda, mumkin
quyidagi tendentsiyalarga qarang:
- Vaqt o'tishi bilan nol kamroq bo'ladi;
- Vaqt o'tishi bilan P tez-tez uchraydi;
- N va DP ko'p o'zgarmaydi / sezilarli.
6-rasm: T.ning bir necha o'n yilliklar davomida chastotasining rivojlanishimen
jurnal:chastota/10K so'zlar (chap panel) va klasterli uch klasterli VNC dendrogrammasi
o'rtacha chastotalar (o'ng panel)
109
Til va tilshunoslik 16(1)
Yuqoridagilarning barchasida VNC o'lchangan ma'lumotlar bir xil bo'lishi mumkin bo'lgan ma'lumotlarda ishlatilgan
(faqat bir chastotada bo'lgani kabi ) yoki ko'p o'zgaruvchan (bir nechta chastotalar
grammatik naqshlar) tilni o'zlashtirish ma'lumotlarida bo'lgani kabi), lekin qaerda o'lchov qaysi bo'ylab
klasterlash sodir bo'ldi va VNC uni qo'shni elementlar bilan cheklab qo'ydi.
o'lchovli: vaqt. Yana bir qiziqarli kengaytma ishlatilmoqdaU erda ma'lumotlarni tahlil qilish uchun VNC
miqdoriy dialektologiyada geografik ma'lumotlarni o'rganish kabi bir nechta o'lchovdir
sozlash va muntazam ierarxik klaster algoritmining geografik jihatdan birlashishini oldini olishni xohlaydi
juda uzoq hududlar. VNC algoritmi mos ravishda sozlanishi mumkin. 8-rasmda an ko'rsatilgan
62 leksik-grammatik uchun normallashtirilgan chastotalarni ta'minlaydigan matritsaga VNCni qo'llash
Buyuk Britaniyaning 30 dan ortiq mintaqalari uchun xususiyatlar. Agar qaysi mintaqalar paydo bo'lishini aniqlamoqchi bo'lsangiz
chastota ma'lumotlari, ammo, ehtimol, Banffshire (BAN) ni birlashtirishni istamaydi
Janubiy Devon (DEV) bilan. Shunday qilib, VNC algoritmi faqat klasterlash imkonini beradigan tarzda o'zgartiriladi
boshqa okruglar yonida joylashgan okruglar soni, boshqa okruglar esa alohida yoki alohida bo'lishi mumkin
allaqachon birlashtirilgan okruglar klasterining bir qismi sifatida.
8-rasmda takrorlash jadvalining uch xil bosqichi ko'rsatilgan:
- Chap panelda birinchi kichikroq klasterlar asosan janubda paydo bo'lgan (bir
Kornuoll va Devon viloyatlarida va Kent, Sharqiy Suffolk va London viloyatlarida)
shuningdek, bitta kichik Dumfriesshire va Manchester atrofida kattaroq.
- Markaziy panelda janubning katta qismi endi bir-biriga bog'langan (garchi Kornuoll/Devon
qolganlardan alohida qolish); o'rta sohada ko'p narsa o'zgarmadi.
- O'ng panelda mamlakatning aksariyat qismi shimoldan tashqari o'zaro bog'langan -
Banffshire, Sazerlend, Ross va Gebridlar atrofida.
7-rasm: VNC ning tilni o'zlashtirish ma'lumotlariga qo'llanilishi:VNC chastotalarini tahlil qilish
V ismli bolaning 13 ta yozuvining grammatik naqshlarienceng (chap panel); o'rtacha chiziq chizmalari
VNC tahlilida aniqlangan uchta yosh klasteridagi naqshlarning foizlari (o'ng panel) (ma'lumotlar
hurmati bilan P.M. Clancy)
110
Stefan Th. Gries
Shunday qilib, VNC (metodik jihatdan ancha murakkab) domeniga hissa qo'shishi mumkin
korpus-lingvistik tasvirlangan hududlarda tuzilmalarni aniqlashga yordam berish orqali miqdoriy dialektologiya
fonida talqin qilinishi mumkin bo'lgan mamlakat yoki boshqa yirik mintaqalar
boshqa empirik yoki nazariy ishlar. Tarixiy korpusning mavjudligini hisobga olgan holda va
mintaqaviy tabaqalashtirilgan korpus, shuning uchun bu usul korpus-lingvistikaga foydali qo'shimcha bo'lishi mumkin
asboblar to'plami.
3.2 O'quvchilar korpusini tadqiq qilish va pretishmayotgan/qashshoqlashgan kontekst oblem
Bu erda muhokama qilinadigan yakuniy korpus-lingvistik soha bu o'quvchilar korpusini tadqiq qilish, ya'ni
ona tili bo'lmagan (NNS) nutqi va/yoki o'z ichiga olgan korpuslarni o'rganuvchi korpus tilshunosligi bo'limi
yozish. O'sish sur'atlarini hisobga olgan holda so'nggi 15 yil ichida bu soha tobora faollashdi
mavjudligi o'quvchilar korpusi. Ushbu ishning aksariyati NNS tili ma'nosida qarama-qarshidir
o'quvchining maqsadi, shuningdek, uning L1(lar)i va ortib borayotgan ish hajmi bilan taqqoslanadi
o'quvchilar korpusi ma'lumotlariga kognitiv ma'lumotli nuqtai nazardan yondashadi. Afsuski, ko'pchilik
Ushbu sohadagi tadqiqotlar miqdoriy jihatdan juda sodda va haddan tashqari ta'riflar bilan cheklangan.
va NNS tilidagi lingvistik elementlarning bir yoki ikki o'zgaruvchanlik bilan birga kam qo'llanilishi
chi-kvadrat testlari. Bunga misollar kiradi:
8-rasm: VNC ning ikki o'lchovli geografik ma'lumotlarga kengayishi: uchta iteratsiya
(#14 (chapda), #20 (o'rtada), №31 (o'ngda)) Britaniya okruglarini chastotalar asosida klasterlashdan
leksik-grammatikxususiyatlar (ma'lumotlar B. Szmrecsanyi tomonidan berilgan; qarang: Szmrecsanyi & W2011 yil
turli tahlillar, muhokamalar va boshqa havolalar uchun)
111
Til va tilshunoslik 16(1)
- Aijmer (2002), u NS ingliz tilida modal fe'llarning qo'llanish chastotalarini o'rganadi.
LOCNESS corpus) va NNS English (ICLE corpus shved komponentida) bilan
bir nechta chi-kvadrat testlari.
- Altenberg (2002), ingliz tilidan foydalanish chastotalari/foizlarini muhokama qiladi va
shvedchato'rt xil konstruktiv naqshda go'ra va "boshqa"kategoriya.
- Hasselgård va Yoxansson (2011) dan foydalanish holatlarini o'rganishLOCNESS korpusida
va ICLE Korpusining to'rtta komponenti (Norvegiya, Germaniya, Frantsiya va Ispaniya) o'z ichiga oladi
Chi-kvadrat testlari juda chastotani (ham o'z-o'zidan, ham kolligatsiya bilan) taqqoslaydi.
ICLE komponentlarini uning LOCNESS chastotasiga.
Odatda, bunday miqdoriy tahlillar nafaqat yuqorida ko'tarilgan barcha muammolar tufayli,
balki ular o'z ona tili bo'lmagan va ona tilida so'zlashuvchilarni solishtirmaydi/qiyoslamayapti
til o'xshash vaziyatda qiladi '(Peri-Voodley 1990:143, Granger 1996:43 dan iqtibos keltirdi,
bizning e'tiborimiz). Buning sababi shundaki, ko'plab tadqiqotlar taqqoslanadigan vaziyat tushunchasini bitta holatga qisqartiradi
birgalikda yuzaga keladigan omil/bashoratchi, masalan, qachonAltenberg (2002) bittaga asoslangan make dan foydalanishni o'rganadi
bashorat qiluvchi - birgalikda yuzaga keladigan naqshlar - yoki Hasselgård & Johansson (2011)
juda bir bashoratchiga asoslangan foydalanish - uning kollegatsiyasi. Birgalikda belgilovchi ko'plab omillarni hisobga olgan holda, aytaylik:
yaqin sinonim so‘zlar turkumining qaysi so‘zi tanlangan yoki ikki yoki undan ortiq grammatik so‘zlardan qaysi biri tanlangan
inshootlar tanlanadi, bunday tadqiqotlar qattiq qashshoqlikdan boshqa narsa bo'lishi mumkin emas.
Shunday qilib, agar o'quvchilar korpusini o'rganishning maqsadi ona tilida so'zlashuvchi (NS) qandayligini aniqlash bo'lsa
va NNS tili bir-biridan farq qiladi, taqqoslanadigan vaziyatning yanada kengroq ta'rifi kerak, bu
odatda so'z/naqsh misollarining bir nechta xususiyatlarini izohlashni talab qiladi
savol. Bu, o'z navbatida, ushbu ko'plab xususiyatlarning barchasi statistik ma'lumotlarga kiritilishi kerakligini anglatadi
Ushbu xususiyatlardan qaysi biri kompaniyaga qanday ta'sir ko'rsatishini aniqlash uchun tahlil qilish
boshqa barcha xususiyatlar. TBularning barchasini amalga oshirishning asosiy imkoniyatlari mavjud: ikkalasi ham korpus ma'lumotlarini talab qiladi
NS va NNS ma'lumotlaridan olingan va bo'lgan ko'rib chiqilayotgan E elementida
Ideal holda, ishonish uchun asos bo'lgan barcha xususiyatlarni hisobga olgan holda izohlanadini tanlashga imkon beradi
E . Keyin, birinchi navbatda, regressiyaga mos kelishi mumkin, unda:
- To'g'ri o'zgaruvchi ikkilik yoki politomli tanlovdir (ikkilik yoki ko'p to'plam uchun)
mial logistik regressiya) yoki chastota (Puasson regressiyasi uchun); tanlash uchun
ning -ga nisbatan s -genitivlari, bu G ENITIVE ikkilik o'zgaruvchisi bo'ladi :ning qarshi s.
- Bashorat qiluvchilar barcha izohli xususiyatlar, shuningdek, ularning statistik o'zaro ta'siri (odatda
faqat ikkinchi yoki uchinchi darajagacha); - va s -genitivlarni tanlash uchun bu mumkin
ega va eganing jonivorligi, eganing uzunligi va uzunligi kiradi.
egalik, ega va eganing berilganligi va boshqalar; ideal holda, bu
ma'lumotlar talab qilganidek, tasodifiy effektlarga ega aralash effektlar/ko'p darajali model bo'ladi.
savol(lar).
- Oldingi o'q nuqtasidagi barcha bashoratchilarga ham a bilan o'zaro ta'sir o'tkazishga ruxsat beriladi
C ORPUS yoki L1 deb nomlangan bashoratchi.
Oxirgi ikki yo'riqnomaning mantiqiy asosi nima? Ikkinchi yo'riqnomaning mantiqiy asosi
Agar o'zaro ta'sirni o'z ichiga olmasa, aytaylik:A NIMACY P OSSESSOR : A NIMACY P OSSSESS , keyin bir bor
112
Stefan Th. Gries
s -genitives uchun jonli egalarning afzalligi to'g'ri keladimi yoki yo'qligini aniqlashning hech qanday usuli yo'q.
eganing konkretmi yoki yo'qligi haqida. Uchinchi yo'l-yo'riqning asosi shundaki, agar shunday bo'lsa
o'zaro ta'sirni o'z ichiga olmaydi, aytaylik,A NIMACY P OSSESSOR :L1, keyin yoki yo'qligini aniqlashning imkoni yo'q
s -genitives uchun jonli egalarning afzalligi ham NS, ham bir yoki bir nechta NNS guruhlarida mavjud.
bir xil darajada (barcha boshqa (muhim) bashorat qiluvchilarning mavjudligini hisobga olgan holda), bu aniq
Ko'pchilik o'quvchilar korpusini o'rganishni qiziqtiradigan, lekin ko'pincha javob bera olmaydigan savol
juda kam tegishli bashorat qiluvchilar kiritilgan (qarang: Gries & Wulff 2013 va Gries & Deshors
Misollar va muhokama uchun 2014).
Ikkinchi yondashuv mavjud (multifaktorial bashorat va og'ish uchun MuPDAR deb ataladi
Regressiyalar bilan tahlil qilish) bu yanada istiqbolli. U quyidagi bosqichlarni o'z ichiga oladi:
(i) Yuqoridagi birinchi ikkita nuqtaga mos keladigan birinchi regressiya R _{1ni moslang, lekin faqat}
NS ma'lumotlari.
(ii) Agar va faqat agar R ₁yaxshi moslik va tasniflash aniqligiga olib kelsa, regressni qo'llang.
Shunday qilib , har bir NNS ma'lumot nuqtasi uchun olish uchun R ₁ dan NNS ma'lumotlariga sion tenglamasi olinadi
bir NS juda bir xil vaziyatda nima qilgan bo'lardi, bir bashorat, qaysi xizmat qiladi
oltin standart sifatida.
(iii) Agar R ₁ning NS regressiya tenglamasi ham nisbatan yaxshi mos keladigan bo‘lsa,
NNS ma'lumotlari, R ₂ ikkinchi regressiyaga mos keladi, unda qaram o'zgaruvchi hozir a bo'ladi
NNS NS bilan bir xil tanlov qilgan yoki yo'qligini ko'rsatadigan ikkilik o'zgaruvchi ( ha qarshi
yo'q ) qilgan bo'lardi, yoki doimiy o'zgaruvchi NNS tanlovining qancha miqdorini aniqlaydi
NS aytishi/yozishi kutilgan narsa bilan solishtirildi (agar NNS bo'lsa, bu o'zgaruvchi 0 ga teng.
NS va noldan boshqa raqamni tanladi, lekin agar bo'lmasa -1 va +1 orasida).
Aynan shu regressiya yondashuvi o'quvchilar korpusining asosiy savoliga aniq javob beradi
tadqiqot - NNS kerak bo'lgan bu lingvistik va ehtimol kontekstual jihatdan murakkab vaziyatda
tanlov qil, u o'ziga xos tanlov qildimi, 'Yes yoki yo'q?'. Va bu regressiya yondashuvi
taqqoslanadigan vaziyatning har tomonlama ta'rifini talab qiladi va shu bilan birga kafolatlaydi -
Umid qilamanki, NNS kerak bo'lgan vaziyatni tavsiflovchi ko'plab izohli omillar
tanlov qiling.
Gries & Adelman (2014) ushbu yondashuvdan foydalanadigan tadqiqotdir:
(i) Birinchi aralash effektli regressiya R _{1ni moslashtiring,}u yapon NS mavzuni tushunadimi yoki yo‘qligini modellashtiradi
jumlada sub'ektning ko'rsatuvchisi qarama-qarshilik (o'zgaruvchi
C ONTRAST deb ataladi) va qanday berilganligi (G IVENNESS deb nomlangan o'zgaruvchi ).
(ii) R ₁ dan olingan regressiya tenglamasini ona tili bo'lmagan yapon tilida so'zlashuvchilarga qo'llang
har bir NNS ma'lumot nuqtasi uchun NS bo'ladimi yoki yo'qligini bashorat qilish uchun korpus ma'lumotlari
mavzuni o'sha erda tushundim, ha yoki yo'q.
(iii) Tobe oʻzgaruvchi ikkilik boʻlgan R ₂ ikkinchi aralash effektli regressiyani moslang
NNS NS bilan bir xil tanlov qilgan yoki yo'qligini ko'rsatadigan o'zgaruvchi ( ha va yo'q ).
G IVENNESS bashoratchini modellashtirish uchun ikkinchi darajali ko'phaddan foydalanib , ular buni topadilar
NNS umuman olganda NS xatti-harakatlariga juda yaqin, lekin (i) turli ma'ruzachilar juda ko'p namoyon bo'ladi
113
Til va tilshunoslik 16(1)
turli xil malaka darajalari, va (ii) barcha NNS mahalliy kabi tanlovlar qilish bilan eng ko'p kurashadi
berilganlik va qarama-qarshi bo'lmagan referentlarning o'rta darajalari:
- Referent qarama-qarshi bo'lsa, ular buni NS kabi sub'ekt pozitsiyasida tushunadilar.
- Referent kontrastli bo'lmagan va juda berilgan yoki butunlay yangi bo'lsa, ular bunday qilmaydi
uni sub'ekt pozitsiyasida anglab eting yoki NS kabi mavzu pozitsiyalarida amalga oshiring.
- Referent qarama-qarshi bo'lmagan va biroz berilgan bo'lsa, unda bu o'rta-
berilganlik darajasi, ularning mahalliylik darajasi pasayadi.
Biroq, bu yondashuvni yanada takomillashtirish va rivojlantirish kerak. Gap-so'zsiz
u kognitiv va kontekstual jihatdan ancha real va statistik jihatdan ko'proq mos keladi
kontekstsizlashtirilgan chastotalar va/yoki chi-kvadrat testlariga qaraganda. Shunday qilib, yana bir bor umid qilish kerak
Bu kabi analitik strategiyalar o'quvchilar korpusini tadqiq qilishda, tadqiqotlarida ko'proq o'rin egallaydi
navlari va korpus ma'lumotlarining bir qismini standart yoki deb hisoblash mumkin bo'lgan boshqa har qanday domen
boshqalarni mazmunli taqqoslash mumkin bo'lgan maqsad.
4. Xulosaizohlar
Qisqacha xulosa qilib aytadigan bo'lsak, korpus lingvistikasi so'nggi yillarda juda katta yutuqlarga erishdi.
o'tgan. To geografik jihatdan biroz cheklangan, unchalik keng qo'llanilmaydigan usuldan o'sadi
Shimoliy va Markaziy Evropaning bir qancha mamlakatlarida eng ko'p qo'llaniladigan usullardan biri
15-20 yil ichida dunyo bo'ylab har xil nazariy e'tiqodlarning tilshunosligi kichik muvaffaqiyat emas. Qanday-
Hech qachon, bizning yutuqlarimiz bilan dam olish vaqti emas - endi korpus lingvistikasi asosiy oqimga aylandi va
bu yaxshi narsa, biz ham boshqa sohalar kabi o'z uslubimizni takomillashtirishda davom etishimiz kerak. Ko'pchilik
psixolingvistika va hisoblash tilshunosligining sohalari qiziqarli kashfiyotlar qildi, bor
foydali vositalarni ishlab chiqdi, qo'shni sohalardan ajoyib usullarni o'zlashtirdi, lekin korpus lingvistikasi
afsuski, to'plamda etakchi emas va nuqtai nazaridan ham tezligini yo'qotmaslik uchun ehtiyot bo'lish kerak
o'zining evolyutsiyasi yoki umuman tilshunoslikni shakllantirishga qanday yordam berishi nuqtai nazaridan. Hozirgi qog'oz
umuman korpus lingvistikasida ham, hozirgi muammolarning ham qisqacha tasvirini berishga urinish
tanlangan dolzarb mavzularda, shuningdek, qanday qilib engish bo'yicha g'oyalar va (birinchi) takliflarni taqdim etish
bu muammolar bilan; Umid qilamanki, u (uslubiy) qurollarga chaqiruv sifatida muvaffaqiyatli bo'ladi va shuning uchun tetik
sohamizning yana bir bor rivojlanishiga yordam beradigan o'zgarishlar.
Ma'lumotnomalar
Aymer, Karin. 2002. Ilg'or shved o'quvchilarida modallik.yozma tillararo. Kompyuter
O'quvchi korpusi , ikkinchi tilni o'zlashtirish va chet tili Thar bir, ed . Sylvi-
Granjer, Jozef Hung va Stefani Petch-Tyson, 55-76. Amsterdam va Filadelfiya: Jon
Benjamins.
Altenberg, Bengt. 2002. O'quvchilar korpusini tadqiq qilishda ikki tilli korpus dalillaridan foydalanish. Kompyuter
O'quvchi korpusi , ikkinchi tilni o'zlashtirish va chet tili Thar bir, ed . Sylvi-
Granjer, Jozef Hung va Stefani Petch-Tyson, 37–54. Amsterdam va Filadelfiya: Jon
Benjamins.
114
Stefan Th. Gries
Baayen, R. Xarald. 2010a. Ahaqiqiy tajriba faktoriy tajribami? Ruhiy leksika 5.1:
149–157.
Baayen, R. Xarald. 2010b. So'z chastotasining ta'sirini demitologiyalash: diskriminativ o'rganish
nuqtai nazar. Ruhiy leksika 5.3: 436–461.
Casenhiser, Devin vaAdele E. Goldberg. 2005. Frazali shakl va ma'no o'rtasidagi tezkor xaritalash.
Rivojlanish fanlari 8.6: 500–508.
Klansi, Patrisiya M. 2003 yil.O'zaro ta'sirdagi leksika: afzal argumentning rivojlanish kelib chiqishi
Koreys tilida tuzilish. Afzaled Argument Structure: Funktsiya uchun arxitektura sifatida grammatika , ed.
tomonidan Jon V. Du Bois, Lotaringiya E. Kumpf va Uilyam J.Ashby, 81-108.Amsterdam va Filadel -
phia: Jon Benjamins.
Klark-Sanches, Viktoriya. 2013. Miqdoriy korpus tilshunosligini R bilan ko'rib chiqish: Amaliy
Kirish . Korpora 8.2: 269–272.
Daudaravi čius , Vidas, & R ū ta Marcinkevi č ien ė . 2004. ning chegaralari uchun tortishish hisoblanadi
birikmalar. Korpus lingvistikasi xalqaro jurnali 9.2:321–348.
Ellis, Nik C. 2006. Tilni o'zlashtirish oqilona tasodifiy o'rganish sifatida. Amaliy tilshunoslik
27.1: 1–24.
Ellis, Nik C., Rita Simpson-Vlach va Karson Maynard. 2007. Formulalarni mahalliy tilida qayta ishlash
va L2 ma'ruzachilar: psixolingvistik va korpus determinantlari. UWM da taqdim etilgan maqola
Formulaik til bo'yicha tilshunoslik simpoziumi, 2007 yil 16-21 aprel. Miluoki: Universitet
Viskonsin-Miluoki.
Evert, Stefan. 2009. Korpora va birikmalar. Korpus tilshunosligi: xalqaro qo'llanma ,
Vol. 2, ed. Anke Lüdeling va Merja Kytö tomonidan, 1212–1248. Berlin va yangiYork: Mouton de Gruyter.
Birinchisi, Jon R. 1957. Atilshunoslik nazariyasi konspekti 1930–55. Lingvistik tahlil bo'yicha tadqiqotlar , 1-32.
Oksford: Bazil Blekvell.
Grenjer, Silvian. 1996. CAdanMarkaziy razvedka boshqarmasi va orqaga: kompyuterlashtirilgan ikki tilli integratsiyalashgan yondashuv
va o'quvchilar korpusi. Qarama-qarshi tillar: T.ga bag'ishlangan simpoziumdan ma'ruzalarext-asoslangan
Kross-lingvistik tadqiqotlar , Lund , 1994 yil 4-5 mart , ed. Karin tomonidanAymer, Bengt Altenberg & Mats
Yoxansson, 37-51. Lund: Lund universiteti nashriyoti.
Gris, Stefan Th. 2008. Korporadagi dispersiyalar va sozlangan chastotalar. Xalqaro jurnali
Korpus tilshunosligi 13.4: 403–437.
Gris, Stefan Th. 2010a. Korpus tilshunosligida uslubiy ko'nikmalar: polemik va ba'zi ko'rsatkichlar
miqdoriy usullarga. Tildagi korpus lingvistikasi Thar bir, ed . Toni Xarris va
Mariya Moreno Jaen, 121–146. Frankfurt-Mayn: Piter Lang.
Gris, Stefan Th. 2010b. Registrlar, domenlar va navlardagi bigrammalar: gravitatsiyaga Biggram yondashuvi
korpusning bir xilligi. 2009 yil 20-23 iyul, 2009 yil 20-23 iyulda Korpus Lingvistikasida taqdim etilgan maqola.
Liverpul: Liverpul universiteti. http://ucrel.lancs.ac.uk/publications/cl2009.
Gris, Stefan Th. 2010c. Korporadagi dispersiyalar va sozlangan chastotalar: keyingi tadqiqotlar.
Korpus lingvistik ilovalari: joriy tadqiqotlar , yangi direktorections , ed. Stefan Th tomonidan Gries,
Stefani Vulff & Mark Davies, 197–212. Amsterdam va Nyu-York: Rodopi.
Gris, Stefan Th. 2011. Korpus lingvistikasida metodologik va fanlararo pozitsiya. Perspektivlar
Korpus tilshunosligi bo'yicha: aloqalar va qarama -qarshiliklar , ed. tomonidan Vander Viana, Sonia Zyngier va
Jeffri Barnbruk, 81–98.Amsterdam va Filadelfiya: Jon Benjamins.
115
Til va tilshunoslik 16(1)
Gris, Stefan Th. 2013 yil. 50-yillik qo'shma birikmalar ustida ish: keyingi nima yoki nima bo'lishi kerak ...
Korpus lingvistikasi xalqaro jurnali 18.1:137–165.
Gris, Stefan Th. (kelgusi). Korpus tilshunosligida eng kam qo'llaniladigan statistik usul: ko'p
darajali (va aralash effektli) modellar. Korpora 10.1.
Gries, Stefan Th., &Allison S. Adelman. 2014. Yaponcha suhbatda mavzuni mahalliy tomonidan amalga oshirish
va ona tili bo'lmaganlar: o'quvchilar korpusini tadqiq qilish uchun yangi paradigma namunasi. Yeshitish kitobi
Korpus lingvistika va pragmatika 2014: Yangi empirik va nazariy paradigmalar , 35–54.
Berlin va Nyu-York: Springer.
Gris, Stefan Th. va Sandra C. Deshors. 2014. orasidagi og'ishlarni o'rganish uchun regressiyalardan foydalanish
korpus ma'lumotlari va standart/maqsad: ikkita taklif. Korpora 9.1: 109–136.
Gris, Stefan Th. va Martin Hilpert. 2008. Diaxronik ma'lumotlarda bosqichlarni aniqlash: o'zgaruvchanlik-
qo'shni klasterga asoslangan. Korpora 3.1:59–81.
Gris, Stefan Th. va Martin Hilpert. 2010. III shaxsning diaxronik oʻzgarishini modellashtirish:
multifaktorial, fe'l va muallifga xos kashfiyot yondashuvi. Ingliz tili va tilshunoslik -
tics 14.3: 293–320.
Gris, Stefan Th. va Joybrato Mukherji. 2010. Ingliz tilining navlari bo'yicha leksik tortishish: an
Osiyo inglizlarida n -gramlarni ICE asosida o'rganish . Korpus lingvistikasi xalqaro jurnali
15.4:520–548.
Gris, Stefan Th. va Stefani Vulff. 2013. Xitoy va nemis ESL tillarida genitiv almashinish
o'quvchilar: o'quvchilar korpusini tadqiq qilishda ko'p faktorli kontekst tushunchasiga. Xalqaro
Journal of Corpus Linguistics 18.3:327–356.
Xarris, Zellig S. 1970. Strukturaviy va transformatsion tilshunoslik bo'yicha maqolalar . Dordrext: Reidel.
Hasselgård, Xilde va Stig Yoxansson. 2011. O'quvchilar korpusi va kontrastli tillararo tahlil.
DAKorpora uchun aste: Sylviane Granger sharafiga , ed. Fanni Meunier, Silvi De Kok,
Gaëtanelle Gilquin va Magali Paquot, 33–61. Amsterdam va Filadelfiya: Jon Benjamins.
Janda, Laura A. (ed.) 2013. Kognitiv tilshunoslik: Miqdoriy Turn . Berlin va Nyu-York:
De Gruyter Mouton.
Jozef, Brayan. 2004. Tilning o'zgarishi va tilning o'zgarishi haqida. Til 80.3:381–383.
McDonald, Scott A. va Richard C. Shillcock. 2001. So'z chastotasini qayta ko'rib chiqish effect: the
leksik qayta ishlashda tarqatuvchi ma'lumotlarning e'tibordan chetda qolgan roli. Til va nutq 44.3:
295–322.
Mishelbaxer, Lukas, Stefan Evert va Hinrich Shutse. 2007 yil.Assimetrik assotsiatsiya choralari.
Tabiiy tilning so'nggi yutuqlari bo'yicha xalqaro konferentsiyada taqdim etilgan ma'ruza
Qayta ishlash (RANLP 2007), 27-29 sentyabr, 2007 yil. Borovets, Bolgariya.
Mishelbaxer, Lukas, Stefan Evert va Hinrich Shutse. 2011. Korpusdan olingan va assimetriya
insoniy so'z birikmalari. Korpus tilshunosligi va lingvistik nazariya 7.2: 245–276.
Mollin, Sandra. 2009. Soʻzlarning qoʻshma kelishiga oid korpus lingvistik va psixologik maʼlumotlarni birlashtirish:
korpus so'z birikmalariga nisbatan qo'shma joylashadi. Korpus tilshunosligi va lingvistik nazariya 5.2:
175–200.
Nakagava, Shinichi va Xolger Schielzeth. 2013. Adan R ²ni olishning umumiy va oddiy usuli
umumlashtirilgan chiziqli aralash effektli modellar. Ekologiya va evolyutsiyadagi usullar 4.2: 133–142.
Peri-VUdli, Mari-Paule. 1990. Qarama-qarshi nutqlar: kontrastli tahlil va nutq
yozishga yondashuv. Til Thar biri 23.3: 143–151 .
116
Stefan Th. Gries
R Yadro Team. 2014. R: statistik hisoblash uchun til va muhit. uchun R fondi
statistik hisoblash. VIenna, Avstriya. http://www.R-project.org/.
Rekkiya, Gabriel, Brendan T. Jons va Maykl N. Jons. 2008. Kontekstni takrorlashning afzalliklari
kontekstning ortiqchaligiga bog'liq. PrKognitivning yillik konferentsiyasi
Ilmiy jamiyat 30:267–272.
Simpson-Vlach, Rita va Nik C. Ellis. 2005. Akademik formulalar roʻyxati (AFL): chiqarish, tekshirish,
ustuvorlik. Maqola "Frazeologiya 2005", 2005 yil 13-15 oktyabr. Louven-la-Neuve:
Luvain katolik universiteti.
Stefanovitsch, Anatol va StefanTh. Gries. 2003. Collostructions: ning o'zaro ta'sirini tekshirish
so'zlar va konstruktsiyalar. Korpus lingvistikasi xalqaro jurnali 8.2:209–243.
Stoll, Sabine va Stefan Th. Gries. 2009. Korporativ rivojlanishni qanday o'lchash mumkin?Uyushma
kuchli yondashuv. Bolalar tili jurnali 36.5: 1075–1090.
Szmrecsanyi, Benedikt va Kristof Volk. 2011. Holistik korpusga asoslangan dialektologiya. braziliyalik
Amaliy tilshunoslik jurnali 11.2:561–592.
Vahl, Aleksandr R. (davom etmoqda). Multi-worni chiqarishga yangi yondashuvlard dan ifodalar
Korpora: oldindan belgilanmagan Ngram uzunliklari ,Uzoq masofali bog'liqliklar va kengaytirilgan assotsiatsiyalar
tsion chora-tadbirlari . Santa Barbara: Santa Barbaradagi Kaliforniya universiteti dissertatsiyasi.
[2013 yil 30 dekabrda olingan; 2014 yil 18 aprelda qayta ko'rib chiqilgan; 2014 yil 27 iyunda qabul qilingan]
Tilshunoslik kafedrasi
Santa Barbaradagi Kaliforniya universiteti
Santa Barbara, CA 93106-3100
AQSH
stgries@linguistics.ucsb.edu

Download 76.69 Kb.

Do'stlaringiz bilan baham: