Korpusdagi ba'zi hozirgi miqdoriy muammolar Tilshunoslik va ba'zi echimlar eskizi
Download 76.69 Kb.
|
Korpusdagi ba
Korpusdagi ba'zi hozirgi miqdoriy muammolar Tilshunoslik va ba'zi echimlar eskizi Stefan Th. Gries Kaliforniya universiteti , Santa Barbara Ushbu maqolada hozirgi miqdoriy korpus tilshunosligining turli uslubiy muammolari ko'rib chiqiladi. Biroz Muhokama qilingan muammolar umuman korpus lingvistikasidan, masalan, dispersiyaning ta'siri, tip chastotalari/ entropiyalar va yo'nalish (kerak) assotsiatsiya o'lchovlarini hisoblashda, shuningdek, ta'sir qiladi. statistik tahlilda korpusning tanlab olish tuzilishiga e'tibor bermaslik mumkin. Boshqalar esa ko'proq ixtisoslashgan Hozirgi vaqtda korpus-lingvistik ish jadal rivojlanayotgan sohalar, masalan, tarixiy tilshunoslik va o'quvchilar korpusi tadqiqot. Muammolarning har biri uchun ushbu muammolarni qanday hal qilish mumkinligi haqidagi birinchi g'oyalar/ko'rsatmalar berilgan va ba'zi bir batafsil misollar. Kalit so'zlar:assotsiatsiya choralari, aralash effektlar/ko'p darajali modellashtirish, MuPDAR, token/turdagi chastotalar, o'zgaruvchanlikka asoslangan qo'shni klasterlash 1.Kirish Bir necha o'n yillar davomida korpus lingvistikasi eng tez rivojlanayotgan metodologiyalardan biri bo'lib kelgan. tilshunoslik fanlari. Misol uchun , Jozef Til muharriri sifatida o'zining chiquvchi ustunida (2004:382) korpus va internet ma'lumotlarining ko'payishi haqida aniq izohlar; yana bir misol Janda (2013), u kognitiv-lingvistik nazariya, xususan, qanday yo'llarni batafsil muhokama qiladi. “miqdoriy burilish”ni amalga oshirdi. Ushbu rivojlanish va bir oz aniq kuzatuvni hisobga olgan holda korpusda chastotalar/ehtimollardan boshqa hech narsa yo'q - yuzaga kelishi yoki birgalikda paydo bo'lishi - bu emas Ajablanarlisi shundaki, tilshunoslik umuman olganda ko'proq miqdoriy/statistik xarakterga aylangan, bu tendentsiya korpus lingvistikasida ham guvoh bo‘lamiz: Masalan, bundan 10-15 yil avval ancha bo‘lgan bo‘lardi. korpus-lingvistik maqolalarda multifaktorial statistik usullarga ega hujjatlarni topish qiyin - hozir, monofaktorial statistik testlar hech bo'lmaganda ancha tez-tez uchraydi va multifaktorial statistik usullar ortib bormoqda. Bunday ijobiy rivojlanishga qaramay, tilshunoslik sohasidagi o'zgarishlar sekin va korpus tilshunoslik, xususan, ikki jihatdan cheklangan: Birinchisi, ehtimol, ma'noda hisoblash usullarida korpus tilshunoslarining ko'pchiligi hali ham ko'pincha tijorat va mulkiy kichik to'plamga tayanmoqda Korpusni qidirish vositalarining bir turi (masalan, VordSmit Tools, MonoConc Pro yokiAntConc); Bu jiddiy cheklovlarni hisobga olgan holda (qarang: Clark-Sánchez 2013; Gries 2010a, 2011), bu Endi tobora ko'proq amaliyotchilar ushbu cheklovlarga o'tish orqali barcha cheklovlardan qochishlarini ko'rish quvonarli R yoki Python kabi dasturlash tillari. Cheklovning ikkinchi turi statistik usullarni o'z ichiga oladi: Statistikaning umumiy miqdori esa- bu boradagi tajriba ortib bormoqda, korpus lingvistlari ham o'z tajribalarini kengaytirishlari va chuqurlashtirishlari kerak keng qo'llaniladigan bir nechta usullardan tashqariga chiqish. Bu bilan men nafaqat korpus tilshunoslarini nazarda tutyapman Til va tilshunoslik 16(1) 93–117 © Muallif(lar) 2015 Qayta chop etish va ruxsatnomalar: sagepub.co.uk/journalsPermissions.nav DOI: 10.1177/1606822X14556606 lin.sagepub.com Maqola 94 Stefan Th. Gries ko'proq turli statistik testlardan foydalanish kerak (bu odatda to'g'ri bo'lsa-da, ma'lum bir tanlov test, albatta, ko'pincha muayyan tadqiqot savoliga bog'liq), lekin bo'lishi kerak Korpus tilshunoslari an'anaviy ravishda qiladigan ba'zi tanlovlar pro bo'lishi mumkinligi haqida tobora ortib borayotgan xabardorlikmuammoli va boshqa nuqtai nazardan foyda keltiradi. Ushbu maqolaning keyingi qismida men xohlayman bir qancha muammolarga misol keltiring va ularni hal qilish yo'llarini ko'rib chiqing. Xususan, men muhokama qilaman umumiy korpus statistikasi sohasidagi potentsial muammoli tanlovlar yoki kamchiliklar, xususan birgalikdagi ma'lumotlar uchun assotsiatsiya choralarini tanlash, ya'ni qaysi korpus bilan o'lchovlar Tilshunoslar ikkita lingvistik iboralar (masalan, ikkita so'z yoki so'z va sintaktik qolip/konstruktsiya). Bundan tashqari, men kam foydalanilganlar haqida qisqacha izoh beraman dispersiya tushunchasi, ya'ni elementlarning qanday teng taqsimlanganligini miqdoriy o'lchovdir. korpus, va shuning uchun ham korpus bir xilligi tushunchasi bilan bog'liq. Nihoyat, ko'rsataman Korporatsiyaning ierarxik tuzilishiga hozirgi tipik e'tiborsizlik qanday jiddiy muammolarni keltirib chiqarmoqda. Hozirgi vaqtda ko'proq ixtisoslashgan sohalar jadal rivojlanmoqda, shekilli: diaxronik korpus tilshunosligi vaqtinchalik tartiblangan korpus ma'lumotlari vaqtinchalik bosqichlarga qanday guruhlanganligi muammosini hal qilish keyingi tahlillar uchun; va kontekstsizlashtirilgandan o'tish kerak bo'lgan o'quvchilar korpusi tadqiqoti o'rganuvchi tili va uning kengroq modellari uchun ortiqcha va kam foydalanishni o'rganish ona tilidan farqlar. 2. Korpusning umumiy statistikasi 2. 1 Birgalikda yuzaga kelishi ma `lumot Korpus tilshunosligidagi eng asosiy tushunchalardan biri bu taqsimot gipotezasi , ya'ni lingvistik elementlarning taqsimlanishi nuqtai nazaridan o'xshash bo'lgan ishchi farazdir korpusdagi naqshlar ham ba'zi semantik yoki funktsional o'xshashlikni ko'rsatadi. Firt (1957: 11) qo'lga olingan Bu tushuncha o'zining mashhur aqidasida "[u] siz so'zni u ushlab turgan kompaniya tomonidan bilib olasiz", lekin Xarrisning (1970:785f.) quyidagi bayonot aslida xuddi shu ishni yanada aniqroq qiladi: [i] soʻz yoki morfemalarni koʻrib chiqsak, Ava B dan ko'ra ma'no jihatidan farq qiladiAva C, keyin biz ko'pincha A ning taqsimlanishini topamizva B dan farq qiladi A taqsimotiva C. Boshqacha qilib aytganda, ma'no farqi dif bilan bog'liqreferent tarqatish. Ya'ni, lisoniy ifoda E —morfemalar, so'zlar, konstruksiyalar/qoliplar, . ..-bolishi mumkin E bilan nima va qanchalik tez -tez sodir bo'lishini o'rganish orqali o'rganiladi . Buning eng oddiy usuli Bu xom ashyo bilan birga sodir bo'lish chastotasi yoki, ehtimol, ko'proq bo'ladi, kabi shartli ehtimollar p (funktsiya| E ) yoki p (kontekst element(lar)| E ). Xom chastotalar so'zlar bilan buziladi beri hamma joyda tez-tez uchraydi, tez-tez uchraydigan usul assotsiatsiya choralarini (AM) qo'llashdir, ya'ni funktsiya kabi ikkita element o'rtasidagi o'zaro bog'lanish kuchini aniqlaydigan statistika yoki bir tomondan kontekst elementi, ikkinchi tomondan E. Ko'pchilikAMlar birgalikda yuzaga kelishiga asoslanadi T.da keltirilgan jadvallarning kuzatilgan (birga) sodir bo'lish chastotalarini o'z ichiga oluvchi 1 lingvistik ifoda E (masalan, ma'lum bir so'z) va X funktsiyalari/kontekstlari (masalan, ma'lum bir konstruksiya ) tion). Bunday jadvalda a yoki obs a (“kuzatilgan chastota a ” uchun) chastotani bildiradi. 95 Til va tilshunoslik 16(1) E /funktsiyada/kontekst X va boshqalar bilan kuzatiladi; keng qo'llaniladigan AMlarga misollar Mutualni o'z ichiga oladi Axborot ( MI ), t - skor, z -skor, log-ehtimollik G 2 , p Fisher-Yates aniq va boshqalar (qarang Evert Ushbu o'lchovlar qanday hisoblanganligi va ularning xususiyatlarini muhokama qilish uchun 2009). 2.2 Birgalikda yuzaga keladigan miqdorni aniqlash bilan bog'liq muammolar 2.2.1 Muammo: ko'p so'zliAM yetarlicha konservativ emas Foydalanish chastotasiga qaramay, yuqoridagi turdagi AMlar muammosiz emas. Bir kichikroq muammo shundaki, ular n -grammga (n so'zning uzluksiz qatoriga) osonlikcha umumlashtirilmaydi , yoki koʻp soʻzli birliklar (masalan, ga koʻra , ga qaramay va hokazo).Shu nuqtada, n -gramm uchun MI - log 2 ( obs a / exp a ) - ko'pincha to'liq shartli mustaqillik asosida oddiygina hisoblab chiqiladi, bu a ning kutilgan chastotalarini kam baholaydi va shuning uchun ning kuchini ortiqcha baholaydi uyushma. Belgilanmagan jigarrang korpusga qaramay , MI ni taqqoslash orqali hisoblansa. to'liq mustaqillikka asoslangan kutilgan chastotaga nisbatan 54 ga qaramay kuzatilgan chastota dan keyin , MI 12,25 juda yuqori qiymatga aylanadi. Biroq, agar kimdir MI ni taqqoslash orqali hisoblasa in qaramay va hodisalaridan kutilganiga qaramay bir xil kuzatilgan chastotasi ning , keyin bu MI -qiymati 4,76 ga kamayadi. Shunday qilib, korpus lingvistikasi ko'proq adekvat tadqiq qilishi kerak va AMlarni n -grammgacha kengaytirishning konservativ usullari . 2.2.2 Muammo: deyarli hammasiAM simmetrik/ikki tomonlama Bundan ham muhimroq muammo shundaki, deyarli barcha AMlar simmetrikdir: assotsiatsiyasi E ifodasi kontekst C simmetrik/ikki tomonlama deb taxmin qilinadi. Biroq, birlashmalar Umumiy va assotsiativ ta'lim, albatta, (har doim) nosimmetrik emas, shuning uchun ideal holda, korpus tilshunoslik yo'nalishli AMlardan foydalanishni o'rganadi. Bu sohada, xususan, ba'zi ishlar mavjud Mishelbacher va boshqalar. (2007, 2011), ular ikki xil kontseptual variantni o'rganadilar. Birinchidan, ular sifatdosh - ot birikmalaridan shartli ehtimollarning o'zaro bog'liqligini o'rganadilar Janubiy Florida universiteti assotsiatsiyasi me'yorlari bilan, ammo etishmayotgan chorani toping nosimmetrik assotsiatsiyalarni aniqlash; bundan tashqari, shartli ehtimolliklar normallashtirmaydi har qanday asosiy ko'rsatkichga nisbatan kuzatilgan foiz. Ikkinchidan, ular darajalar farqiga asoslangan o'lchovni o'rganadilarAM (masalan, chi-kvadrat qiymatlar). Bunday darajali o'lchovlar uchun xy birikmasi tomonidan o'rganiladi - x bilan kollokatsiyalar uchun barcha AM larni hisoblash , ularni tartiblash va xy uchun darajani qayd etish ; - y bilan birikmalar uchun barcha AM larni hisoblash , ularni tartiblash va xy uchun darajani qayd etish ; - darajalardagi farqni solishtirish. Tqodir 1: Sxematik birga sodir bo'lish chastotasi jadvali E Totals dan boshqa elementlar Funktsiya/kontekst X a b a + b X dan boshqa funksiyalar/kontekstlar c d c + d Jami a + c b + d a + b + c + d 96 Stefan Th. Gries Shartli ehtimollik testlariga o'xshash testlarda bu daraja o'lchovi yaxshi ishlamaydi assimetrik assotsiatsiyalar bilan, lekin nosimmetrik bo'lganlar bilan bir oz yaxshiroq; qo'shimcha tasnifda vazifa, daraja o'lchovi shartli ehtimolliklarga qaraganda ancha yuqori xato darajasi bilan keldi. In Mishelbacher va boshqalar. ning (2011) tadqiqoti, qo'shimcha darajali o'lchovlar ham xom birgalikda sodir bo'lishiga asoslanadi chastotalar,G 2 va t va korpusga asoslangan ma'lumotlar erkin birlashma natijalari bilan taqqoslanadi. ushbu tadqiqot uchun maxsus bajarilgan vazifa.Ushbu tadqiqotda daraja o'lchovlarining natijalari juda ko'p sub'ektlarga sifat va miqdoriy jihatdan ko'proq mos keladieksperimentdagi reaktsiyalar; ning darajani o'lchaydi, G 2 eng yaxshi ishlaydi. Bu istiqbolli bo'lib tuyulsa-da, bu hisob-kitoblarga kiradigan hisoblash harakatlari juda katta, chunki xy birikmasi uchun bitta AMni hisoblash hamma narsani hisoblashni talab qiladi. X bilan barcha birikmalar uchun AM, keyin esa y bilan barcha birikmalar uchun alohida . Bundan tashqari, qaramay Minglab darajali G 2 qiymatlarida katta hisoblash harakatlari amalga oshirilmaydi. shartli ehtimoldan yaxshiroq (Michelbacher et al. 2011: 270). Nihoyat, daraja-o'lchovga asoslangan yondashuv juda istiqbolli, lekin, ehtimol, har qanday ma'noda kognitiv jihatdan real emas. Bunga qarshi Assotsiativ ta'lim adabiyotidagi D P o'lchovi ayniqsa qiziqish uyg'otadi. muqobil (tilshunoslikka kirish uchun Ellis 2006 ga qarang). U ham shunday jadvallarga asoslanadi sifatida T1 ga qodir, lekin X dan E gacha bo'lgan assotsiatsiyani ajrata oladi (qarang (1a)) E dan assotsiatsiya uchunX (qarang (1b)). (1) a. |EX ac P ab cd D= − ++ b. |XE ab P ac bd D= − ++ Masalan, barcha an'anaviy AMlar, albatta, yuqori qiymatni qaytaradi ( qarang: Gries 2013: 144), lekin bu DA P bo'lib of va kurs o'rtasidagi bog'lanish simmetrik emasligini tan oladi: of emas bu kurs davom etishini yaxshi bashorat qiluvchi, kurs esa irodaning kuchli bashoratchisi . Aslida, Gries (2013) shunga o'xshash kuchli assimetrik birikmalar juda tez-tez uchraydi - 26% uning 2 grammlik namunasi kuchli assotsiatsiyani aks ettiruvchi yuqori G 2 qiymatlariga ega, ammo ular etishmayapti bu juda assimetrik uyushmalar ekanligi. (2a) birinchi so'z bo'lgan ba'zi 2 grammni sanab o'tadi ikkinchisiga nisbatan ancha bashoratli; (2b) birinchisi bo'lgan ba'zi 2 grammlarni sanab o'tadi so'z ikkinchisiga nisbatan kamroq bashorat qiladi ( albatta kabi ). (2) a.dan tashqari ,accorteskari , teskari , aksincha ,dan qat'i nazar, ipso facto b.hech bo'lmaganda ,yillik , status-kvo ,masalan , de-fakto , aksincha Xulosa qilib aytganda, D PDizayni bo'yicha u an'anaviy AM-larga qaraganda sezgirroq, chunki u yo'nalishni ajratishi mumkin. o'ziga xos effektlar ; tushunish va hisoblash juda oson; uni hisoblash/talqin qilish talab etilmaydi taxminlar (korpus ma'lumotlarida juda kam uchraydigan normallik kabi); u Null muammolaridan qochadi Gipotezaning ahamiyati Tbaholash paradigmasi, chunki u kuzatilgan taqsimot ma'lumotlarini sinab ko'rmaydi illyuzion nol gipoteza taqsimotiga qarshi; nihoyat, u ikkalasini ham eksperimental qo'llab-quvvatladi Ellis va uning hamkasblari tomonidan psixologiya va lingvistik ishlarda va Gries (2013) hech bo'lmaganda u n -grammlarni o'rganish uchun ishlatilishi mumkin bo'lgan usul. Shuning uchun korpus lingvistlari buni qilishlari kerak 97 Til va tilshunoslik 16(1) ushbu chorani batafsilroq o'rganing; Oxir oqibat, u hatto o'rtasidagi nomuvofiqlikni aniqlashga yordam berishi mumkin Mollin (2009) da xabar qilingan turdagi korpus va eksperimental ma'lumotlar, masalan, kim etishmasligini topadi Edinburgdagi assotsiatsiya ma'lumotlari o'rtasidagi korrelyatsiyaAssotsiativ tezaurus va birgalikda yuzaga kelishi Britaniya Milliy Korpusining (BNC) ma'lumotlari bir tomonlama emas, balki ikki tomonlama o'rganilgan. 2.2.3 Muammo: deyarli hammasiAM faqat token chastotalarini o'z ichiga oladi Bu erda muhokama qilinadigan navbatdagi AM muammosi, ehtimol simmetriya kabi asosiydir muammo, lekin undan ham kamroq tan olingan va o'rganilgan: ya'ni deyarli barchasini hisoblash AMlar faqat Tda ifodalangan to'rtta token chastotasini o'z ichiga oladiqodir 1. Ya'ni hal qiluvchi qism odatiy chora-tadbirlarning birortasiga kirmaydigan ma'lumotlar - minimal, b va c chastotalarni tashkil etuvchi turdagi chastotalar , ya'ni qanday ko'p turli elementlar emas- E bir xil funktsiya/kontekst X ( b uchun ) bilan mavjud va X bo'lmagan nechta turli funksiyalar/kontekstlar E bilan ishlatiladi? Javob bu ikki savolga ikkita raqam, ikkita turdagi chastotalar asosidagi b vac ., masalan, 10 va 20. - Va undan ham foydali bo'lgan barcha turdagi token chastotalari bo'ladi token chastotalari b va c . b uchun bu qancha turli elementlarni bildiradi emas- E bir xil funktsiya/kontekst X mavjud va ularning har biri qanchalik tez-tez uchraydi X bilan va c uchun tegishli savol . b uchun bu savolga javob bo'ladi 10 ta token chastotasi va, ehtimol, ularning entropiyasi yoki boshqa umumiy statistika bo'lishi mumkin. Ko'pgina domenlar uchun turdagi chastotalar yoki entropiyalarning ahamiyatini hisobga olgan holda (mahsuldorlik, til o'zgarish, tilni o'zlashtirish, . . .), turini ishlatadigan AM-ga muqobillar qanchalik kamligi ajablanarli chastotalar yoki entropiyalar korpus lingvistikasida to'g'ri o'rganilgan. Qo'shnilardan tadqiqotlar fanlar (Baayen 2010b; McDonald & Shillcock 2001; Recchia va boshq. 2008) hammasi shuni ko'rsatadiki kontekstli xilma-xillik o'lchovlari, masalan, kontekstual farqlash va/yoki entropiya bilan bog'liq o'lchovlar, Faqat token-chastota statistikasiga qaraganda psixolingvistik xulq-atvor ma'lumotlarini yaxshiroq bashorat qiluvchilar, shuning uchun korpus lingvistikasining o'z ishi bor. Korpus tilshunosligida Daudaravi čius va Marcinkevi č ien ė (2004) birinchi bo'lib bu mavzu kengroq auditoriyaga ma'lum. Ular belgilangan leksik tortishish G deb nomlangan o'lchovni taklif qildilar (3) ichida. Bu tenglamadan ko'rinib turibdiki, qolgan barcha narsalar teng bo'lganda G n w1w2 ga ortadi , w1 dan keyin n tur yoki w2 dan oldingi n tur ortadi va n w1 yoki n w2 ortishi bilan G kamayadi . (3) GravityG (w 1 ,w 2 ) = 12 1 12 2 12 log ww keyin turlari w ww turlari oldinw ww nn nn nn ⋅⋅ ⎛⎞⎛ ⎞ + ⎜⎟⎜ ⎟ ⎝⎠⎝ ⎠ Afsuski, bu tushunchaga juda kam amal qilingan.TGries bundan mustasno (2010b) va Gries & Mukherjee (2010). Ilgari tadqiqot sub-registrlarning klaster tahlilidan foydalanadi (BNC Baby) korpusdagi barcha 2 gramm uchun G -qiymatlariga asoslanadi va uni bitta asoslangan bilan solishtiradi t -qiymatlari bo'yicha va birinchisi namuna olish qarorlarini deyarli mukammal tarzda qayta yaratishga qodir ekanligini aniqlaydi 98 Stefan Th. Gries korpus kompilyatorlarining (ikkinchisi esa yomonroq ishlaydi). Xususan, G - ga asoslangan klaster tahlil - nutqni yozishdan mukammal ajrata oladi; - badiiy adabiyot, yangiliklar va akademik registrlarni yozma ravishda mukammal ajratib turadi; - yangiliklar va akademik kichik registrlar ichida hatto shunga o'xshash kichik registrlarni ham aniqlaydi. Oxirgi tadqiqot turli xil navlardagi n -gramlarni aniqlash uchun G ning kengaytmasini o'rganadi. Ingliz tili. Aniqrog'i, u n -grammni aniqlash uchun G dan qanday foydalanish mumkinligini va G ga asoslanganligini ko'rsatadi to'rt xil turdagi og'zaki va yozma ma'lumotlarni klaster tahlili (Britaniya, Gonkong, Hind va Singapur inglizlari) gapirishni yozishdan mukammal ajratib turadi. Xulosa qilib aytganda, nazariy nuqtai nazardan turdagi chastotalarni kiritish uchun ishonchli dalillar mavjud. Shuningdek, psixolingvistika yoki kompyuter tilshunosligi kabi qo'shni fanlardan, va korpus lingvistikasida birinchi istiqbolli natijalar mavjud, ammo ko'proq tadqiqotlar albatta talab qilinadi. Xususan, yuqoridagi barcha yondashuvlar faqat minimal miqdor bilan shug'ullanadi o'z ichiga olishi kerak bo'lgan ma'lumot - token va turga oid kengroq ma'lumot chastota taqsimoti va entropiyalar hali ham birinchi tadqiqotni kutmoqda. 2.3 Korpus tarkibida taqsimlanishni e'tiborsiz qoldirish bilan bog'liq muammolar 2.3.1 Promuammo: (birgalikda) yuzaga kelishi kam tarqalgan bo'lishi mumkin Bu erda muhokama qilinadigan navbatdagi AM muammosi korpusning yana bir muhim o'lchamiga tegishli AM yondashuvining an'anaviy turiga asoslangan ma'lumotlar1-jadval ko'rsatmaydi. Xususan, ichida Oldingi bo'limda deyarli barcha AMlar mavjud bo'lgan ma'lumotlardan qanday qilib to'liq foydalanmasligi ko'rsatilgan b va T da c larda umumlashtirilgan1 ga qodir, chunki b va c turdagi chastotalarni ta'minlamaydi (u yoqda tursin entropiyalar) b va c tokenlarini tashkil qiladi. Biroq, yana bir muammo shundaki, birgalikda yuzaga keladi 1-jadvaldagi a chastotasi a korpusi bo'ylab qanday (no) tengligi haqida ma'lumot bermaydi E element va funksiya/kontekst X ning birgalikdagi hodisalari topiladi. Misol uchun 1-rasmni ko'rib chiqing bunda a o'zboshimchalik bilan 180 ga o'rnatilgan: yuqori panelda bu 180 ta birgalikda sodir bo'lishi mumkinligini ko'rsatadi. 500 qismli korpusning juda kichik qismida yuqori chastotalar bilan to'plangan (masalan, Britaniya Xalqaro ingliz korpusining komponenti, ICE-GB) yoki pastki panelda bo'lgani kabi, yana ko'p narsalar kichikroq chastotalar bilan keng tarqalgan. Ushbu taqsimot tushunchasi dispersiya deb nomlanadi (qarang Gries 2008 ko'plab dispersiya o'lchovlarining yaqinda ko'rib chiqilishi uchun) va uni nafaqat miqdoriy aniqlash mumkin ( 1-rasmdagi DP qiymatiga qarang, bu to'planishni aks ettiradi), lekin bu ham muhim oqibatlarga ega. korpus-lingvistik tahlil uchun, shuningdek, psixolingvistik yoki umumiyroq ilovalar uchun. Korpus-lingvistik tahlilning oqibatlariga kelsak, qaysi fe'llar haqidagi savolni ko'rib chiqing imperativ so‘zlarda qo‘llanishi ehtimoli bor. Amutlaqo normal an'anaviy korpus-lingvistik hisob mumkin Bu savolga imperativda kelgan korpusdagi har bir fe'l lemmasi uchun hisoblash orqali yondashing kamida bir marta bu lemma va imperativ o'rtasidagi bog'lanishni aniqlaydigan AM T kabi jadvallar asosidaqodir 1 va keyin fe'llarni assotsiatsiya kuchiga qarab tartiblang. Stefanowitsch & Gries (2003) buni ICE-GB yordamida amalga oshirdi va (4) reytingini qo'lga kiritdi: 99 Til va tilshunoslik 16(1) (4) Keling , ko'ring ,qarang , tinglang ,Xavotir , katlama , esda tut ,tekshirish , ishlov berish , harakat qilish , ushlab turish ,ayt , eslatma ,qo'shish , tutish , ... (4) dagi ko'pchilik fe'llar buyruq bilan bog'langan lemmalar sifatida to'liq ma'noga ega, lekin katlama vaprOcess biroz hayratlanarli. Yaqinroq tekshirish shuni ko'rsatadiki, har birining yuqori chastotasi Bu ikki fe'lning eng yaxshi 10 ta ro'yxatda turishi uchun javobgar bo'lgan buyruq fe'li tufaylidir 500 ta fayldan bittasi, ya'ni origami kitobidan parcha bo'lgan fayl ( katlama uchun ) va oshpazlik kitobidan parcha bo'lgan fayl ( jarayon uchun ). Aniq, bu shuni ko'rsatadikiAM asosida martaba juda noto'g'ri bo'lishi mumkin, chunki katlama va jarayon yanada kuchliroq ko'rinadi eslab qolish yoki urinishdan ko'ra imperativ bilan bog'langan , holbuki bu registr artefakti bo'lishi mumkin a qo'shma hodisalarning dispersiyalari o'rganilgandan keyin tan olinadi . Yuqori chastotalar bilan birga birgalikda paydo bo'lish umuman kengroq dispersiya bilan bog'liq bo'ladi, bu korrelyatsiya hech qachon mukammal bo'lmaydi. va biz yuqorida aytib o'tganimizdek, oddiy deb qabul qilinishi mumkin emas. Shunday qilib, tahlil qilish mantiqan to'g'ri keladi AM yordamida birgalikda yuzaga kelgan ma'lumotlar dispersiyani hisobga olgan holda sezilarli foyda keltirishi mumkin. Buni, masalan, yuqorida ko'rsatilgandek, birgalikda sodir bo'lgan ma'lumotlar uchun AM hisoblash orqali amalga oshirilishi mumkin, balki elementlarni solishtirish uchun dispersiyani ham o'lchaydi.ularning dispersiya qiymatlari 1-rasm: T 180 ta birgalikda hodisalarni korpus bo'ylab taqsimlashning (ekstremal) usullari 500 qismdan (fayllardan) iborat: o'ta notekis/to'plangan taqsimot (yuqori panel) va juda ko'p yanada tekis taqsimlash (pastki panel) 100 Stefan Th. Gries AM-qiymatlari va/yoki ularning koʻrib chiqilayotgan funksiya/ kontekstda / bilan birgalikda paydo boʻlish chastotalari . Agar ikkinchisi ICE-GBdagi ditransitivdagi fe'llar uchun bajariladi, 2-rasmda aniq holat ko'rsatilgan. birgalikda paydo bo'lish chastotasi ( x - o'qi bo'yicha) va dispersiya ( y - o'qi bo'yicha ) o'rtasidagi korrelyatsiya. Shunday qilib, bu holda va yuqoridagi imperativ misoldan farqli o'laroq, birgalikda yuzaga keladigan chastotalar, chastotaga asoslangan AM va dispersiya o'lchovlari juda o'xshash fe'l reytinglarini beradi, ammo, faqat Ushbu o'lchamlarning barchasini o'rganib chiqib, biz turli xil o'lchamlar mavjudligiga amin bo'lishimiz mumkin korpus ma'lumotlari aslida birlashadi. Psixolingvistik va ko'proq umumiy (nazariy) ilovalar uchun ta'sirlarga kelsak, dispersiya Hozirgi vaqtda asosiy korpus tilshunosligidan tashqari boshqa sohalarda ham dolzarb ekanligi ko'rsatilgan. Masalan, Simpson-Vlach & Ellis (2005) va Ellis va boshqalar. (2007) shuni ko'rsatdiki, hatto eng oddiy tasavvur qilish mumkin dispersiya o'lchovi - diapazon, (birgalikda) sodir bo'lgan korpus qismlarining (normallashtirilgan) soni tasdiqlangan - o'rganishda xom chastotadan yuqori va undan yuqori sezilarli bashorat qilish kuchiga ega akademik formulalar; Casenhiser & Goldberg (2005) taqsimotning bir tekisligini aniqladilar Yangi qurilishdagi fe'l turlari (aslida uning entropiyasiga teng) bilan bog'liq. bolalar va kattalar yangi sintaktik qurilishni qanchalik yaxshi o'rganadilar; Gries (2010c) qanday qilib ko'rsatgan ko'plab dispersiya o'lchovlari yoki tegishli sozlangan chastotalar psixolingvistikaning yaxshiroq prognozi hisoblanadi korpus chastotalariga qaraganda xatti-harakatlar ma'lumotlari va boshqalar To korpus tilshunoslari o'z ishlarini qanchalik xohlashlari fanlararo bo'lish, qo'shni konlarga ham ta'sir qilish uchun ular dispers tadqiqotlarini qo'shishlari kerak.- birgalikda yuzaga kelgan ma'lumotlarni har qanday o'rganish bo'yicha chora-tadbirlar, faqat o'zlarini yaroqsizlardan himoya qilish uchun haddan tashqari to'plangan va shuning uchun vakili bo'lmagan ma'lumotlarga asoslangan umumlashmalar. Shu ma'noda, kashf qilish dispersiya korpusning heterojenligi tufayli tarafkashlikdan zarur himoyani ta'minlaydi. 2-rasm: Verbs'ICE-GBda ditransitivga jalb qilish: dispersiya ( y o'qi bo'yicha ) chizilgan ro'yxatga olingan birga sodir bo'lish chastotalariga qarshi ( x o'qi bo'yicha) 101 Til va tilshunoslik 16(1) 2.3.2 Muammom: korpusning ierarxik tuzilishiga e'tibor bermaslik Ushbu bo'limda muhokama qilinadigan yakuniy muammo keng ko'lamli ekanligi bilan bog'liq ko'pchilikKorpus lingvistikasida statistik tahlillar - xoh ular chi-kvadrat testlari, xoh oddiy korrelyatsiyalar, umumlashtirilgan chiziqli modellar (GLM, masalan, ikkilik logistik regressiyalar), . . .-asosiy qoidani buzish Ushbu statistik usullarning taxmini: ma'lumotlar nuqtalarining bir-biridan mustaqil ekanligi. Aksincha, ko'p korpus ma'lumotlar nuqtalari har biri bilan bog'liq sifatida ko'rish mumkin bo'lgan uch xil usul mavjud boshqa, birinchi ikkitasi psixolingvistik ishda yaxshi ma'lum: - Korpus ma'lumotlari/fayllaridagi ma'ruzachilar/yozuvchilar ko'pincha muvofiqlikda bir nechta ma'lumotlar nuqtasini taqdim etadilar Shunday qilib, ma'lum bir ma'ruzachi/yozuvchining barcha ma'lumotlar nuqtalari bir-biri bilan bog'liq (ular kabi so'zlovchining o'ziga xos xulq-atvorini aks ettirishi mumkin). Psixolingvistikada bu shunday ko'pincha F 1 - yoki tegishli ANOV bilan murojaat qilinadiAstatistika. - Ko'pgina grammatik naqshlar uchun muvofiqlik qatorlari bir xil leksik elementni o'z ichiga oladi Ushbu leksik element bilan barcha ma'lumotlar nuqtalari bir-biri bilan bog'liq (chunki ular buni aks ettirishi mumkin). leksik bo'lakning o'ziga xos qoliplanishi). Psixolingvistikada bu ko'pincha hal qilinadi F 2 - yoki tegishli ANOVAstatistika. - Korpora ko'pincha ierarxik tarzda joylashtirilgan tuzilishga ega bo'lib, unda karnaylar joylashtirilgan fayllar, ular o'z navbatida pastki registrlarga joylashtirilgan, ular o'z navbatida registrlarga joylashtirilgan; ular o'z navbatida rejimlarga joylashtirilgan (masalan, og'zaki va yozma). Shunday qilib, bir nechta bor ta'sirlar joylashgan bo'lishi mumkin bo'lgan korpus tashkilotining darajalari, lekin bu darajalar odatda hammasi ham tekshirilmagan. Odatda korpus ma'lumotlari (ko'pincha ehtiyotkorlik bilan) nazorat qilinadigan psixolingvistik eksperimental ma'lumotlar, korpus ma'lumotlarining ommaviy o'zaro bog'liqligi yuqoridagi uchta chiziq bo'ylab odatda e'tiborga olinmaydi. Ushbu bo'limda men bu qanday muammoli ekanligini misol qilib keltiraman odatdagidek, bu o'zaro bog'liqlikni e'tiborsiz qoldiradigan tahlilni uni hisobga oladigan tahlil bilan solishtirish. Haqiqiy lingvistik ta'sirlari bilan men qiziqmaydigan kichik bir misol sifatida keling, quyidagilarni davom ettiramiz. siderMen yoki siz - erkaklar yoki ayollar - kim ko'proq foydalanishi va qaerda/qachon (erta/) degan savol. suhbatda kech va/yoki jumlada erta/kech); ehtimol ayollar degan taxmin bor odatda I dan foydalanish ehtimoli kamroq . . . R skriptidan foydalanish (R Core Team 2014), men hammasini chiqarib oldim Britaniya Milliy Korpusi W ning barcha 21 ta faylidagi men va siz (PNP sifatida belgilanganda) misollariorld Nomlari "KR" bilan boshlanadigan nashr (XML). Har bir misol uchun men quyidagilarni oldim/annotatsiya qildim o'zgaruvchilar: - M ATCH : ma'ruzachi I yoki siz ishlatdimi ; - F ILE : ma'ruzachi I yoki you so'zini ishlatgan fayl nomi ; - S PEAKER : men yoki sizdan foydalangan ma'ruzachi uchun noyob identifikator ; - S EX : so'zlovchining jinsi, ayol va erkak ; - S ENTENCE : fayllardagi jumlaning ID raqamining kvadrat ildizi (1 dan n gacha ) bunda ma'ruzachi I yoki siz ishlatgan (kvadrat ildiz o'zgarishi S ENTENCE ning tarqalishi normalroq ); 102 Stefan Th. Gries - D MASALADA : gapdagi I yoki sizdan oldingi belgilar sonining tabiiy jurnali savol (teglar va h.k.lar olib tashlanganidan so'ng; jurnalni o'zgartirish uchun D ISTANCE ning taqsimlanishi normalroq ). Bu ikkilik logistika kabi ko'p faktorli tahlil usulini talab qiladigan ma'lumotlar to'plami regressiya. Faraz qilaylik, bashorat qilishga harakat qiladigan birinchi maksimal modeldan boshlashga qaror qildik M ATCH , ya'ni men va sizni barcha o'zgarmas effektlar bashorat qiluvchilar asosida tanlash - S EX , S ENTENCE , va D ISTANCE -shuningdek , ularning juftlik o'zaro ta'siri va u orqaga qarab model tanlashdan foydalangan faqat muhim bashorat qiluvchilar qolmaguncha, eng kam ahamiyatli bashoratchi o'chiriladi. Bu Ma'lum bo'lishicha, ushbu modelni tanlash jarayoni o'zaro ta'sirlarni yo'q qilishni o'z ichiga oladi S ENTENCE :D ISTANCE ( p = 0,058) va S EX :D ISTANCE ( p = 0,05) va natijada juda muhim model (LR chi-kvadrat) 881,9;df = 6, p < 0,0001); ushbu modelning koeffitsientlari T da keltirilganqodir 2. E'tibor bering, regressiya modeli juda muhim bo'lsa-da, uning bashorat qilish kuchi juda katta zaif: R 2 = 0,055, C = 0,613 va tasniflash aniqligi atigi 58,3% ni tashkil qiladi, bu hech qanday ahamiyatga ega emas. tasodifdan ko'ra yaxshiroq. Ta'sirlarning tabiati T.dan biroz aniqqodir 2, lekin qulaylik uchun talqini 3-rasmda ham vizual tarzda tasvirlangan: ma'ruzachilar sizni keyinroq ishlatish ehtimoli ko'proq so'z (chap panel) va ayollar keyinroq suhbatda sizni ishlatish ehtimoli ko'proq , erkaklar va noma'lum jinsdagi ma'ruzachilar suhbatda keyinroq I dan foydalanish ehtimoli ko'proq (o'ng panel). 3-rasm: GLM ning yakuniy modelining muhim ta'siri, bu esa talabni qabul qilmaydi Ma'lumotlar nuqtalarining o'zaro bog'liqligi e'tiborga olinadi: bashorat qiluvchilarning bashorat qilingan ehtimolga ta'siri sizdan foydalanish ( men o'rniga ) ( y o'qida) Tqodir 2: Resumumlashtirilgan chiziqli modelning yakuniy modeli (yumaloq) Bashoratchi bsez pp o'chirish Kesish -0,742 0,044 – 16,721 <0,0001 S EX noma'lum ayol/erkakga nisbatan 0,044 0,032 1.391 0,164 <0,0001 S EX ayol va erkak 0,197 0,034 5,761 <0,0001 D MASALOVI 0,193 0,008 24.925 <0,0001 <0,0001 S ENTENCE -0,004 0,001 -3,961 <0,0001 <0,0001 S EX noma'lum ayol/erkakga nisbatan : S ENTENCE 0,003 0,001 4.139 <0,0001 <0,0001 S EX ayol va erkak :S ENTENCE –0,008 0,001 – 10,365 <0,0001 103 Til va tilshunoslik 16(1) Garchi bu protsedura ko'pchilik korpus lingvistlari tomonidan amalga oshirilgan bo'lsa-da chi-kvadrat testlari, ya'ni, qat'iy aytganda, noto'g'ri, chunki u e'tiborga olinmaydi. ma'lumotlar nuqtalari bir-biridan mustaqil emasligi.Juda yaxshi (garchi hali ham yaxshilanishi mumkin) yondashuv umumiy chiziqli aralash effektlar modeli (GLMEM) bo'lib, unda bular o'zaro bog'liqdir. talablar hisobga olindi. Dinamiklar fayllarga joylashtirilganligi sababli - har bir karnay bitta va faqat bitta faylda sodir bo'ladi - bir xil maksimal qattiq effektli tuzilmani tanlash mumkin yuqorida - S EX , S ENTENCE va D ISTANCE hamda ularning juftlik o'zaro ta'siri - lekin nimani ham o'z ichiga oladi tahlilga tasodifiy effektlar deyiladi . Tasodifiy effektlarni darajalari bo'lgan effektlar sifatida aniqlash mumkin namunada sobit ta'sirlardan farqli o'laroq, populyatsiyadagi barcha mumkin bo'lgan darajalarni qamrab olmaydi namunadagi darajalar populyatsiyaning barcha mumkin bo'lgan darajalarini qamrab oladi. Tbirinchisiga xos misollar S PEAKERni o'z ichiga oladi (chunki tilda so'zlashuvchilarning hammasi ham namunaning bir qismi emas), L EXICAL I TEM (chunki qolipda ishlatilishi mumkin bo‘lgan barcha leksik birliklar namunada bo‘lmaydi), T EXT S OURCE (chunki, masalan, namuna olish mumkin bo'lgan barcha gazetalar namunada emas) va boshqalar; ikkinchisiga misollar S EX ( ayolerkakka nisbatan ; boshqa darajalar yo'q), P REVIOUSLY M EN - TIONED ( yo'q , ha , boshqa variantlar yo'q) va hokazo. An'anaviy GLM faqat regressni qaytarsa-da Har bir bashoratchi uchun bitta kesishma va bitta koeffitsientni o'z ichiga olgan sion tenglamasi, GLMEM tadqiqotchiga yanada moslashuvchan bo'lishga va, shuningdek, har bir tasodifiy har bir daraja uchun olish imkonini beradi ta'sir umumiy kesishmaga tuzatishlar, shuningdek, vositalar farqiga tuzatishlar kiritilgan va qiyaliklar. Bu yerga, ma'lumotlar nuqtalarining o'zaro bog'liqligi, so'zlovchiga xos, leksik elementga xos, . . . ta’sirlari hisobga olinadi. Qachonki, muhim bo'lmagan sobitni yo'q qilish orqali o'xshash model tanlash jarayoni amalga oshiriladi Effektlar, avvalgidek bir xil o'zaro ta'sirlar o'chirilgach - juda boshqacha p -qiymatlari bilan, lekin: S ENTENCE :D MASALADA (p = 0,216) va S EX :D ISTANCE (p = 0.224) - va biri bilan yakuniy modelga keladi T da ifodalangan koeffitsientlarqodir 3. 1 Tqodir 3: GLMEM yakuniy modelining natijalari (yumaloq) Ruxsat etilgan effektlarni bashorat qiluvchilar bsez pp o'chirish Kesish -0,982 0,106 –9,245 <0,0001 S EX noma'lum ayol/erkakga nisbatan 0,0026 0,083 0,031 0,975 0,523 S EX ayol va erkak 0,099 0,085 1,163 0,245 D MASALOJI 0,23 0,009 26.874 <0,0001 <0,0001 S ENTENCE -0,001 0,002 –0,444 0,657 0,525 S EX noma'lum ayol/erkakga nisbatan : S ENTENCE 0,002 0,002 0,866 0,386 0,002 S EX ayol va erkak :S ENTENCE -0,004 0,001 –3,469 0,0005 Tasodifiy effektlar (turli xil kesishmalar) F ILE sd = 0,026 F ILE /S PEAKER sd = 0,821 1 Oddiylik uchun, Men tasodifiy effektlar tuzilishini ham qisqartirmadim. Barcha niyat va maqsadlar uchun, natijalar bir xil; Bunday modellashtirish va tegishli R haqida muhokama qilish uchun Gries (kelgusidagi) ga qarang kod. 104 Stefan Th. Gries Ushbu modelning tasniflash kuchi haqida nima deyish mumkin? Garchi u hali ham u qadar yaxshi emas nazariy jihatdan bo'lishini xohlasangiz, u avvalgisidan ancha yuqori: marginal R 2 = 0,044 va kon- ditional R 2 = 0,24, C = 0,717 va tasniflash aniqligi hozirda 65,7% ni tashkil qiladi, bu hozir. imkoniyatdan ancha yaxshi. 2 Ikki modelni solishtirishdan oldin, keling, yana bir bor ko'rib chiqaylik 4-rasmda ko'rsatilgan eng yuqori darajadagi muhim effektlarni vizualizatsiya qilishda. Umumiy tomonlarga kelsak: ikkala model ham bir xil sobit effektlarni o'z ichiga oladi va ikkala modelda ham D IST ta'siriANCE , ehtimol, xuddi shunday. Shu bilan birga, juda ko'p (ko'proq) sezilarli farqlar mavjud. Eng ravshan narsa allaqachon aytib o'tilgan: GLMEM ancha yuqori va juda muhim natijalarga erishadi tasniflashning aniqligi.Keyin, fayl va dinamik ma'lumotlari bo'lgandan keyin GLMEM buni ko'rishi mumkin shu jumladan, S ENTENCE muhim emas, GLMda esa u muhim. Eng muhimi, qanday qilib - S EX :S ENTENCE eng muhim o'zaro ta'sir uchun farqlar har doim qiziqish uyg'otadi . Birinchidan, GLM bu o'zaro ta'sirga 24 marta kichikroq (ya'ni muhimroq) bo'lgan p -qiymatini belgilaydi. GLMEMga qaraganda. Ikkinchisi va undan ham qiziq tomoni shundaki, yuqoridagi ikkita model foydalanuvchi bilan jihozlangan-aniqlangan ortogonal kontrastlar - korpus tilshunosligida juda kam uchraydigan boshqa narsa - ko'rish uchun osongina (i) noma'lum jinsdagi ma'ruzachilar jinsi ma'lum bo'lganlardan farq qiladimi, va (ii) ayol va erkak ma'ruzachilar o'zlarini boshqacha tutadimi. Chunki GLM qabul qilmaydi Har bir ma'ruzachining ma'lumotlar nuqtalarining o'zaro bog'liqligi hisobga olinsa, u butunlay boshqacha natijalarni beradi aniqroq GLMEM dan: - Ayol va erkakning kontrastiga kelsak , GLM juda katta ahamiyatga ega koeffitsienti ayollar va erkaklar uchun ahamiyatsiz koeffitsientdan ≈ 2 baravar yuqori GLMEM dan. Boshqacha qilib aytganda, GLM bu kontrastni juda yuqori baholaydi, ko'p bu aslida ma'ruzachiga xos xatti-harakatlarga bog'liq. 4-rasm: GLMEM ning yakuniy modelining muhim asosiy effektlari Ma'lumotlar nuqtalarining o'zaro bog'liqligi e'tiborga olinadi: bashorat qiluvchilarning bashorat qilingan ehtimolga ta'siri sizdan foydalanish ( men o'rniga ) ( y o'qida) 2 Marginal va shartli R 2 Nakagawa & Schielzeth (2013) mantig'i asosida hisoblab chiqilgan; marginal R 2 moslikni faqat qat'iy ta'sirlar asosida belgilaydi, shartli R 2 barcha effektlar asosida moslikni belgilaydi. 105 Til va tilshunoslik 16(1) - Ayol va erkakning kontrastiga kelsak , GLM juda katta ahamiyatga ega Ayollarga nisbatan erkaklar koeffitsienti juda muhim koeffitsientdan 2 baravar yuqori. GLMER dan ayollarga nisbatan erkaklar uchun aniq. Shunga qaramay, kontrast muhim bo'lsa-da ikkala modelda ham GLM o'z kuchini haddan tashqari oshirib yuboradi. Kosmos ushbu ma'lumotlar yoki aralash ma'lumotlarning o'ziga xos xususiyatlarini batafsilroq muhokama qilishga imkon bermaydi. effektlar va ko'p darajali modellashtirish bu erda (korpusda qo'shimcha ma'lumot olish uchun Gries-ga qarang) lingvistik kontekst). Biroq, bu aniq bo'lishi kerak edi, korpus ma'lumotlarida sodir bo'ladigan ko'p narsalar sobit ef emas, balki so'z-/spiker-/fayl-/registrga xos tasodifiy effektlar natijasidir.bizga ta'sir qiladi Korpus lingvistlari odatda GLMlar yoki boshqa har qanday statistik vositalarga qiziqish bildirishadi e'tiborga olingan ma'lumotlar nuqtalarining o'zaro bog'liqligi hajmini haddan tashqari oshirib yuborish xavfini tug'diradi va ta'sirlarning ahamiyati. Ammo bundan ham yomoni , GLMlar baholanmagan bo'lishi mumkin ta'sirlarning hajmi va ahamiyati - muammo shundaki, yo'nalishni bilishning hech qanday usuli yo'q muddatidan oldin GLM xatosi. Shuning uchun korpus tilshunoslari rahbarlik qilishlari shart psixolingvistikadagi so'nggi o'zgarishlar va aralash effektlar/ko'p darajali modellashtirishni markaziy o'ringa aylantiradi analitik vosita: usiz biz hech qachon ta'sir qanchalik qiziqarli va qanchalik qiziqarli ekanligini bilmaymiz faqat korpusda namuna olingan ma'lum ma'ruzachilarga bog'liq. 2.4 Vaqtinchalikxulosa Yuqorida muhokama qilingan taqsimot gipotezasini hisobga olgan holda, birgalikdagi hodisa ma'lumotlari korpus lingvistikasidagi eng asosiy metodologik vosita va oxirgi bir nechasidir o'nlab yillar davomida birgalikda sodir bo'lish chastotasiga asoslangan ko'plab hujjatlar va topilmalar yaratildi. ko'rsatkichlar, birgalikda yuzaga kelish ehtimoli, assotsiatsiya o'lchovlari va boshqa statistik yondashuvlar (ko'pincha regressiya-analitik usullar). Bu ishlarning aksariyati, albatta, muvaffaqiyatli bo'lgan bo'lsa-da, chunki, chunki Masalan, b va c dagi yuqori token chastotalari yuqori turdagi chastotalar bilan ijobiy bog'liqdir va a dagi yuqori token chastotalari noaniq taqsimotlar bilan salbiy bog'liq, qanday qilib aniq emas. potentsial egri bo'lgan natijalar bu korrelyatsiyalar mavjud bo'lmagan holatlar uchundir. Aharakat qiladigan o'rganish ko'p so'zli birliklarni aniqlash va bir vaqtning o'zida ushbu barcha AM muammolarini hal qilishga harakat qilish yuqorida Wahl (davom etmoqda). Bundan tashqari, takroriy o'lchovlar tabiatiga, shuningdek, ierarxik tuzilishga e'tibor bermaslik korpus ma'lumotlari nafaqat ko'pgina statistik usullarning asosiy taxminlarini buzadi - bu ma'lumotlar nuqtalarining mustaqilligi - lekin bizning natijalarimizni oldindan aytib bo'lmaydigan tarzda buzadi. Shunday qilib, ko'pchilik Yuqoridagi yondashuvlar nisbatan oson yo'llar bo'lib, ular bilan birgalikda sodir bo'lishimizga asoslanishga harakat qilishimiz mumkin o'rganish yanada mustahkamlanadi; Agar butun korpus tilshunosligi bo'lsa, bu strategiyalarni qo'llamaslik uchun hech qanday sabab yo'q boshqa fanlarda sodir bo'layotgan voqealar bilan tandemda rivojlanishni xohlaydi. 3. Ko'proq maxsus ilovalar Yuqorida muhokama qilingan uchta muammo ko'pchilik korpus-lingvistik tadqiqotlarga ta'sir qiladi: dispersiya yoki taqsimlashda to'planish muammosi har qanday statistik ma'lumotlarga tahdid soladi chastota ma'lumotlari - chunki ularning barchasi paydo bo'lish va birgalikda sodir bo'lish chastotalarini o'z ichiga oladi. Xuddi shunday, AM larni hisoblashda ikki yo'nalishlilik va turdagi chastotalar va ularning taqsimlanishining yo'qligi 106 Stefan Th. Gries birgalikda yuzaga kelgan ma'lumotlarga asoslangan deyarli barcha tadqiqotlar uchun tahdiddir. Biroq, bu vaqtda, miqdoriy korpus lingvistikasi aniq tilshunoslikda ham tobora mustahkamlanib bormoqda o'ziga xos, ko'proq ixtisoslashgan muammolarni keltirib chiqaradigan kichik fanlar. Ushbu bo'limda men birini muhokama qilaman korpus tadqiqotlari jadal rivojlanayotgan ikkita sohadan har biriga misol . §3.1da men muhokama qilaman Vaqtinchalik tartiblangan korpus ma'lumotlarini pastdan yuqoriga/tadqiqotga asoslangan tarzda o'rganish masalasi va printsipial/ob'ektiv; §3.2 da men o'quvchilar korpusini tadqiq qilish sohasiga va savolga murojaat qilaman mahalliy va mahalliy bo'lmagan o'quvchilar korpusi taklif qiladigan narsalardan qanday qilib eng yaxshi foydalanish haqida. 3.1 Temporativ tartiblangan ma'lumotlar va bosqichlarni aniqlash muammosi Vaqtinchalik tartiblangan korpus ma'lumotlari ikkita farqda muhim rol o'ynayditilshunoslikning turli sohalari. Bir tomondan, birinchi tilni o'zlashtirish sohasi mavjud. Ushbu sohada korpus ma'lumotlari ikkalasi ham bo'ylama va kesma va tartibda: (i) ma'lumotlarning bo'ylama tendentsiyalarini aniqlash uchun yoki undan ko'p bolalar, (ii) tasavvurlar bo'yicha taqqoslanadigan rivojlanish darajasidagi bolalarni aniqlash tahlil qilish yoki (iii) namunalar hajmini oshirish va/yoki chekka ko‘rsatkichlarni filtrlash uchun ko‘pincha quyidagi imkoniyatlarga ega bo‘lish foydalidir. bolalar uchun vaqtinchalik ma'lumotlarni turli bosqichlarga guruhlash. Boshqa tomondan, diaxronik tarixiy korpus tilshunosligi sohasi mavjud bo'lib, unda korpus mavjud ma'lumotlar - tegishli vaqt oralig'ini hisobga olgan holda - odatda kesma bo'lib, masalan, bir nechta ma'lumotlarni qamrab oladi. tilning ko'p asrlik tarixi. Tarixiy ma'lumotlar diqqat bilan yig'ilmaganligini hisobga olsak psixolingvistlar tilni o'zlashtirish korpusi ma'lumotlarini to'plashning boshqariladigan usullari, masalan Tarixiy ma'lumotlar ko'pincha juda xilma-xildir, shuning uchun bu erda ham vaqtni guruhlarga ajratish foydali bo'ladi. poral ma'lumotlar va bir vaqtning o'zida printsipial tarzda o'zgarib turadigan ma'lumotlarni tozalash. 5-rasmga misol bu qiyinchiliklarni hal qiladi. Chap panelda so'zlarning o'rtacha uzunligi (MLU) o'zgarishi ko'rsatilgan. Sabine Stollning rus tilidan 2 yoshdan 4,5 yoshgacha bo'lgan bitta rus bolasining so'zlari bilan sotib olish korpusi (batafsil ma'lumot uchun Stoll & Gries 2009 ga qarang) va mavjudligi aniq bo'lsa-da vaqt o'tishi bilan kutilgan umumiy o'sish, u ko'plab ko'tarilishlar va pasayishlar bilan birga keladi va aniq ajratish yo'q bosqichlarga bo'linadi. O'ng panelda uchinchi shaxs birlik ( e ) lar nisbatining o'zgarishi ko'rsatilgan uchinchi shaxs birlik ( e ) lar va ( e ) th ikki asrdan ko'proq vaqt davomida Parsed Corpus Early Inglizcha yozishmalar va yana, zamonaviy shaklga o'sish kutilmoqda, lekin yana ko'plab ko'tarilishlar va pasayishlar va vaqt nuqtalarini bosqichlarga bo'lishning turli imkoniyatlari (qarang Tafsilotlar uchun Gries & Hilpert 2010). 3 3 Yo'qmi degan savol tug'ilishi mumkin, Baayen (2010a) mantig'iga binoan, raqamli ma'lumotlarni diskretlashtirish (T IME kabi) yoki A GE ) tartib darajali omilga har doim foydalidir. Odatdagidek, javob nima qilishni xohlayotganiga bog'liq ma'lumotlar bilan. Men Baayen bilan rozi bo'lsam-da, aksariyat hollarda diskretizatsiya kerak emas va T IME yoki A ning ba'zi versiyalarini o'z ichiga olgan regressiya mos bo'lishi kerak bo'lgan hollarda hatto zararli bo'lishi mumkin.GE sifatida bir bashoratchi, u xom T IME tartibsizlik yoki ko'rinadiGE qiymatlari (yana 5 - rasmga qarang) muammolarni keltirib chiqaradi regressiya-analitik yondashuvlar uchun. Gries va Hilpert (2010) T IME ning xom qiymatlari bilan mos keladigan modelni solishtirdilar T IME ning besh bosqichiga mos keladigan modelga ular o'zgaruvchanlikka asoslangan qo'shni klasterlashdan foydalanishga erishdilar. (VNC) va oxirgi model mosroq edi. Shunday bo'lsa-da, buni hamma uchun mos keladigan adyol sifatida tushunish kerak emas tavsiya - bunday qarorlar har bir holatda qabul qilinishi kerak. Masalan, vaziyatda Quyidagi 6-rasmda ko'rsatilgan ancha monoton tendentsiya, hech bo'lmaganda regressiya-analitik maqsadlarda, T IME ning xom qiymatlari VNC-dan olingan o'rtacha chastotalarni ishlatish kabi foydali bo'lishi mumkin. 107 Til va tilshunoslik 16(1) Umumiy o'sish tendentsiyalari mavjudligini korrelyatsiya koeffitsientlari bilan osongina tekshirish mumkin masalan, Kendall's t yoki boshqalar. Biroq, nafaqat bunday ma'lumotlar taxminlarni buzishi mumkin tez-tez ishlatiladigan statistik testlar, masalan, chiziqli regressiya, lekin ko'p tez-tez ishlatiladigan statistika ma'lumotlar haqida juda kam ma'lumot bering. Xususan, bunday statistika har doim ham javob bermaydi kabi savollar: (i) Farq bormi?ma'lumotlarning o'zgaruvchan bosqichlari, agar shunday bo'lsa, qancha?; (ii) Bularni bajaring turli bosqichlar tendentsiya turlarini namoyish etadimi? Birinchi savolga javob berishning tez-tez izlanish usuli, ya'ni quyi tuzilma(lar)ni aniqlash. korpus ma'lumotlarida, ierarxik klaster tahlili, ma'lumotlar nuqtalarini klasterlarga guruhlaydigan statistik vosita ballar asosida"juftlik o'xshashligi (masalan, MLU qiymatlari o'rtasidagi farqlar yoki ( e ) s ning foizlari orasidagi farqlar ). Biroq, bunday klaster tahlillari to'g'ridan-to'g'ri amalga oshirilmaydi bunday vaqtinchalik tartiblangan ma'lumotlarga nisbatan qo'llanilishi mumkin: O'xshashlik matritsasi hisobi, aytaylik, the ( e ) s ning foizlari bir- biridan 150 yil yoki undan ko'proq masofada joylashgan ma'lumotlar nuqtalari uchun juda yuqori o'xshashlikni qaytaradi. Biroq, klaster tahlili bunday uzoq ma'lumotlar nuqtalarini bir joyga to'plamasligi kerak tarixiy ma'lumotlar, bir-biridan 150 yoki undan ko'proq yil bo'lishi mumkin bo'lgan ma'lumotlar nuqtalarini guruhlash juda mantiqiy emas. Xuddi tilni o'zlashtirish ma'lumotlarida 2 yoki undan ortiq yil bo'lishi mumkin bo'lgan ma'lumotlar nuqtalarini guruhlash kabi kognitiv jihatdan juda oz ma'noga ega.Shunday qilib, klaster-analitikning modifikatsiyasi talab qilinadi yondashishga ruxsat berishdan ko'ra, uni mahalliy darajada ishlashga majbur qiladijuda uzoq bo'lgan ge ma'lumotlar nuqtalari alohida. Bunday yondashuvlardan biri o'zgaruvchanlikka asoslangan qo'shni klasterlashdir (VNC; qarang: Gries & Hilpert 2008). VNC an'anaviy klasterlash yondashuvlaridan farq qiladi, chunki u faqat vaqtinchalik qo'shni ma'lumotlarga ruxsat beradi. nuqtalarni birlashtirish kerak. Xususan, bu iterativ yondashuv bo'lib, har bir iteratsiya davomida, barcha qo'shni (klasterlar) vaqt nuqtalarini ularning o'xshashligini tekshiradi, qaysi ikkitasini (klasterlarni) aniqlaydi. vaqt nuqtalari bir-biriga eng o'xshash bo'lib, ularni bitta yangi nuqta klasteriga (klaster) birlashtiradi vaqt va takrorlanadi. Bu yerga, keng tarqalgan vaqt davrlarini birlashtirib bo'lmaydi (diaxronik- ittifoqdosh yoki sotib olish yo'li bilan) haqiqiy bo'lmagan klaster, ammo bosqichlar va chet elliklar printsipial ravishda aniqlanishi mumkin. va takrorlanadigan usul. Oddiy misol sifatida 6-rasmni ko'rib chiqing. Chap panelda uning rivojlanishi ko'rsatilgan chastotalar/10K so'zlar, chunki Time jurnali korpusida. Shubhasiz, tendentsiya mavjud 5-rasm : Geterogen temporal korpus ma'lumotlariga misollar: birinchi tilda MLU ma'lumotlari olish (chap panel) va uchinchi shaxs birlik ( e ) lar nisbati (o‘ng panel) 108 Stefan Th. Gries shuning uchun tez-tez bo'lib bormoqda (va darajali korrelyatsiya bu tendentsiyani ochib beradi muhim bo'lishi ( t = 0,743, p = 0,005). O'ng panel hali ham kuzatilgan chastotalarni ko'rsatadi chunki (kulrang), lekin VNC tahlilining natijasini qoplaydi.Ierarxik klasterda odatdagidek tahlil qilish uchun tahlilchi o'xshashlik ko'rsatkichi va birlashma qoidasini tanlashi kerak va bu tahlil birinchisi uchun o'zgaruvchanlik koeffitsientlari va ikkinchisi uchun birlashma ishlatildi. VNC algoritmi keyin uchta klasterni qaytaradi (1920-1950-yillar, 1960-1980-yillar va 1990-2000-yillar) va tahlilchiga imkon beradi ning o'rtacha kuzatilgan chastotasini hisoblang (va kesilgan gorizontal chiziqlar bilan ifodalang) . har bir vaqt oralig'ida. Bunday yondashuv qiziqarli imkoniyatlarga ega. U faqat bosqichlarni aniqlash uchun ishlatilishi mumkin tarixiy ma'lumotlar, bu o'z-o'zidan qiziqarli bo'lishi mumkin. Keyin, fn da ilgari aytib o'tilganidek. 3, shunga o'xshash bosqichlar o'z navbatida keyingi tahlillar uchun ham ishlatilishi mumkin, masalan, regressiya-analitik yondashuvlarda. Shubhasiz, usul rivojlanishni aniqlash uchun tilni o'zlashtirish ma'lumotlariga ham qo'llanilishi mumkin bolalarning bosqichlari yoki boshqa barcha berilgan odatdagidan tashqari o'zini tutish yozuvlar aniqlash uchun Ulardan oldin va keyin yozuvlar. Masalan, 7-rasmda VNCni grammatik chastotalarga qo'llash natijalari ko'rsatilgan Patricia Clancy's koreys tilidagi koreys bolasining 13 ta yozuvidagi naqshlar (xronologik tartibda) birinchi tilni o'zlashtirish korpusi (qarang: Clancy 2003). Chap panelda VNC dendrogrammasi ko'rsatilgan nafaqat uchta alohida ko'p yozuvli klasterni aniqlaydi, balki birinchi yozuvni ham ko'rsatadi, bola eng kichik bo'lgan joyda, biroz chetga chiqadi. Uchta klaster qabul qilinganda, keyin bitta har bir klaster uchun o'rtacha (normallashtirilgan) paydo bo'lish chastotalarini hisoblashi mumkin. Bunday holda, mumkin quyidagi tendentsiyalarga qarang: - Vaqt o'tishi bilan nol kamroq bo'ladi; - Vaqt o'tishi bilan P tez-tez uchraydi; - N va DP ko'p o'zgarmaydi / sezilarli. 6-rasm: T.ning bir necha o'n yilliklar davomida chastotasining rivojlanishimen jurnal:chastota/10K so'zlar (chap panel) va klasterli uch klasterli VNC dendrogrammasi o'rtacha chastotalar (o'ng panel) 109 Til va tilshunoslik 16(1) Yuqoridagilarning barchasida VNC o'lchangan ma'lumotlar bir xil bo'lishi mumkin bo'lgan ma'lumotlarda ishlatilgan (faqat bir chastotada bo'lgani kabi ) yoki ko'p o'zgaruvchan (bir nechta chastotalar grammatik naqshlar) tilni o'zlashtirish ma'lumotlarida bo'lgani kabi), lekin qaerda o'lchov qaysi bo'ylab klasterlash sodir bo'ldi va VNC uni qo'shni elementlar bilan cheklab qo'ydi. o'lchovli: vaqt. Yana bir qiziqarli kengaytma ishlatilmoqdaU erda ma'lumotlarni tahlil qilish uchun VNC miqdoriy dialektologiyada geografik ma'lumotlarni o'rganish kabi bir nechta o'lchovdir sozlash va muntazam ierarxik klaster algoritmining geografik jihatdan birlashishini oldini olishni xohlaydi juda uzoq hududlar. VNC algoritmi mos ravishda sozlanishi mumkin. 8-rasmda an ko'rsatilgan 62 leksik-grammatik uchun normallashtirilgan chastotalarni ta'minlaydigan matritsaga VNCni qo'llash Buyuk Britaniyaning 30 dan ortiq mintaqalari uchun xususiyatlar. Agar qaysi mintaqalar paydo bo'lishini aniqlamoqchi bo'lsangiz chastota ma'lumotlari, ammo, ehtimol, Banffshire (BAN) ni birlashtirishni istamaydi Janubiy Devon (DEV) bilan. Shunday qilib, VNC algoritmi faqat klasterlash imkonini beradigan tarzda o'zgartiriladi boshqa okruglar yonida joylashgan okruglar soni, boshqa okruglar esa alohida yoki alohida bo'lishi mumkin allaqachon birlashtirilgan okruglar klasterining bir qismi sifatida. 8-rasmda takrorlash jadvalining uch xil bosqichi ko'rsatilgan: - Chap panelda birinchi kichikroq klasterlar asosan janubda paydo bo'lgan (bir Kornuoll va Devon viloyatlarida va Kent, Sharqiy Suffolk va London viloyatlarida) shuningdek, bitta kichik Dumfriesshire va Manchester atrofida kattaroq. - Markaziy panelda janubning katta qismi endi bir-biriga bog'langan (garchi Kornuoll/Devon qolganlardan alohida qolish); o'rta sohada ko'p narsa o'zgarmadi. - O'ng panelda mamlakatning aksariyat qismi shimoldan tashqari o'zaro bog'langan - Banffshire, Sazerlend, Ross va Gebridlar atrofida. 7-rasm: VNC ning tilni o'zlashtirish ma'lumotlariga qo'llanilishi:VNC chastotalarini tahlil qilish V ismli bolaning 13 ta yozuvining grammatik naqshlarienceng (chap panel); o'rtacha chiziq chizmalari VNC tahlilida aniqlangan uchta yosh klasteridagi naqshlarning foizlari (o'ng panel) (ma'lumotlar hurmati bilan P.M. Clancy) 110 Stefan Th. Gries Shunday qilib, VNC (metodik jihatdan ancha murakkab) domeniga hissa qo'shishi mumkin korpus-lingvistik tasvirlangan hududlarda tuzilmalarni aniqlashga yordam berish orqali miqdoriy dialektologiya fonida talqin qilinishi mumkin bo'lgan mamlakat yoki boshqa yirik mintaqalar boshqa empirik yoki nazariy ishlar. Tarixiy korpusning mavjudligini hisobga olgan holda va mintaqaviy tabaqalashtirilgan korpus, shuning uchun bu usul korpus-lingvistikaga foydali qo'shimcha bo'lishi mumkin asboblar to'plami. 3.2 O'quvchilar korpusini tadqiq qilish va pretishmayotgan/qashshoqlashgan kontekst oblem Bu erda muhokama qilinadigan yakuniy korpus-lingvistik soha bu o'quvchilar korpusini tadqiq qilish, ya'ni ona tili bo'lmagan (NNS) nutqi va/yoki o'z ichiga olgan korpuslarni o'rganuvchi korpus tilshunosligi bo'limi yozish. O'sish sur'atlarini hisobga olgan holda so'nggi 15 yil ichida bu soha tobora faollashdi mavjudligi o'quvchilar korpusi. Ushbu ishning aksariyati NNS tili ma'nosida qarama-qarshidir o'quvchining maqsadi, shuningdek, uning L1(lar)i va ortib borayotgan ish hajmi bilan taqqoslanadi o'quvchilar korpusi ma'lumotlariga kognitiv ma'lumotli nuqtai nazardan yondashadi. Afsuski, ko'pchilik Ushbu sohadagi tadqiqotlar miqdoriy jihatdan juda sodda va haddan tashqari ta'riflar bilan cheklangan. va NNS tilidagi lingvistik elementlarning bir yoki ikki o'zgaruvchanlik bilan birga kam qo'llanilishi chi-kvadrat testlari. Bunga misollar kiradi: 8-rasm: VNC ning ikki o'lchovli geografik ma'lumotlarga kengayishi: uchta iteratsiya (#14 (chapda), #20 (o'rtada), №31 (o'ngda)) Britaniya okruglarini chastotalar asosida klasterlashdan leksik-grammatikxususiyatlar (ma'lumotlar B. Szmrecsanyi tomonidan berilgan; qarang: Szmrecsanyi & W2011 yil turli tahlillar, muhokamalar va boshqa havolalar uchun) 111 Til va tilshunoslik 16(1) - Aijmer (2002), u NS ingliz tilida modal fe'llarning qo'llanish chastotalarini o'rganadi. LOCNESS corpus) va NNS English (ICLE corpus shved komponentida) bilan bir nechta chi-kvadrat testlari. - Altenberg (2002), ingliz tilidan foydalanish chastotalari/foizlarini muhokama qiladi va shvedchato'rt xil konstruktiv naqshda go'ra va "boshqa"kategoriya. - Hasselgård va Yoxansson (2011) dan foydalanish holatlarini o'rganishLOCNESS korpusida va ICLE Korpusining to'rtta komponenti (Norvegiya, Germaniya, Frantsiya va Ispaniya) o'z ichiga oladi Chi-kvadrat testlari juda chastotani (ham o'z-o'zidan, ham kolligatsiya bilan) taqqoslaydi. ICLE komponentlarini uning LOCNESS chastotasiga. Odatda, bunday miqdoriy tahlillar nafaqat yuqorida ko'tarilgan barcha muammolar tufayli, balki ular o'z ona tili bo'lmagan va ona tilida so'zlashuvchilarni solishtirmaydi/qiyoslamayapti til o'xshash vaziyatda qiladi '(Peri-Voodley 1990:143, Granger 1996:43 dan iqtibos keltirdi, bizning e'tiborimiz). Buning sababi shundaki, ko'plab tadqiqotlar taqqoslanadigan vaziyat tushunchasini bitta holatga qisqartiradi birgalikda yuzaga keladigan omil/bashoratchi, masalan, qachonAltenberg (2002) bittaga asoslangan make dan foydalanishni o'rganadi bashorat qiluvchi - birgalikda yuzaga keladigan naqshlar - yoki Hasselgård & Johansson (2011) juda bir bashoratchiga asoslangan foydalanish - uning kollegatsiyasi. Birgalikda belgilovchi ko'plab omillarni hisobga olgan holda, aytaylik: yaqin sinonim so‘zlar turkumining qaysi so‘zi tanlangan yoki ikki yoki undan ortiq grammatik so‘zlardan qaysi biri tanlangan inshootlar tanlanadi, bunday tadqiqotlar qattiq qashshoqlikdan boshqa narsa bo'lishi mumkin emas. Shunday qilib, agar o'quvchilar korpusini o'rganishning maqsadi ona tilida so'zlashuvchi (NS) qandayligini aniqlash bo'lsa va NNS tili bir-biridan farq qiladi, taqqoslanadigan vaziyatning yanada kengroq ta'rifi kerak, bu odatda so'z/naqsh misollarining bir nechta xususiyatlarini izohlashni talab qiladi savol. Bu, o'z navbatida, ushbu ko'plab xususiyatlarning barchasi statistik ma'lumotlarga kiritilishi kerakligini anglatadi Ushbu xususiyatlardan qaysi biri kompaniyaga qanday ta'sir ko'rsatishini aniqlash uchun tahlil qilish boshqa barcha xususiyatlar. TBularning barchasini amalga oshirishning asosiy imkoniyatlari mavjud: ikkalasi ham korpus ma'lumotlarini talab qiladi NS va NNS ma'lumotlaridan olingan va bo'lgan ko'rib chiqilayotgan E elementida Ideal holda, ishonish uchun asos bo'lgan barcha xususiyatlarni hisobga olgan holda izohlanadini tanlashga imkon beradi E . Keyin, birinchi navbatda, regressiyaga mos kelishi mumkin, unda: - To'g'ri o'zgaruvchi ikkilik yoki politomli tanlovdir (ikkilik yoki ko'p to'plam uchun) mial logistik regressiya) yoki chastota (Puasson regressiyasi uchun); tanlash uchun ning -ga nisbatan s -genitivlari, bu G ENITIVE ikkilik o'zgaruvchisi bo'ladi :ning qarshi s. - Bashorat qiluvchilar barcha izohli xususiyatlar, shuningdek, ularning statistik o'zaro ta'siri (odatda faqat ikkinchi yoki uchinchi darajagacha); - va s -genitivlarni tanlash uchun bu mumkin ega va eganing jonivorligi, eganing uzunligi va uzunligi kiradi. egalik, ega va eganing berilganligi va boshqalar; ideal holda, bu ma'lumotlar talab qilganidek, tasodifiy effektlarga ega aralash effektlar/ko'p darajali model bo'ladi. savol(lar). - Oldingi o'q nuqtasidagi barcha bashoratchilarga ham a bilan o'zaro ta'sir o'tkazishga ruxsat beriladi C ORPUS yoki L1 deb nomlangan bashoratchi. Oxirgi ikki yo'riqnomaning mantiqiy asosi nima? Ikkinchi yo'riqnomaning mantiqiy asosi Agar o'zaro ta'sirni o'z ichiga olmasa, aytaylik:A NIMACY P OSSESSOR : A NIMACY P OSSSESS , keyin bir bor 112 Stefan Th. Gries s -genitives uchun jonli egalarning afzalligi to'g'ri keladimi yoki yo'qligini aniqlashning hech qanday usuli yo'q. eganing konkretmi yoki yo'qligi haqida. Uchinchi yo'l-yo'riqning asosi shundaki, agar shunday bo'lsa o'zaro ta'sirni o'z ichiga olmaydi, aytaylik,A NIMACY P OSSESSOR :L1, keyin yoki yo'qligini aniqlashning imkoni yo'q s -genitives uchun jonli egalarning afzalligi ham NS, ham bir yoki bir nechta NNS guruhlarida mavjud. bir xil darajada (barcha boshqa (muhim) bashorat qiluvchilarning mavjudligini hisobga olgan holda), bu aniq Ko'pchilik o'quvchilar korpusini o'rganishni qiziqtiradigan, lekin ko'pincha javob bera olmaydigan savol juda kam tegishli bashorat qiluvchilar kiritilgan (qarang: Gries & Wulff 2013 va Gries & Deshors Misollar va muhokama uchun 2014). Ikkinchi yondashuv mavjud (multifaktorial bashorat va og'ish uchun MuPDAR deb ataladi Regressiyalar bilan tahlil qilish) bu yanada istiqbolli. U quyidagi bosqichlarni o'z ichiga oladi: (i) Yuqoridagi birinchi ikkita nuqtaga mos keladigan birinchi regressiya R 1ni moslang, lekin faqat NS ma'lumotlari. (ii) Agar va faqat agar R 1 yaxshi moslik va tasniflash aniqligiga olib kelsa, regressni qo'llang. Shunday qilib , har bir NNS ma'lumot nuqtasi uchun olish uchun R 1 dan NNS ma'lumotlariga sion tenglamasi olinadi bir NS juda bir xil vaziyatda nima qilgan bo'lardi, bir bashorat, qaysi xizmat qiladi oltin standart sifatida. (iii) Agar R 1 ning NS regressiya tenglamasi ham nisbatan yaxshi mos keladigan bo‘lsa, NNS ma'lumotlari, R 2 ikkinchi regressiyaga mos keladi, unda qaram o'zgaruvchi hozir a bo'ladi NNS NS bilan bir xil tanlov qilgan yoki yo'qligini ko'rsatadigan ikkilik o'zgaruvchi ( ha qarshi yo'q ) qilgan bo'lardi, yoki doimiy o'zgaruvchi NNS tanlovining qancha miqdorini aniqlaydi NS aytishi/yozishi kutilgan narsa bilan solishtirildi (agar NNS bo'lsa, bu o'zgaruvchi 0 ga teng. NS va noldan boshqa raqamni tanladi, lekin agar bo'lmasa -1 va +1 orasida). Aynan shu regressiya yondashuvi o'quvchilar korpusining asosiy savoliga aniq javob beradi tadqiqot - NNS kerak bo'lgan bu lingvistik va ehtimol kontekstual jihatdan murakkab vaziyatda tanlov qil, u o'ziga xos tanlov qildimi, 'Yes yoki yo'q?'. Va bu regressiya yondashuvi taqqoslanadigan vaziyatning har tomonlama ta'rifini talab qiladi va shu bilan birga kafolatlaydi - Umid qilamanki, NNS kerak bo'lgan vaziyatni tavsiflovchi ko'plab izohli omillar tanlov qiling. Gries & Adelman (2014) ushbu yondashuvdan foydalanadigan tadqiqotdir: (i) Birinchi aralash effektli regressiya R 1ni moslashtiring, u yapon NS mavzuni tushunadimi yoki yo‘qligini modellashtiradi jumlada sub'ektning ko'rsatuvchisi qarama-qarshilik (o'zgaruvchi C ONTRAST deb ataladi) va qanday berilganligi (G IVENNESS deb nomlangan o'zgaruvchi ). (ii) R 1 dan olingan regressiya tenglamasini ona tili bo'lmagan yapon tilida so'zlashuvchilarga qo'llang har bir NNS ma'lumot nuqtasi uchun NS bo'ladimi yoki yo'qligini bashorat qilish uchun korpus ma'lumotlari mavzuni o'sha erda tushundim, ha yoki yo'q. (iii) Tobe oʻzgaruvchi ikkilik boʻlgan R 2 ikkinchi aralash effektli regressiyani moslang NNS NS bilan bir xil tanlov qilgan yoki yo'qligini ko'rsatadigan o'zgaruvchi ( ha va yo'q ). G IVENNESS bashoratchini modellashtirish uchun ikkinchi darajali ko'phaddan foydalanib , ular buni topadilar NNS umuman olganda NS xatti-harakatlariga juda yaqin, lekin (i) turli ma'ruzachilar juda ko'p namoyon bo'ladi 113 Til va tilshunoslik 16(1) turli xil malaka darajalari, va (ii) barcha NNS mahalliy kabi tanlovlar qilish bilan eng ko'p kurashadi berilganlik va qarama-qarshi bo'lmagan referentlarning o'rta darajalari: - Referent qarama-qarshi bo'lsa, ular buni NS kabi sub'ekt pozitsiyasida tushunadilar. - Referent kontrastli bo'lmagan va juda berilgan yoki butunlay yangi bo'lsa, ular bunday qilmaydi uni sub'ekt pozitsiyasida anglab eting yoki NS kabi mavzu pozitsiyalarida amalga oshiring. - Referent qarama-qarshi bo'lmagan va biroz berilgan bo'lsa, unda bu o'rta- berilganlik darajasi, ularning mahalliylik darajasi pasayadi. Biroq, bu yondashuvni yanada takomillashtirish va rivojlantirish kerak. Gap-so'zsiz u kognitiv va kontekstual jihatdan ancha real va statistik jihatdan ko'proq mos keladi kontekstsizlashtirilgan chastotalar va/yoki chi-kvadrat testlariga qaraganda. Shunday qilib, yana bir bor umid qilish kerak Bu kabi analitik strategiyalar o'quvchilar korpusini tadqiq qilishda, tadqiqotlarida ko'proq o'rin egallaydi navlari va korpus ma'lumotlarining bir qismini standart yoki deb hisoblash mumkin bo'lgan boshqa har qanday domen boshqalarni mazmunli taqqoslash mumkin bo'lgan maqsad. 4. Xulosaizohlar Qisqacha xulosa qilib aytadigan bo'lsak, korpus lingvistikasi so'nggi yillarda juda katta yutuqlarga erishdi. o'tgan. To geografik jihatdan biroz cheklangan, unchalik keng qo'llanilmaydigan usuldan o'sadi Shimoliy va Markaziy Evropaning bir qancha mamlakatlarida eng ko'p qo'llaniladigan usullardan biri 15-20 yil ichida dunyo bo'ylab har xil nazariy e'tiqodlarning tilshunosligi kichik muvaffaqiyat emas. Qanday- Hech qachon, bizning yutuqlarimiz bilan dam olish vaqti emas - endi korpus lingvistikasi asosiy oqimga aylandi va bu yaxshi narsa, biz ham boshqa sohalar kabi o'z uslubimizni takomillashtirishda davom etishimiz kerak. Ko'pchilik psixolingvistika va hisoblash tilshunosligining sohalari qiziqarli kashfiyotlar qildi, bor foydali vositalarni ishlab chiqdi, qo'shni sohalardan ajoyib usullarni o'zlashtirdi, lekin korpus lingvistikasi afsuski, to'plamda etakchi emas va nuqtai nazaridan ham tezligini yo'qotmaslik uchun ehtiyot bo'lish kerak o'zining evolyutsiyasi yoki umuman tilshunoslikni shakllantirishga qanday yordam berishi nuqtai nazaridan. Hozirgi qog'oz umuman korpus lingvistikasida ham, hozirgi muammolarning ham qisqacha tasvirini berishga urinish tanlangan dolzarb mavzularda, shuningdek, qanday qilib engish bo'yicha g'oyalar va (birinchi) takliflarni taqdim etish bu muammolar bilan; Umid qilamanki, u (uslubiy) qurollarga chaqiruv sifatida muvaffaqiyatli bo'ladi va shuning uchun tetik sohamizning yana bir bor rivojlanishiga yordam beradigan o'zgarishlar. Ma'lumotnomalar Aymer, Karin. 2002. Ilg'or shved o'quvchilarida modallik.yozma tillararo. Kompyuter O'quvchi korpusi , ikkinchi tilni o'zlashtirish va chet tili Thar bir, ed . Sylvi- Granjer, Jozef Hung va Stefani Petch-Tyson, 55-76. Amsterdam va Filadelfiya: Jon Benjamins. Altenberg, Bengt. 2002. O'quvchilar korpusini tadqiq qilishda ikki tilli korpus dalillaridan foydalanish. Kompyuter O'quvchi korpusi , ikkinchi tilni o'zlashtirish va chet tili Thar bir, ed . Sylvi- Granjer, Jozef Hung va Stefani Petch-Tyson, 37–54. Amsterdam va Filadelfiya: Jon Benjamins. 114 Stefan Th. Gries Baayen, R. Xarald. 2010a. Ahaqiqiy tajriba faktoriy tajribami? Ruhiy leksika 5.1: 149–157. Baayen, R. Xarald. 2010b. So'z chastotasining ta'sirini demitologiyalash: diskriminativ o'rganish nuqtai nazar. Ruhiy leksika 5.3: 436–461. Casenhiser, Devin vaAdele E. Goldberg. 2005. Frazali shakl va ma'no o'rtasidagi tezkor xaritalash. Rivojlanish fanlari 8.6: 500–508. Klansi, Patrisiya M. 2003 yil.O'zaro ta'sirdagi leksika: afzal argumentning rivojlanish kelib chiqishi Koreys tilida tuzilish. Afzaled Argument Structure: Funktsiya uchun arxitektura sifatida grammatika , ed. tomonidan Jon V. Du Bois, Lotaringiya E. Kumpf va Uilyam J.Ashby, 81-108.Amsterdam va Filadel - phia: Jon Benjamins. Klark-Sanches, Viktoriya. 2013. Miqdoriy korpus tilshunosligini R bilan ko'rib chiqish: Amaliy Kirish . Korpora 8.2: 269–272. Daudaravi čius , Vidas, & R ū ta Marcinkevi č ien ė . 2004. ning chegaralari uchun tortishish hisoblanadi birikmalar. Korpus lingvistikasi xalqaro jurnali 9.2:321–348. Ellis, Nik C. 2006. Tilni o'zlashtirish oqilona tasodifiy o'rganish sifatida. Amaliy tilshunoslik 27.1: 1–24. Ellis, Nik C., Rita Simpson-Vlach va Karson Maynard. 2007. Formulalarni mahalliy tilida qayta ishlash va L2 ma'ruzachilar: psixolingvistik va korpus determinantlari. UWM da taqdim etilgan maqola Formulaik til bo'yicha tilshunoslik simpoziumi, 2007 yil 16-21 aprel. Miluoki: Universitet Viskonsin-Miluoki. Evert, Stefan. 2009. Korpora va birikmalar. Korpus tilshunosligi: xalqaro qo'llanma , Vol. 2, ed. Anke Lüdeling va Merja Kytö tomonidan, 1212–1248. Berlin va yangiYork: Mouton de Gruyter. Birinchisi, Jon R. 1957. Atilshunoslik nazariyasi konspekti 1930–55. Lingvistik tahlil bo'yicha tadqiqotlar , 1-32. Oksford: Bazil Blekvell. Grenjer, Silvian. 1996. CAdanMarkaziy razvedka boshqarmasi va orqaga: kompyuterlashtirilgan ikki tilli integratsiyalashgan yondashuv va o'quvchilar korpusi. Qarama-qarshi tillar: T.ga bag'ishlangan simpoziumdan ma'ruzalarext-asoslangan Kross-lingvistik tadqiqotlar , Lund , 1994 yil 4-5 mart , ed. Karin tomonidanAymer, Bengt Altenberg & Mats Yoxansson, 37-51. Lund: Lund universiteti nashriyoti. Gris, Stefan Th. 2008. Korporadagi dispersiyalar va sozlangan chastotalar. Xalqaro jurnali Korpus tilshunosligi 13.4: 403–437. Gris, Stefan Th. 2010a. Korpus tilshunosligida uslubiy ko'nikmalar: polemik va ba'zi ko'rsatkichlar miqdoriy usullarga. Tildagi korpus lingvistikasi Thar bir, ed . Toni Xarris va Mariya Moreno Jaen, 121–146. Frankfurt-Mayn: Piter Lang. Gris, Stefan Th. 2010b. Registrlar, domenlar va navlardagi bigrammalar: gravitatsiyaga Biggram yondashuvi korpusning bir xilligi. 2009 yil 20-23 iyul, 2009 yil 20-23 iyulda Korpus Lingvistikasida taqdim etilgan maqola. Liverpul: Liverpul universiteti. http://ucrel.lancs.ac.uk/publications/cl2009. Gris, Stefan Th. 2010c. Korporadagi dispersiyalar va sozlangan chastotalar: keyingi tadqiqotlar. Korpus lingvistik ilovalari: joriy tadqiqotlar , yangi direktorections , ed. Stefan Th tomonidan Gries, Stefani Vulff & Mark Davies, 197–212. Amsterdam va Nyu-York: Rodopi. Gris, Stefan Th. 2011. Korpus lingvistikasida metodologik va fanlararo pozitsiya. Perspektivlar Korpus tilshunosligi bo'yicha: aloqalar va qarama -qarshiliklar , ed. tomonidan Vander Viana, Sonia Zyngier va Jeffri Barnbruk, 81–98.Amsterdam va Filadelfiya: Jon Benjamins. 115 Til va tilshunoslik 16(1) Gris, Stefan Th. 2013 yil. 50-yillik qo'shma birikmalar ustida ish: keyingi nima yoki nima bo'lishi kerak ... Korpus lingvistikasi xalqaro jurnali 18.1:137–165. Gris, Stefan Th. (kelgusi). Korpus tilshunosligida eng kam qo'llaniladigan statistik usul: ko'p darajali (va aralash effektli) modellar. Korpora 10.1. Gries, Stefan Th., &Allison S. Adelman. 2014. Yaponcha suhbatda mavzuni mahalliy tomonidan amalga oshirish va ona tili bo'lmaganlar: o'quvchilar korpusini tadqiq qilish uchun yangi paradigma namunasi. Yeshitish kitobi Korpus lingvistika va pragmatika 2014: Yangi empirik va nazariy paradigmalar , 35–54. Berlin va Nyu-York: Springer. Gris, Stefan Th. va Sandra C. Deshors. 2014. orasidagi og'ishlarni o'rganish uchun regressiyalardan foydalanish korpus ma'lumotlari va standart/maqsad: ikkita taklif. Korpora 9.1: 109–136. Gris, Stefan Th. va Martin Hilpert. 2008. Diaxronik ma'lumotlarda bosqichlarni aniqlash: o'zgaruvchanlik- qo'shni klasterga asoslangan. Korpora 3.1:59–81. Gris, Stefan Th. va Martin Hilpert. 2010. III shaxsning diaxronik oʻzgarishini modellashtirish: multifaktorial, fe'l va muallifga xos kashfiyot yondashuvi. Ingliz tili va tilshunoslik - tics 14.3: 293–320. Gris, Stefan Th. va Joybrato Mukherji. 2010. Ingliz tilining navlari bo'yicha leksik tortishish: an Osiyo inglizlarida n -gramlarni ICE asosida o'rganish . Korpus lingvistikasi xalqaro jurnali 15.4:520–548. Gris, Stefan Th. va Stefani Vulff. 2013. Xitoy va nemis ESL tillarida genitiv almashinish o'quvchilar: o'quvchilar korpusini tadqiq qilishda ko'p faktorli kontekst tushunchasiga. Xalqaro Journal of Corpus Linguistics 18.3:327–356. Xarris, Zellig S. 1970. Strukturaviy va transformatsion tilshunoslik bo'yicha maqolalar . Dordrext: Reidel. Hasselgård, Xilde va Stig Yoxansson. 2011. O'quvchilar korpusi va kontrastli tillararo tahlil. DAKorpora uchun aste: Sylviane Granger sharafiga , ed. Fanni Meunier, Silvi De Kok, Gaëtanelle Gilquin va Magali Paquot, 33–61. Amsterdam va Filadelfiya: Jon Benjamins. Janda, Laura A. (ed.) 2013. Kognitiv tilshunoslik: Miqdoriy Turn . Berlin va Nyu-York: De Gruyter Mouton. Jozef, Brayan. 2004. Tilning o'zgarishi va tilning o'zgarishi haqida. Til 80.3:381–383. McDonald, Scott A. va Richard C. Shillcock. 2001. So'z chastotasini qayta ko'rib chiqish effect: the leksik qayta ishlashda tarqatuvchi ma'lumotlarning e'tibordan chetda qolgan roli. Til va nutq 44.3: 295–322. Mishelbaxer, Lukas, Stefan Evert va Hinrich Shutse. 2007 yil.Assimetrik assotsiatsiya choralari. Tabiiy tilning so'nggi yutuqlari bo'yicha xalqaro konferentsiyada taqdim etilgan ma'ruza Qayta ishlash (RANLP 2007), 27-29 sentyabr, 2007 yil. Borovets, Bolgariya. Mishelbaxer, Lukas, Stefan Evert va Hinrich Shutse. 2011. Korpusdan olingan va assimetriya insoniy so'z birikmalari. Korpus tilshunosligi va lingvistik nazariya 7.2: 245–276. Mollin, Sandra. 2009. Soʻzlarning qoʻshma kelishiga oid korpus lingvistik va psixologik maʼlumotlarni birlashtirish: korpus so'z birikmalariga nisbatan qo'shma joylashadi. Korpus tilshunosligi va lingvistik nazariya 5.2: 175–200. Nakagava, Shinichi va Xolger Schielzeth. 2013. Adan R 2 ni olishning umumiy va oddiy usuli umumlashtirilgan chiziqli aralash effektli modellar. Ekologiya va evolyutsiyadagi usullar 4.2: 133–142. Peri-VUdli, Mari-Paule. 1990. Qarama-qarshi nutqlar: kontrastli tahlil va nutq yozishga yondashuv. Til Thar biri 23.3: 143–151 . 116 Stefan Th. Gries R Yadro Team. 2014. R: statistik hisoblash uchun til va muhit. uchun R fondi statistik hisoblash. VIenna, Avstriya. http://www.R-project.org/. Rekkiya, Gabriel, Brendan T. Jons va Maykl N. Jons. 2008. Kontekstni takrorlashning afzalliklari kontekstning ortiqchaligiga bog'liq. PrKognitivning yillik konferentsiyasi Ilmiy jamiyat 30:267–272. Simpson-Vlach, Rita va Nik C. Ellis. 2005. Akademik formulalar roʻyxati (AFL): chiqarish, tekshirish, ustuvorlik. Maqola "Frazeologiya 2005", 2005 yil 13-15 oktyabr. Louven-la-Neuve: Luvain katolik universiteti. Stefanovitsch, Anatol va StefanTh. Gries. 2003. Collostructions: ning o'zaro ta'sirini tekshirish so'zlar va konstruktsiyalar. Korpus lingvistikasi xalqaro jurnali 8.2:209–243. Stoll, Sabine va Stefan Th. Gries. 2009. Korporativ rivojlanishni qanday o'lchash mumkin?Uyushma kuchli yondashuv. Bolalar tili jurnali 36.5: 1075–1090. Szmrecsanyi, Benedikt va Kristof Volk. 2011. Holistik korpusga asoslangan dialektologiya. braziliyalik Amaliy tilshunoslik jurnali 11.2:561–592. Vahl, Aleksandr R. (davom etmoqda). Multi-worni chiqarishga yangi yondashuvlard dan ifodalar Korpora: oldindan belgilanmagan Ngram uzunliklari ,Uzoq masofali bog'liqliklar va kengaytirilgan assotsiatsiyalar tsion chora-tadbirlari . Santa Barbara: Santa Barbaradagi Kaliforniya universiteti dissertatsiyasi. [2013 yil 30 dekabrda olingan; 2014 yil 18 aprelda qayta ko'rib chiqilgan; 2014 yil 27 iyunda qabul qilingan] Tilshunoslik kafedrasi Santa Barbaradagi Kaliforniya universiteti Santa Barbara, CA 93106-3100 AQSH stgries@linguistics.ucsb.edu Download 76.69 Kb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling