Brown Corpus
Таржима Jigarrang korpus - jigarrang korpus
Download 23.42 Kb.
|
Браун корпус
Таржима
Jigarrang korpus - jigarrang korpus Navigatsiyaga o'tingQidiruvga o'ting 1961 yilda Amerika inglizcha ma'lumotlar to'plami Brown University Standard Corpus of Modern American English (yoki oddiygina Brown Corpus ) Amerika ingliz tili matn namunalarining elektron toʻplami boʻlib , turli janrlardagi birinchi yirik tuzilgan korpusdir . Ushbu korpus birinchi marta kundalik tilda so'z turkumlarining chastotasi va tarqalishini ilmiy tadqiq qilish uchun zamin yaratdi. Rod - Aylenddagi Braun universitetida Genri Kucera va U. Nelson Frensis tomonidan tuzilgan , bu umumiy til korpusi bo'lib, AQSHda nashr etilgan asarlardan jamlangan, jami bir millionga yaqin so'zdan iborat 500 ta ingliz tili namunalarini o'z ichiga oladi. 1961 yildagi davlatlar. Tarkib
2 Tarqatish misoli 3 Ishlatilgan nutq teglarining bir qismi 4 Shuningdek qarang 5 havola 6 Tashqi havolalar Hikoya
Jigarrang tana. Bu turli manbalardan olingan millionga yaqin so'zdan iborat zamonaviy amerikacha ingliz tilining puxta tuzilgan kompilyatsiyasi edi. Kucera va Frensis uni ko'plab kompyuter tahlillaridan o'tkazdilar, ular asosida tilshunoslik, psixologiya, statistika va sotsiologiyaning elementlarini birlashtirgan boy va rang-barang asar tuzdilar. U hisoblash tilshunosligida juda keng qo'llanilgan va ko'p yillar davomida ushbu sohada eng ko'p keltirilgan manbalardan biri bo'lib kelgan. Birinchi leksik-statistik tahlil nashr etilganidan ko'p o'tmay , Boston nashriyoti Houghton-Mifflin o'zlarining yangi Amerika merosi lug'ati uchun million so'zli uch qatorli iqtiboslar bazasini taqdim etish uchun Kuceraga murojaat qildi . Birinchi marta 1969 yilda nashr etilgan ushbu yangi lug'at so'z chastotasi va boshqa ma'lumotlarni aniqlash uchun korpus lingvistikasidan foydalangan holda tuzilgan birinchi lug'at edi. Asl jigarrang korpusda faqat so'zlarning o'zi va har biri uchun joy identifikatori mavjud edi. Keyingi bir necha yil ichida nutqning bir qismi teglari qo'llanildi. Greene va Rubin yorliqlash dasturi ( Nutqni teglash bo'limiga qarang ) bunda katta yordam berdi, ammo yuqori xato darajasi keng qamrovli qo'lda tuzatish talab qilinishini anglatardi. Marked Brown Corpus nutqning 80 ga yaqin qismidan iborat namunadan, shuningdek, murakkab shakllar, qisqartmalar, xorijiy so'zlar va boshqa ba'zi hodisalar uchun maxsus ko'rsatkichlardan foydalangan va Lancaster-Oslo-Bergen korpusi kabi ko'plab keyingi korpuslar uchun modelni yaratgan. (1990-yil boshidan Britaniya ingliz tili -x) va Freiburg-Brown Corpus of American English (FROWN) (1990-yillarning boshidan Amerika ingliz tili). Korpusga teglar qo'shilishi, masalan, Endryu Makki tomonidan dasturlashtirilgan va ingliz tili grammatikasi kitoblarida tasvirlangan ish kabi yanada murakkab statistik tahlil qilish imkonini berdi. Qiziqarli natijalardan biri shundaki, hatto juda katta namunalar uchun ham so'zlarni paydo bo'lish chastotasining kamayishi tartibida ko'rsatish giperbolani ko'rsatadi : eng tez-tez uchraydigan n-chi so'zning chastotasi taxminan 1/n ga proportsionaldir. Shunday qilib, "the" Brown Corpusning deyarli 7% ni tashkil qiladi, "to" va "dan" - har biri yana 3% dan ortiq; Taxminan 50 000 so'zdan iborat umumiy lug'atning yarmiga yaqini hapax legomena : korpusda faqat bir marta uchraydigan so'zlar. Darajaning chastotaga oddiy bog'liqligi Jorj Kingsli Zipf (masalan, uning "Til psixobiologiyasi" ga qarang) tomonidan favqulodda xilma-xil hodisalar uchun qayd etilgan va Zipf qonuni sifatida tanilgan . Brown Corpus korpus tilshunosligi sohasida kashshof bo'lgan bo'lsa-da, hozirgi kunga qadar tipik korpuslar (masalan, zamonaviy Amerika inglizlari korpusi , Britaniya milliy korpusi yoki ingliz tilining xalqaro korpusi ) odatda 100 million so'zdan iborat bo'lib, ancha kattaroqdir. Namuna taqsimoti
Har bir namuna maqoladagi yoki boshqa tanlangan birlikdagi tasodifiy jumla chegarasidan boshlanadi va 2000 so'zdan keyin birinchi jumla chegarasigacha davom etadi. Juda kam hollarda noto'g'ri hisoblash namunalar 2000 so'zdan ozroq bo'lishiga olib keldi. Xom ma'lumotlar faqat katta harflar tugmasi bo'lgan mashinalarda kiritilgan ; bosh harflar oldingi yulduzcha bilan ko'rsatilgan va formulalar kabi turli xil maxsus elementlarda ham maxsus kodlar mavjud edi. Dastlab (1961) korpusda 15 toifadagi matnlardan olingan 1 014 312 ta soʻz bor edi: A. PRESS: Hisobot (44 matn)
teg Ta'rif . jumla (.;? *) ( chap qavs ) o'ng qavs * yo'q, yo'q -- chiziqcha , vergul : yo'g'on ichak ABL oldingi kvalifikatsiya (aniqrog'i) ABN oldindan belgilovchi (yarim, hammasi) ABX oldindan miqdor belgilovchi (ikkalasi ham) AP keyingi saralash (ko'p, bir nechta, keyingi) DA maqola (a, the, no) BO'LING bo'l KROVAT edi BEDZ edi BEG edi BEM am BEN edi BER ar, maqola BBB hisoblanadi CC muvofiqlashtiruvchi birikma (va, yoki) CD asosiy raqam (bir, ikki, 2 va boshqalar) CS qul aloqasi (agar bo'lsa ham) QILING qil DOD qildi DOZ amalga oshiradi DT yakkalik aniqlovchi / miqdor ko'rsatkichi (bu, bu) DTI determinant / kvant birlik yoki ko'plik (ba'zi, har qanday) DTS ko‘plik aniqlovchi (bular, o‘shalar) DTX determinant / qo'sh qo'shilish (ikkisi ham) EX u erda ekzistensial FW xorijiy so'z (odatiy tegdan oldin) HL sarlavhadagi so'z (oddiy tegdan keyin o'raladi) HV Unda bor HVD ega (o'tgan zamon) HVG Unda bor HVN bor edi (o‘tgan zamon) HVZ Unda bor IN bahona JJ sifatdosh JJR qiyosiy sifatdosh JJS Semantik ustunlikdagi sifat (asosiy, yuqori) JJT morfologik jihatdan ustun sifat (eng katta) MD modal ko‘makchi (balki, kerak, bo‘ladi) NC iqtibosli so'z (oddiy tegdan keyin chiziqcha) NN birlik yoki sonsiz ot NN$ birlik egalik ot NNS ko‘plikdagi ot NNS$ egalik koʻplik ot NP tegishli ism yoki nominal iboraning bir qismi NP$ egalik ot NPS ko‘plikdagi ot NPS$ egalik koʻplik toʻgʻri ot NR qo'shimcha ot (uy, bugun, g'arb) NRS ko‘plik qo‘shimchalari ot OD tartib raqami (birinchi, ikkinchi) PN nominal olmosh (hamma narsa, hech narsa) PN$ ega nominal olmosh PP$ egalik olmoshi (meniki, bizniki) PP$$ ikkinchi (nominal) egalik olmoshi (meniki, bizniki) PPL birlik refleksiv / intensiv shaxs olmoshi (I) PPLS refleksiv/intensiv shaxs ko‘plik olmoshi (biz) PPO ob'ektiv shaxs olmoshi (men, u, u, ular) PPS 3. birlik nominativ olmosh (he, she, it, one) PPSS boshqa nominativ olmosh (men, biz, ular, siz) QL saralovchi (juda, adolatli) QLP keyingi saralash (haqiqatan ham etarli) R.B. olmosh RBR qiyosiy ergash gap RBT ustun qo‘shimcha RN nominal qo'shimcha (bu erda, keyin, bino ichida) RP qo'shimcha / zarracha (haqida, o'chirilgan, yuqoriga) TL sarlavhada ko'rinadigan so'z (oddiy tegdan keyin chiziqcha) TO infinitive marker on uh undov, undov belgisi VB fe'l, asosiy shakl VBD fe'l, o'tgan zamon VBG fe'l, hozirgi zamon fe'li / gerund VBN fe'l, o'tgan zamon VBP fe'l, 3-shaxs emas, birlik, hozirgi VBZ fe'l, 3. hozirgi WDT wh- aniqlovchi (nima, nima) WP$ egalik olmoshi (kimning) WPO maqsad wh - olmosh (kim, qaysi, bu) WPS nominativ wh- olmosh (kim, qaysi, bu) WQL wh - sifatlovchi (as) WRB wh - qo'shimcha (qanday, qaerda, qachon) Esda tutingki, Braunning yorliqli ishining ba'zi versiyalarida kombinatsiyalangan teglar mavjud. Masalan, "xohlayman" so'zi VB + TO deb etiketlanadi, chunki u ikki so'zning qisqartirilgan shaklidir: want / VB va to / TO. Bundan tashqari, ba'zi teglar teskari bo'lishi mumkin, masalan, "not" "BER *" sifatida belgilanadi, bu erda * inkorni anglatadi. Bundan tashqari, teglar o'ralishi mumkin: -HL yorlig'i sarlavhalardagi oddiy so'z teglariga o'raladi. -TL yorlig'i sarlavhalardagi oddiy so'z teglariga chiziqcha qo'yiladi. Defis -NC ajratilgan so'zni bildiradi. Ba'zan tegga FW- prefiksi qo'yiladi, bu xorijiy so'zni anglatadi.Википедия site:wiki5.ru Download 23.42 Kb. Do'stlaringiz bilan baham: |
ma'muriyatiga murojaat qiling