Brown Corpus

Таржима Jigarrang korpus - jigarrang korpus

bet	2/2
Sana	23.02.2023
Hajmi	23.42 Kb.
	#1225296
Turi	Лекция

1 2

Bog'liq
Браун корпус

Таржима

Jigarrang korpus - jigarrang korpus
Navigatsiyaga o'tingQidiruvga o'ting
1961 yilda Amerika inglizcha ma'lumotlar to'plami
Brown University Standard Corpus of Modern American English (yoki oddiygina Brown Corpus ) Amerika ingliz tili matn namunalarining elektron toʻplami boʻlib , turli janrlardagi birinchi yirik tuzilgan korpusdir . Ushbu korpus birinchi marta kundalik tilda so'z turkumlarining chastotasi va tarqalishini ilmiy tadqiq qilish uchun zamin yaratdi. Rod - Aylenddagi Braun universitetida Genri Kucera va U. Nelson Frensis tomonidan tuzilgan , bu umumiy til korpusi bo'lib, AQSHda nashr etilgan asarlardan jamlangan, jami bir millionga yaqin so'zdan iborat 500 ta ingliz tili namunalarini o'z ichiga oladi. 1961 yildagi davlatlar.

Tarkib
1. Tarix

2 Tarqatish misoli
3 Ishlatilgan nutq teglarining bir qismi
4 Shuningdek qarang
5 havola
6 Tashqi havolalar

Hikoya
1967 yilda Kucera va Frensis o'zlarining klassik asarini nashr etishdi, "Zamonaviy amerikacha ingliz tilining hisoblash tahlili", bu bugungi kunda oddiygina "Brown Corpus" deb nomlanuvchi narsaning asosiy statistik ma'lumotlarini taqdim etdi.

Jigarrang tana. Bu turli manbalardan olingan millionga yaqin so'zdan iborat zamonaviy amerikacha ingliz tilining puxta tuzilgan kompilyatsiyasi edi. Kucera va Frensis uni ko'plab kompyuter tahlillaridan o'tkazdilar, ular asosida tilshunoslik, psixologiya, statistika va sotsiologiyaning elementlarini birlashtirgan boy va rang-barang asar tuzdilar. U hisoblash tilshunosligida juda keng qo'llanilgan va ko'p yillar davomida ushbu sohada eng ko'p keltirilgan manbalardan biri bo'lib kelgan.

Birinchi leksik-statistik tahlil nashr etilganidan ko'p o'tmay , Boston nashriyoti Houghton-Mifflin o'zlarining yangi Amerika merosi lug'ati uchun million so'zli uch qatorli iqtiboslar bazasini taqdim etish uchun Kuceraga murojaat qildi . Birinchi marta 1969 yilda nashr etilgan ushbu yangi lug'at so'z chastotasi va boshqa ma'lumotlarni aniqlash uchun korpus lingvistikasidan foydalangan holda tuzilgan birinchi lug'at edi.

Asl jigarrang korpusda faqat so'zlarning o'zi va har biri uchun joy identifikatori mavjud edi. Keyingi bir necha yil ichida nutqning bir qismi teglari qo'llanildi. Greene va Rubin yorliqlash dasturi ( Nutqni teglash bo'limiga qarang ) bunda katta yordam berdi, ammo yuqori xato darajasi keng qamrovli qo'lda tuzatish talab qilinishini anglatardi.

Marked Brown Corpus nutqning 80 ga yaqin qismidan iborat namunadan, shuningdek, murakkab shakllar, qisqartmalar, xorijiy so'zlar va boshqa ba'zi hodisalar uchun maxsus ko'rsatkichlardan foydalangan va Lancaster-Oslo-Bergen korpusi kabi ko'plab keyingi korpuslar uchun modelni yaratgan. (1990-yil boshidan Britaniya ingliz tili -x) va Freiburg-Brown Corpus of American English (FROWN) (1990-yillarning boshidan Amerika ingliz tili). Korpusga teglar qo'shilishi, masalan, Endryu Makki tomonidan dasturlashtirilgan va ingliz tili grammatikasi kitoblarida tasvirlangan ish kabi yanada murakkab statistik tahlil qilish imkonini berdi.

Qiziqarli natijalardan biri shundaki, hatto juda katta namunalar uchun ham so'zlarni paydo bo'lish chastotasining kamayishi tartibida ko'rsatish giperbolani ko'rsatadi : eng tez-tez uchraydigan n-chi so'zning chastotasi taxminan 1/n ga proportsionaldir. Shunday qilib, "the" Brown Corpusning deyarli 7% ni tashkil qiladi, "to" va "dan" - har biri yana 3% dan ortiq; Taxminan 50 000 so'zdan iborat umumiy lug'atning yarmiga yaqini hapax legomena : korpusda faqat bir marta uchraydigan so'zlar. Darajaning chastotaga oddiy bog'liqligi Jorj Kingsli Zipf (masalan, uning "Til psixobiologiyasi" ga qarang) tomonidan favqulodda xilma-xil hodisalar uchun qayd etilgan va Zipf qonuni sifatida tanilgan .

Brown Corpus korpus tilshunosligi sohasida kashshof bo'lgan bo'lsa-da, hozirgi kunga qadar tipik korpuslar (masalan, zamonaviy Amerika inglizlari korpusi , Britaniya milliy korpusi yoki ingliz tilining xalqaro korpusi ) odatda 100 million so'zdan iborat bo'lib, ancha kattaroqdir.

Namuna taqsimoti
Korpus 15 janr bo'yicha taqsimlangan 500 ta namunadan iborat bo'lib, bu janrlarning har birida 1961 yilda nashr etilgan soniga taxminan proportsionaldir. Barcha tanlangan maqolalar 1961 yilda nashr etilgan; Aniqlanishicha, ular birinchi marta o'sha paytda nashr etilgan va mahalliy amerikalik ingliz tilida so'zlashuvchilar tomonidan yozilgan.

Har bir namuna maqoladagi yoki boshqa tanlangan birlikdagi tasodifiy jumla chegarasidan boshlanadi va 2000 so'zdan keyin birinchi jumla chegarasigacha davom etadi. Juda kam hollarda noto'g'ri hisoblash namunalar 2000 so'zdan ozroq bo'lishiga olib keldi.

Xom ma'lumotlar faqat katta harflar tugmasi bo'lgan mashinalarda kiritilgan ; bosh harflar oldingi yulduzcha bilan ko'rsatilgan va formulalar kabi turli xil maxsus elementlarda ham maxsus kodlar mavjud edi.

Dastlab (1961) korpusda 15 toifadagi matnlardan olingan 1 014 312 ta soʻz bor edi:

A. PRESS: Hisobot (44 matn)
Siyosat
Sport
Jamiyat
Spot Yangiliklar
Moliya
Madaniy
B. PRESS: Muharrirdan (27 ta matn)
Institutsional Daily
Shaxsiy
Tahririyatga maktublar
C. PRESS: Sharhlar (17 ta matn)
teatr
kitoblar
musiqa
raqsga tushish
E. DIN (17 ta matn)
Kitoblar
Davriy nashrlar
buklamalar
E. MAKORALAR VA XOBBILAR (36 matn)
Kitoblar
Davriy nashrlar
F. MASHXUR BILIM (48 ta matn)
Kitoblar
Davriy nashrlar
G. BELLS - Biografiya, Memuarlar va boshqalar (75 matn)
Kitoblar
Davriy nashrlar
X. TURLI: AQSH hukumati va ichki ishlar (30 ta matn)
hukumat hujjatlari
Jamg'arma hisobotlari
Sanoat hisobotlari
Kollej katalogi
Sanoat uyi organi
J. STUDY (80 ta matn)
Tabiiy fanlar
Dori
Matematika
Ijtimoiy va xulq-atvor fanlari
Siyosatshunoslik, huquqshunoslik, ta'lim
Gumanitar fanlar
Texnologiya va muhandislik
K. FANSIYA: Umumiy (29 matn)
Romanlar
hikoyalar
L. Badiiy adabiyot: Tasavvuf va detektiv hikoyalar (24 matn)
Romanlar
hikoyalar
M. FANSIYA: Fan (6 ta matn)
Romanlar
hikoyalar
N. ART: Sarguzasht va Gʻarb (29 ta matn)
Romanlar
hikoyalar
bet Badiiy adabiyot: Ishqiy va sevgi hikoyasi (29 ta matn)
Romanlar
hikoyalar
R. HUMOR (9 ta matn)
Romanlar
Insholar va boshqalar.
Ishlatilgan nutq teglarining bir qismi

teg Ta'rif

. jumla (.;? *)
( chap qavs
) o'ng qavs
* yo'q, yo'q
-- chiziqcha
, vergul
: yo'g'on ichak
ABL oldingi kvalifikatsiya (aniqrog'i)
ABN oldindan belgilovchi (yarim, hammasi)
ABX oldindan miqdor belgilovchi (ikkalasi ham)
AP keyingi saralash (ko'p, bir nechta, keyingi)
DA maqola (a, the, no)
BO'LING bo'l
KROVAT edi
BEDZ edi
BEG edi
BEM am
BEN edi
BER ar, maqola
BBB hisoblanadi
CC muvofiqlashtiruvchi birikma (va, yoki)
CD asosiy raqam (bir, ikki, 2 va boshqalar)
CS qul aloqasi (agar bo'lsa ham)
QILING qil
DOD qildi
DOZ amalga oshiradi
DT yakkalik aniqlovchi / miqdor ko'rsatkichi (bu, bu)
DTI determinant / kvant birlik yoki ko'plik (ba'zi, har qanday)
DTS ko‘plik aniqlovchi (bular, o‘shalar)
DTX determinant / qo'sh qo'shilish (ikkisi ham)
EX u erda ekzistensial
FW xorijiy so'z (odatiy tegdan oldin)
HL sarlavhadagi so'z (oddiy tegdan keyin o'raladi)
HV Unda bor
HVD ega (o'tgan zamon)
HVG Unda bor
HVN bor edi (o‘tgan zamon)
HVZ Unda bor
IN bahona
JJ sifatdosh
JJR qiyosiy sifatdosh
JJS Semantik ustunlikdagi sifat (asosiy, yuqori)
JJT morfologik jihatdan ustun sifat (eng katta)
MD modal ko‘makchi (balki, kerak, bo‘ladi)
NC iqtibosli so'z (oddiy tegdan keyin chiziqcha)
NN birlik yoki sonsiz ot
NN$ birlik egalik ot
NNS ko‘plikdagi ot
NNS$ egalik koʻplik ot
NP tegishli ism yoki nominal iboraning bir qismi
NP$ egalik ot
NPS ko‘plikdagi ot
NPS$ egalik koʻplik toʻgʻri ot
NR qo'shimcha ot (uy, bugun, g'arb)
NRS ko‘plik qo‘shimchalari ot
OD tartib raqami (birinchi, ikkinchi)
PN nominal olmosh (hamma narsa, hech narsa)
PN$ ega nominal olmosh
PP$ egalik olmoshi (meniki, bizniki)
PP$$ ikkinchi (nominal) egalik olmoshi (meniki, bizniki)
PPL birlik refleksiv / intensiv shaxs olmoshi (I)
PPLS refleksiv/intensiv shaxs ko‘plik olmoshi (biz)
PPO ob'ektiv shaxs olmoshi (men, u, u, ular)
PPS 3. birlik nominativ olmosh (he, she, it, one)
PPSS boshqa nominativ olmosh (men, biz, ular, siz)
QL saralovchi (juda, adolatli)
QLP keyingi saralash (haqiqatan ham etarli)
R.B. olmosh
RBR qiyosiy ergash gap
RBT ustun qo‘shimcha
RN nominal qo'shimcha (bu erda, keyin, bino ichida)
RP qo'shimcha / zarracha (haqida, o'chirilgan, yuqoriga)
TL sarlavhada ko'rinadigan so'z (oddiy tegdan keyin chiziqcha)
TO infinitive marker on
uh undov, undov belgisi
VB fe'l, asosiy shakl
VBD fe'l, o'tgan zamon
VBG fe'l, hozirgi zamon fe'li / gerund
VBN fe'l, o'tgan zamon
VBP fe'l, 3-shaxs emas, birlik, hozirgi
VBZ fe'l, 3. hozirgi
WDT wh- aniqlovchi (nima, nima)
WP$ egalik olmoshi (kimning)
WPO maqsad wh - olmosh (kim, qaysi, bu)
WPS nominativ wh- olmosh (kim, qaysi, bu)
WQL wh - sifatlovchi (as)
WRB wh - qo'shimcha (qanday, qaerda, qachon)

Esda tutingki, Braunning yorliqli ishining ba'zi versiyalarida kombinatsiyalangan teglar mavjud. Masalan, "xohlayman" so'zi VB + TO deb etiketlanadi, chunki u ikki so'zning qisqartirilgan shaklidir: want / VB va to / TO. Bundan tashqari, ba'zi teglar teskari bo'lishi mumkin, masalan, "not" "BER *" sifatida belgilanadi, bu erda * inkorni anglatadi. Bundan tashqari, teglar o'ralishi mumkin: -HL yorlig'i sarlavhalardagi oddiy so'z teglariga o'raladi. -TL yorlig'i sarlavhalardagi oddiy so'z teglariga chiziqcha qo'yiladi. Defis -NC ajratilgan so'zni bildiradi. Ba'zan tegga FW- prefiksi qo'yiladi, bu xorijiy so'zni anglatadi.Википедия site:wiki5.ru

Download 23.42 Kb.

Do'stlaringiz bilan baham:

1 2