Muhammad al-xorazmiy nomidagi tatu urganch filiali


I.2-§. Korpuslarning turlari va avlodlari


Download 254.32 Kb.
bet4/16
Sana17.06.2023
Hajmi254.32 Kb.
#1542059
1   2   3   4   5   6   7   8   9   ...   16
Bog'liq
Dissertation Rustambek

I.2-§. Korpuslarning turlari va avlodlari


Birinchi avlod korpuslari. 1960-yillarning boshlarida birinchi marta elektron korpuslar paydo bo‘ldi. Birinchi elektron korpus - bu "Brown corpus" (The Brown corpus) deb nomlangan. 1961 yildan 1964 yilgacha korpusni yaratish ustida G. Kuchera va N. Frensis boshchiligidagi bir guruh olimlar ishladilar [6]. “Brown Corpus” yozma ingliz tili korpusi bo‘lib, faqat 1961 yilda nashr etilgan 500 ta matndan iborat va bir million soʻzni o‘z ichiga olgan. Korpusda yozma amerikacha ingliz tilining quyidagi o‘n besh janri mavjud: gazeta maqolalari, ilmiy ishlar, yangiliklar, sevimli mashg‘ulotlarga oid kitoblar, diniy adabiyotlar, biografiya, insholar, badiiy adabiyot (detektivlar, sarguzashtlar, ilmiy-ommabop adabiyotlar, romantik romanlar, feletonlar). "Brown korpus"dagi matn joylashgan joy, uning nomi, shuningdek matndagi satrlar soni boʻyicha ma’lumotlar perfokortalarga yozilgan bo‘lgan.
1968 yilda F.Bagley korpusdagi matnlar haqidagi barcha ma’lumotlarni belgilash uchun birinchi marta meta ma’lumotlar(metadata) atamasini kiritdi. 1960-yillarning o‘rtalaridan boshlab birinchi KWIC(Kontentdagi kalit soʻzlar)ga asoslangan konkordands dasturlari paydo bo‘ldi.
Uni yaratishda matnlarni mashinada qayta ishlash qo‘lda belgilash(teglash) bilan amalga oshirilgan. Avtomatik matnni belgilash(teglash) 1971 yilda B. Grin va J. Rabin TAGGIT avtomatlashtirilgan matnni teglash dasturini tuzdilar, uning birinchi aprobatsiyasi Braun korpusining teglari edi. TAGGIT matndagi muhim va xizmat qiluvchi so‘zlarni, tinish belgilarini va individual morfemalarni ajratib ko‘rsatadigan 86 ta teg yordamida teglashni amalga oshirdi. Dastur korpusdagi so‘zlarning 23% bir vaqtning o‘zida bir nechta teglar bilan belgilagan bo‘lib chiqdi[9].
1978 yilda A. Ellegaard Braun korpusining bir qismini sintaktik (teglashni)belgilashni qo‘lda amalga oshirdi. Bir necha yillik tekshirish va to‘g‘rilashdan so‘ng, Brown korpusini sitaktik teglash bo‘yicha ish 1979 yilda yakunlandi.
Shunday qilib Brown korpusi matnlarnning to‘plamining hajmi bo‘yicha ham, unda taqdim etilgan yozuv uslubi va janrlari bo‘yicha ham standartga aylandi. 1970-yillarning o‘rtalarida Brown korpusi nashr etilishi bilan shunga o‘xshash korpuslar avval Buyuk Britaniyada, keyin boshqa mamlakatlarda paydo bo‘la boshladi. Masalan, 1976 yilda Lankaster, Oslo va Bergen universitetlarining qo‘shma korpusi nashr etildi (Lancaster Oslo-Bergen korpusi (LOB) (1961-1978).
1990-yillarning boshlarida kamida bir million soʻzdan kam boʻlmagan, o‘n beshta turli janrdagi 500 ta matndan iborat, har bir matn uchun kamida 2000 ta belgi mavjud boʻlgan korpuslar tuzila boshlandi, masalan, ingliz tilidagi Avstraliya korpusi ACE (1986), Yangi Zelandiyaning Wellington Corpus English Speech korpusi, The Wellington Written English korpusi WWE (1986), Frayburg va Braun universitetlarining Amerika nutqi korpusi, Frayburg-Braun korpusi, FROWN (1991-1992) korpusi Frayburg, London , Oslo va Bergen universitetlarining Britaniya nutqi korpusi. Frayburg London-Oslo Bergen korpusi, F-LOB (1991-1992), Kolxapur korpusi [5, 6]. Ushbu korpuslar birgalikda Brown oilasi korpuslari deb nomlanadi [22]. Ushbu korpuslar orasidagi farq faqat shundan iboratki bu korpuslarda ingliz tilidagi yozma nutqning Amerika, Britaniya, Avstraliya, Yangi Zelandiya, Hindiston kabi variantlari ishlatilgan.
Quyidagi jadvalda Brown korpusi oliasiga kiruvchi korpuslar tarkibi keltirilgan:

Корпусы

Kod

Brown

Frown

LOB

F-LOB

Pre-LOB

Kolhapur

ACE

WWC

LCMC

Janrlar boʻyicha matnlar soni

A

44

44

44

44

44

44

44

44

44

B

27

27

27

27

27

27

27

27

27

C

17

17

17

17

17

17

17

17

17

D

17

17

17

17

17

17

17

17

17

E

36

36

38

38

38

38

38

38

38

F

48

48

44

44

44

44

44

44

44

G

75

75

77

77

77

77

77

77

77

H

30

30

30

30

30

37

30

30

30

J

80

80

80

80

80

80

80

80

80

K

29

29

29

29

29

59

29

29

29

L

24

24

24

24

24

24

15

24

24

M

6

6

6

6

6

2

7

6

6

N

29

29

29

29

29

15

8

29

29

P

29

29

29

29

29

18

15

29

29

R

9

9

9

9

9

9

15

9

9

S













22





W













15





Bu jadvaldagi Kodlar quyidagi janrlarga to'g'ri keladi: A - reportaj, B - tahririyat, C - sharhlar, D - diniy matnnlar, E - sevimli mashg'ulotlari va qobiliyatlar, F - ommabop bilim, G –biografiyalar, H – ma’ruzalar va hujjatlar, J - fan, K - fantastika, L - detektiv, M - ilmiy fantastika, N - g'arbiy va sarguzasht roman, P - roman va muhabbat nasri, R - satira va hazil, S - tarixiy roman, V - hajviyalar[8].


Og‘zaki nutqning korpusi. Ogzaki nutqning korpuslari yozma sozlardan ancha kechroq paydo boldi va birinchi bolib 90-yillarda taqdim etilgan.
London-Lund (LLC) uyi 1975 yildan 1990 yilgacha ishlab chiqilgan. J. Svartvik, R. Querk, S. Grinbaum va K. Xofland ikkita loyiha: SEU korpusi (1959-1989) va Ogzaki ingliz nutqining korpusi (SSE, 1975) asosida ilmiy ish olib borganlar. LLC korpusi 100 ta transkripsiyalangan ogzaki monolog va dialogik nutq matnlaridan iborat bolib, ularning har biri 5000 ta belgidan iborat. Dialogli nutq dostlar va hamkasblar o‘rtasidagi suhbat tarzidagi matnlarda, suhbatlar va telefon suhbatlaridan qayd etilgan. Monolog nutq o‘z-o‘zidan (sharhlar va hikoyalar), shuningdek varaqdan o‘qib bo‘lmaydigan tayyorlangan nutq bilan taqdim etiladi [10. P. 408–409]. Grammatik belgilashdan tashqari, korpusdagi matnlar prosodik darajada belgilanadi ya’ni: ohang birliklari, tovushning boshlanishi (boshlanishi), yadroning o‘rni (so‘zlar, sintagmalar), yadro ohanglari yo‘nalishi (ko‘tarilish, tushish, ko‘tarilish kamayishi), balandlik, pauza (qisqa va uzoq), stress (normal va ta’kidlangan). SEU loyihasidagi matnlarda batafsil prozodik belgi mavjud: turli darajadagi ovoz balandligi va temp ko‘rsatkichlari (tezkor, vaqti-vaqti bilan, muomala bilan cho‘zilgan), ovozning sifat xususiyatlarining modifikatsiyalari (balandlik, ritm, taranglik va boshqalar), qo‘shimcha xususiyatlar ( pichirlash, xirillash) [11].
Umumiy hajmi 53000 belgi bo‘lgan ingliz tilidagi (The Spoken English Corpus, SEC) korpus manbai 1984 yildan 1987 yilgacha yozilgan va turli janrlar bilan ajralib turadigan matnlar: sharhlar, yangiliklar, kichik ma’ruzalar tinglovchilar, katta auditoriya uchun ma’ruzalar, diniy mavzulardagi radioeshittirishlar, shu jumladan liturgiya, ijtimoiy hayot haqidagi reportajlar, radio tinglovchilar bilan telefon orqali suhbatlar va boshqalardan tashkil topgan [10].

Download 254.32 Kb.

Do'stlaringiz bilan baham:
1   2   3   4   5   6   7   8   9   ...   16




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling