I bob. 1 Korpus tushunchasi va korpus lingvistikasi tahlili

Ingliz korpuslari diaxronikasi

bet	7/7
Sana	28.12.2022
Hajmi	44.96 Kb.
	#1018769

1 2 3 4 5 6 7

Bog'liq
Bob 1

1.3 Ingliz korpuslari diaxronikasi

The Corpus of Contemporary American English (COCA) 2021 yil noyabr holatiga ko'ra bir milliard so'zdan iborat. Korpus doimiy ravishda o'sib bormoqda: 2009 yilda u 385 milliondan ortiq so'zni o'z ichiga olgan; 2010 yilda korpus hajmi 400 million soʻzgacha oʻsdi; 2019-yilning martiga kelib, korpus 560 million soʻzga oʻsdi.¹¹

2021-yil noyabr holatiga ko‘ra, ¹²Zamonaviy Amerika ingliz tili korpusi 485 202 ta matndan iborat. Korpus veb-saytiga ko'ra, joriy korpus (2021 yil noyabr) har yili 1990-2019 yillar uchun 24-25 million so'zni o'z ichiga olgan matnlardan iborat.
Korpus tarkibidagi har bir yil uchun (1990-2019) korpus oltita registr/janr oʻrtasida teng taqsimlangan: televidenie/filmlar, ogʻzaki, badiiy adabiyot, jurnal, gazeta va akademik bloglardan 125 496 215 ta so'zni va veb-saytlardan 129 899 426 ta so'zni o'z ichiga oladi, bu esa uni chinakam zamonaviy ingliz tilidan tashkil topgan korpusga aylantiradi.¹³
Zamonaviy Amerika ingliz tili korpusi (COCA) Amerika ingliz tilining yagona yirik va "vakillik" korpusidir. COCA, ehtimol, ingliz tilining eng ko'p qo'llaniladigan korpusidir va u biz yaratgan boshqa ko'plab ingliz tilidagi korpuslar bilan bog'liq. Ushbu korpuslar ilgari "BYU Corpora" nomi bilan tanilgan va ular ingliz tilidagi o'zgarishlar haqida misli ko'rilmagan tushunchani taqdim etadi.
Zamonaviy Amerika ingliz tili korpusi (COCA) amerikacha ingliz tilidagi 1,1 milliard so'zli korpus bo'lib, eng ko'p qo'llaniladigan korpuslardan biridir. Professor Mark Devis tomonidan yaratilgan, u og'zaki, badiiy adabiyot, jurnallar, gazetalar, akademik matnlar, televidenie, film subtitrlari, bloglar va veb-sahifalarning muvozanatli to'plamini o'z ichiga oladi. Bu matnlar 1990-2019 yillarga oid boʻlib, eng soʻnggi yangilanish 2020-yilning mart oyida boʻlib oʻtadi. Bu uni dunyodagi eng zamonaviy ingliz korporalaridan biriga aylantiradi.¹⁴

Korpuslar qanchalik yangilanadi?

COCA 1990-yillarning boshidan buyon har yili 20 million soʻzga ega (1990-yillarning boshidan buyon jami 520 million soʻzdan ortiq) va eng soʻnggi matnlar 2017-yil dekabr oyiga toʻgʻri keladi. BMK 1980-yillarning oxirida yaratilgan va chiqarilgan. 1990-yillarning boshida va 2014-yilda uch yil oldin yangilanish bo'lgan. Bu ikki korpus zamonaviy ingliz tilini qanday ifodalashi nuqtai nazaridan muhim ahamiyatga ega.¹⁵
Leksik. Ehtimol, eng oson taqqoslash ingliz tiliga yaqinda kirgan yoki 20-25 yil oldin ko'proq ishlatiladigan so'zlar bilan bog'liq. Quyidagi ro'yxatlar BMKda COCA (million so'z boshiga)ga qaraganda ikki baravar kam uchraydigan bir nechta so'zlarni (barcha shunday so'zlarning kichik namunasi) ko'rsatadi va kursiv bilan yozilgan so'zlar 10% dan kam uchraydi. (ko'pincha, BMKda tokenlar yo'q). Shubhasiz, ba'zilari amerikacha so'zlar va Britaniya ingliz tilidagi korpusda bo'lmaydi. Biroq, ko'pchilik COCA-da oddiyroq bo'lgan so'zlardir, chunki u yaqinroq.
Britaniya Milliy Korpusi (BNC) va Zamonaviy Amerika Ingliz tili Korpusi (COCA) bir-birini yaxshi to'ldiradi, chunki ular Internetda erkin foydalanish mumkin bo'lgan yagona yirik, muvozanatli ingliz tilidir. Bu erda biz ikkita korpusni korpus hajmi, janr qamrovi va ularning qanchalik dolzarbligi bo'yicha qisqacha taqqoslaymiz.¹⁶
Zamonaviy Amerika ingliz tili korpusi (560+ million so'z) Britaniya Milliy korpusidan (100 million so'z) 5-6 baravar katta. Natijada, u ko'pincha BNCda mavjud bo'lmagan past chastotali konstruktsiyalar uchun ma'lumotlarni taqdim etadi.¹⁷
AMK va COCA ham bir biridan farq qiladi ,AMK atigi 22 million so'zdan iborat bo'lib, janr va manbalar nuqtai nazaridan juda egri. COCA deyarli 50 baravar kattaroqdir va u juda kengroq janrlar va manbalarni o'z ichiga oladi.

1 Tursunov SH.Ilm va ta’lim (murojaat sanasi:19.11.2022)

2 Захаров В.П. Корпусная лингвистика. – Иркутск, 2011.C. 7

3 https://www.sketchengine.eu/corpora-and-languages/corpus-types/

4 G. Kennedy, in International Encyclopedia of the Social & Behavioral Sciences, 2001

5 Chu-Ren Huang, Yao Yao, in International Encyclopedia of the Social & Behavioral Sciences (Second Edition), 2015

6 Anderberg, Michael R. 1973. Cluster analysis for applications: probability and mathematical statistics: a series of monographs and textbooks. New York, NY: Academic Press

7 Ide, N., Suderman, K. (2004). The American National Corpus First Release. Proceedings of the Fourth Language Resources and Evaluation Conference (LREC), Lisbon, 1681- 84

8 Leech, Geoffrey; Garside, Roger; Bryant, Michael (1994). "Corpus-based research into language: in honour of Jan Aarts". In N. Oostdjik & P. Haan (ed.). The large-scale grammatical tagging of text: Experience with the British National Corpus. Netherlands: Rodopi Publishers. pp. 47–63

9 Burnard, Lou; Aston, Guy (1998). The BNC handbook: exploring the British National Corpus. Edinburgh: Edinburgh University Press. p. xiii. ISBN 0-7486-1055-3.

10 Bai, X./Chang, B./Zhan, W. (2002), Building a Large ChineseEnglish Parallel Corpus. In: Huang, H. (ed.), Proceedings of the National Symposium on Machine Translation 2002. Beijing: Electronic Industry Press, 124131

11 Davies, Mark (January 1, 2009). "The 385+ million word Corpus of Contemporary American English (1990–2008+): Design, architecture, and linguistic insights". International Journal of Corpus Linguistics. 14 (2): 159–190. doi:10.1075/ijcl.14.2.02dav. ISSN 1384-6655

12 Milana, Prior (2021). A Comparative Corpus Study on Intensifier Usage across Registers in American English (Thesis).

13 Davies, Mark (2005). "The advantage of using relational databases for large corpora: Speed, advanced queries, and unlimited annotation". International Journal of Corpus Linguistics. John Benjamins Publishing Company. 10 (3): 307–334(28). doi:10.1075/ijcl.10.3.02dav

14 Kauhanen, Henri (March 21, 2011). "The Corpus of Contemporary American English: Background and history". VARIENG. Retrieved October 13, 2011

15 Davies, Mark; Kim, Jong Bok (March 1, 2019). "The advantages and challenges of "big data": Insights from the 14 billion word iWeb corpus". Linguistic Research. 36 (1): 1–34. doi:10.17250/khisli.36.1.201903.001. ISSN 1229-1374. S2CID 133013527.

16 Hoffman, Sebastian; Lehmann, Hans Martin (2000). "Collocational Evidence from the British National Corpus". In Kirk, John M. (ed.). Corpora Galore: Analyses and Techniques in Describing English. Amsterdam: Rodopi. ISBN 9789042004191.

17 The American National Corpus: Then, Now, and Tomorrow. In Michael Haugh, Kate Burridge, Jean Mulder and Pam Peters (eds.), Selected Proceedings of the 2008 HCSNet Workshop on Designing the Australian National Corpus: Mustering Languages, Cascadilla Proceedings Project, Sommerville, MA.

Download 44.96 Kb.

Do'stlaringiz bilan baham:

1 2 3 4 5 6 7