Matn lingvistikasi

MATNNI LINGVOSTATISTIK USULLARDA O‘RGANISH

bet	58/72
Sana	14.02.2023
Hajmi	0.82 Mb.
	#1195910
Turi	Учебное пособие

1 ... 54 55 56 57 58 59 60 61 ... 72

Bog'liq
Matn lingvistikasi

MATNNI LINGVOSTATISTIK USULLARDA O‘RGANISH

Matnni o‘rganishning yana bir usuli – lingvostatistik usul hisoblanadi. Matnni tadqiq qilishda statistik metodlardan foydalanilar ekan, bunday metodlar muayyan bir matnda so‘z yoki ibora, bo‘g‘in yoki gap singari til birliklarining qo‘llanishida o‘ziga xos qonuniyatlarni aniqlashga qaratiladi. Til o‘ziga xos sistemaga ega bo‘lgan ijtimoiy hodisa bo‘lganligi tufayli til birliklari muayyan sistemada joylashgan bo‘ladi. Ularni o‘lchab, hisoblab, ularning ma’lum bir matnda tarqalish darajasini, chegarasini aniqlash mumkin. Og‘zaki va yozma nutq jarayonida har bir til belgisi muayyan qo‘llanish chastotasiga ega.

Nutq oqimida takrorlanuvchi til birliklarining bo‘lishi til va nutq muammolarini o‘rganishda statistik vositalardan foydalanishga imkoniyat yaratadi. Lingvostatistik tahlil imkoniyatlari til birliklarining qonuniyatlarini kuzatish va shu kuzatish natijalarini qayta ishlash jarayonida aniqlanadi. Bunda tabiiy fanlarning metodlaridan foydalaniladi. Shuning uchun lingvostatistik metodlar tabiiy-ilmiy metodlar tarkibiga kiradi.
Til muammolari statistik jihatdan axborot nazariyasi metodlari yordamida ham o‘rganiladi. R.G. Piotrovskiy “Yozma matnni informatsion o‘lchash” nomli asarida bu haqda quyidagilarni ta’kidlagan edi:” Til aloqa vositasi bo‘lgani uchun uning birliklari lingvostatistik metodlar yordamida hamda informatsion usullar orqali baholanadi va o‘lchanadi”.^¹⁷⁷ Bunday o‘lchash va baholash quyidagi tamoyillarga asoslanadi:
1. Nutqiy muloqotga aloqa kanali sifatida qaraladi. SHu kanal orqali harflar, tovushlar, morfemalar va b. til birliklari yordamida informatsiya uzatiladi.
2. Lingvistik birliklar bu erda ayrim kodlarning simvoli vazifasini bajaradi.
Til va nutq hodisalarini o‘rganishda statistik metodlardan foydalanish tilshunoslik uchun yangilik emas, bu jarayon ikki asrlik tarixga ega. O‘z vaqtida mashhur rus matematigi V.YA.Bunyakovskiy 1847-yilda ehtimollar nazariyasidan grammatik va etimologik tadqiqotlarda foydalanishga tilshunoslarni da’vat etgan edi. P.B.Struvening fikricha, filologik tadqiqotlarda statistik metodlardan foydalanish tilshunoslarni matn haqidagi aniq ma’lumotlar bilan qurollantiradi.
Rus tilshunosligida XX asr boshlarida statistik metod
yordamida tilning tovush tarkibini o‘rganish ilk bor yo‘lga
qo‘yildi. Masalan, rus tilshunoslari V.Petrov va
P.Aleksandrovlar 1911-yilda Qozon shahrida fransuz va nemis
tillarining tovush sostavini statistik jihatdan o‘rganishga
bag‘ishlangan maqolalarini e’lon qilgan edilar. Bu maqolalarda
har bir mingta tovush oqimida fransuz va nemis tillaridagi
unli hamda undosh tovushlarning qo‘llanilish darajasi aniqlab
chiqilgan edi. V .A.Bogoroditskiy, A.M.Peshkovskiy, A.Bulaxovskiy kabi olimlar 20-30-yillarda, rus tilidagi ilmiy va badiiy matnlarda unli hamda undosh tovushlarning qo‘llanilish darajasini aniqlashga oid ishlarni amalga oshirdilar. Masalan, A.M.Peshkovskiy rus tili og‘zaki matnida
qo‘llangan unli va ayrim undosh tovushlarning ohangdorligini
I.I.Turgenevning «Sadaqa» hikoyasi matnidagi ohangdorlik
bilan qiyoslagan edi. Uning ta’kidlashicha, I.I.Turgenev
hikoyasi matnidagi ohangdorlik og‘zaki matndan ancha yuqori.
Chunki hikoya matnida shovqinli undoshlarga nisbatan jarangli va
sonor undoshlar ancha ko‘p qo‘llangan. Agar V.Y.Bunyakovskiy tilshunoslikda statistik metodlardan foydalanish lozimligini ilk bor ta’kidlagan bo‘lsa, yana bir mashhur matematik olim A.A.Markov 191Z yilda birinchi bo‘lib til materialiga statistik metodni sof matematik nuqtai nazardan qo‘lladi. U «Evgeniy Onegin» she’riy romani 1 - va 2-boblarining har biridan o‘n olti satrni hisoblab, ular miqdorini 20.000 harfga etkazdi. Ana shu harflar zanjiri tarkibida qaysi undosh yoki unli tovush yonma-yon kelish ehtimollik darajasini aiiqladi. Keyinchalik u ishlab chiqqan metod Markov zanjiri deb yuritiladigan bo‘ldi.
N.A.Morozov 1915-yilda badiiy asarning haqiqiy muallifi va ko‘chirmachi (plagiat)ni farqlash maqsadida matnni o‘rganishning statistik metodidan foydalandi. Bu ishni u «Lingvistik spektr» deb nomlaydi. Muallif u yoki bu yozuvchi asarlari matnida yordamchi so‘zlarning qo‘llanish chastotasini grafiklarda aks ettiradi, bu grafiklarni o‘zaro qiyoslab, har qanday matnning kimyoviy (morfologik) tarkibini, uning haqiqiy muallifini aniqlash mumkin. Bu usulni N.A.Morozov «stilemetrik etyud» deb nomlagan edi. Olim N.Karamzin, A.S.Pushkin, N.Zagoskin, N.V.Gogol, L.N.Tolstoy, I.I.Turgenev asarlarining birinchi 1000 so‘zi tarkibida yordamchi so‘zlar miqdorini aniqlaydi. N.A.Morozov tadqiqotlaridan shu narsa ma’lum bo‘ladiki, yozuvchilarning asarlarida (badiiy matnlarda) eng ko‘p qo‘llanadigan, chastotasi yuqori bo‘lgan yordamchi so‘zlar v, na, s predloglaridir.
1929-yilda Krasnodar shahrida V.Chistyakov va B.Kramorenkolarning «Tilshunoslikda statistik metodni qo‘llash tajribasidan» nomli asari 350 nusxa nashr etilgan edi. Bu sobiq Ittifoqda lingvostatistika bo‘yicha nashr etilgan dastlabki alohida risoladir. Asarda til materialini lingvostatistik metodda o‘rganish bo‘yicha juda ko‘plab grafiklar, diagrammalar keltirilgan.
Linvostatistika bo‘yicha tadqiqotlarning markazida chastotali lug‘atlar yaratish turadi. 1898-yilda Frans Keding nemis tilining dastlabki chastotali lug‘atini yaratgan edi. Buning uchun u 11 million so‘zshaklning qo‘llanishini tahlil qilib, shu asarda ularning chastotasini belgilagan. 1951-yilda Pragada F.Malerj rus tilining chastotali lug‘atini nemis tilida nashr ettirdi. Bu asar gazeta va jurnal materiallaridan tanlab olingan 100.000 so‘zqo‘llash (slovoupotreblenie) asosida tayyorlangan.
Amerika olimi G.Yosselson birinchi bo‘lib EHM
yordamida rus tilining chastotali lug‘atini tuzgan (1953). Olim
bir asrlik davrga tegishli proza, poeziya va drama,
materiallarini bir xil miqdorda tanlab, xuddi shu
materiallarni litva, fransuz, nemis va ingliz tillaridagi
tarjimalari bilan qiyosladi. SHu asosda rus tili grammatik
qurilishiga doir bir million so‘zqo‘llashda mustaqil va yordamchi
so‘zlarning chastotalarini belgilab bertan edi.
O‘tgan asrning 40-yillaridan boshlab lingvostatistik metodlar yordamida eng qadimgi Hind-Evropa tillari, ugor-fin tillari va Kavkaz tillarining shakllanish davrini aniqlash bo‘yicha ko‘pgina ishlar amalga oshirildi. Bunga tilshunoslikda glottoxronologik metod deb yuritiladi.
1905-yilda E.Arnold «Vedalarning vaznlari haqida» nomli asarini elon qildi. Bunda olim qadimgi hind diniy qo‘shiqlari «Rigveda» shakllarining eng qadimgi ko‘rinishlarini glottoxronologik metod yordamida aniqlashga intildi. Tilshunos olim Gerxard Zolta nemis tilida yaratilgan «Arman tilidagi qadimgi so‘zlarning miqdori» nomli asarida qadimgi arman tilida o‘nta til (yunon, qadimgi hind - sanskrit, german, boltiq, slavyan, lotin, irland, kelt, alban, toxar)dan o‘zlashgan so‘zlar mavjudligini glotgoxronologik metod yordamida aniqlagan edi.
Yana bir tilshunos G.Berejskiy esa mariy tilida qadimgi fin-ugor bobo tilidan o‘zlashgan 682ta bir o‘zakli so‘zlar mavjudligini shu metod yordamida aniqlashga muvaffaq bo‘lgan.
Rus tilshunosligidagi tillarga o‘qitish yo‘nalishida lingvistik statistikadan ham keng foydalanilgan. Ma’lumki, ona tilidan tashqari ikkinchi bir tilni o‘rganayotganda, avvalo, ushbu tilning lug‘at boyligiga murojaat qilinadi. Ammo har bir tilning lug‘at boyligida ming-minglab turli so‘zlar mavjud bo‘lib, ularning hammasini eslab qolish mumkin emasligi tabiiy. Shu sababli o‘rganilayotgan tilning dastlab eng asosiy hamda tez-tez qo‘llanib turadigan so‘zlarinigina o‘zlashtirishga kirishiladi va muntazam ravishda bosqichma-bosqich so‘z boyligi orttirib boriladi. Buning uchun esa leksikostatistik manbalar-ma’lumotlar asosiy poydevor vazifasini o‘taydi.
L.N.Zasorinaning ta’kidlashicha, leksikostatistikaning markaziy muammosi jonli (funksional) tilning statistik qonuniyatlarini va matnning statistik strukturasini aniqlashdir. Matnning statistik strukturasi deyilganda, shartli ravishda, ma’lum matndagi turli so‘zlar miqdori bilan shu matnda uning qaytarilish-qaytalanish chastotasi orasidagi munosabat tushuniladi ^³. Shunga ko‘ra statistik ma’lumotlarni to‘plash, qayta ishlash kabi murakkab jarayondagi barcha ishlarni EHMga yuklash zaruriyati kelib chiqqan holda kompyuter lingvistikasida statistik yo‘nalish yuzaga keldi. U rus tilshunosligida avtomatik tarzda tilga o‘qitish yo‘nalishi bilan hamohang tarzda rivojlanib borgan .
Kompyuterdan foydalanilgan holda ko‘plab chastotali lug‘atlar ham yaratildi,^⁵ ular o‘z navbatida mashina tarjimasi uchun zamin bo‘ldi. ^¹⁷⁸
Matnni matematik usullarda tekshirish Qozog‘istonda ham izchil rivojlangan. Bunda prof.Q.B.Bektayevning xizmati katta deb aytish mumkin. Olim ilmiy faoliyati davomida matematik va injener lingvistikasiga oid o‘nlab asarlarni yaratgan. Bu asarlarda til va nutq birliklarini EHM yordamida tadqiq etishning har tomonlama muhimligi ta’kidlanib, ularda amaliy ishlar-dastur va lug‘atlar ham aksini topgan. Q.B.Bektayev rahbarligidagi «Lingvostatistika va avtomatlashtirish» guruhining a’zolari M.Avezovning «Abay yo‘li» romani (4 kitob) tilining chastotali lug‘ati so‘zligini kompyuter yordamida 50 soat davomida tuzib chiqqanlar. Mazkur chastotali lug‘atda 20000 dan ziyodroq leksema va 60000 so‘z shakli («glossema») mavjud bo‘lib, u 466 000 marta qo‘llanilgan. Guruh a’zolari bu lug‘atni tuzish uchun atigi sakkiz oy vaqt sarflaganlar. Vaholanki, shu ish oddiy qo‘l kuchi bilan bajarilganda, mazkur guruh a’zolari tinimsiz 10 yil, bir tilchi esa kamida 100 yil ishlagan bo‘lar edi. Shu tariqa ushbu ulkan ish qozoq tilshunosligida kompyuter lingvistikasining rivojlanishiga asos bo‘ldi.

Download 0.82 Mb.

Do'stlaringiz bilan baham:

1 ... 54 55 56 57 58 59 60 61 ... 72