Методы лингвистических исследований


Download 193.41 Kb.
bet13/13
Sana03.12.2023
Hajmi193.41 Kb.
#1799239
1   ...   5   6   7   8   9   10   11   12   13
Bog'liq
Методы лингв. исслед.

n
Н= — р(i) log2 р(i)
i = 1

где вероятность сигнала i обозначена через р (i); i принимает значение 1,2...n; — знак суммы.


Итак, количество информации рассчитывается по формуле:
[p (1) log2 p (1)+p (2) log2 p(2)…+p (n) log2 p (n). ]
В русском языке количество информации, например в фонеме, равно 4,76 ед.
Для сравнения различных сообщений есть понятие относи-тельной энтропии и избыточности. Относительная энтропия пред-ставляет собой отношение действительного количества информации (Н ) в сигнале к максимальному количеству информации сигналов из возможных при данном числе сигналов: максимальная энтропия (Hмакс.) равна количеству информации при равновероятности всех сигналов 0 = logn). Избыточность (R) равна разности между едини-цей и относительной энтропией:
R = 1 – Н отн. ; Н отн. = Н : Н0.
Например, русский «телеграфный» алфавит содержит 32 знака. Если все буквы считаются равновероятными 0), то информация, содержащаяся в одной букве, будет: Н0 = log 32 = ~ 1,505 десят. ед.
Подсчитано, что средняя информация, содержащаяся во фразе второго порядка вероятности, то есть при наличии двух предшествующих букв (по-, ду-, на-, эн-, об- и т. п.), равна 0,905 (Н3). Относительная энтропия может быть определена:
Н : Н0 = Н 3 : Н0 =1 – 0,905 : 1,505 = ~ 0,6.
Следовательно, избыточность букв для русского языка равна не менее 0,4:
R = 1 – Н 3 : Н0 = 1 – 0,905 : 1,505 = ~ 0,4.


Download 193.41 Kb.

Do'stlaringiz bilan baham:
1   ...   5   6   7   8   9   10   11   12   13




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling