Методы лингвистических исследований
Download 193.41 Kb.
|
Методы лингв. исслед.
n
Н= — ∑ р(i) log2 р(i) i = 1 где вероятность сигнала i обозначена через р (i); i принимает значение 1,2...n; ∑— знак суммы. Итак, количество информации рассчитывается по формуле: [p (1) log2 p (1)+p (2) log2 p(2)…+p (n) log2 p (n). ] В русском языке количество информации, например в фонеме, равно 4,76 ед. Для сравнения различных сообщений есть понятие относи-тельной энтропии и избыточности. Относительная энтропия пред-ставляет собой отношение действительного количества информации (Н ) в сигнале к максимальному количеству информации сигналов из возможных при данном числе сигналов: максимальная энтропия (Hмакс.) равна количеству информации при равновероятности всех сигналов (Н0 = logn). Избыточность (R) равна разности между едини-цей и относительной энтропией: R = 1 – Н отн. ; Н отн. = Н : Н0. Например, русский «телеграфный» алфавит содержит 32 знака. Если все буквы считаются равновероятными (Н0), то информация, содержащаяся в одной букве, будет: Н0 = log 32 = ~ 1,505 десят. ед. Подсчитано, что средняя информация, содержащаяся во фразе второго порядка вероятности, то есть при наличии двух предшествующих букв (по-, ду-, на-, эн-, об- и т. п.), равна 0,905 (Н3). Относительная энтропия может быть определена: Н : Н0 = Н 3 : Н0 =1 – 0,905 : 1,505 = ~ 0,6. Следовательно, избыточность букв для русского языка равна не менее 0,4: R = 1 – Н 3 : Н0 = 1 – 0,905 : 1,505 = ~ 0,4. Download 193.41 Kb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling