Методы лингвистических исследований
Лингвостатистический метод
Download 193.41 Kb.
|
Методы лингв. исслед.
6. Лингвостатистический метод.
Для лингвистического исследования актуальным является философское положение о том, что предмет, не отраженный в аспекте количества, не может считаться конкретно познанным и что наука вообще достигает совершенства лишь там и в той мере, в какой ей удается взять на вооружение математику. Категория количества в языке связана с установлением количественных изменений, вызывающих качественные преобразования языковых явлений. Именно действие в языке закона перехода количественных изменений в качественные служит важнейшим условием выявления в нем его закономерностей. В связи с этим основной задачей количественного метода в языкознании является раскрытие закономерностей функционирования единиц языка и речи, а также установление закономерностей построения текста. Теоретическое обоснование этого метода и создание алгоритмов его практического применения в языкознании — предмет особой отрасли науки о языке, получившей название лингвостатистики. Возможность применения лингвостатистического метода в языкознании обусловлена природой и сущностью языка. Язык как система представляет собой совокупность взаимосвязанных дискретных (членимых) единиц, обладающих количественными характеристиками. Количественные характеристики языковых единиц (и их элементов) одного уровня формируют качественное своеобразие единиц другого уровня. Так, язык с десятью фонемами образует иное количество звуковых «оболочек» морфем и слов, чем язык с пятьюдесятью фонемами. Язык имеет вероятностный характер. Так, для образования слов используется незначительная часть возможных комбинаций фонем и морфем. В этом выражается действие вероятностных ограничений в сочетании фонем и морфем. Лингвостатистический метод применим для изучения как языка, так и речи. Однако, количественные характеристики в системе языка не тождественны их количественным отношениям в речи. Дело в том, что на речь влияют не только законы языка (и, прежде всего, закономерности строения языковых единиц, закономерности их речевой реализации), но и законы сочетаемости языковых единиц в речи, законы жанра, тема высказывания, идиостилистические особенности речи и т.п. Характер воздействия этих факторов предсказать сложно. Однако если они регулярно повторяются при одних и тех же условиях, то их все же можно объяснить, раскрыть закономерности появления в речи того или иного элемента с помощью лингвостатистики. Основные понятия лингвостатистики. Согласно философской категории всеобщей связи, между явлениями языка и речи существуют определенные связи и зависимости. Обычно различают два вида зависимости — функциональную (динамическую) и статистическую. Функциональная зависимость состоит в том, что одному языковому явлению соответствует другoe определенное явление. Такого же рода зависимость присуща многим физическим явлениям. Повышение температуры — жидкое состояние воды; понижение температуры — ее кристаллизация. Функциональные зависимости дают точные определения установленным закономерностям, то есть могут быть сформулированы как закон. Например: «Вода при температуре ниже О º С превращается в лед». При статистической (вероятностной) зависимости одному явлению или свойству языка могут соответствовать несколько явлений или свойств. Например: между числом значений слова в словаре и частотой его употребления в речи (тексте) существует определенная статистическая зависимость. Это значит, что выявленному числу значений того или иного слова не обязательно соответствует строго определенная частота употребления этого слова. Такие нестрогие соответствия между качественной и количественной характеристикой языкового явления получили название корреляций. Термин корреляция имеет два значения: 1) общенаучное — «соотношение, соответствие, взаимосвязь, взаимозависимость явлений» и 2) в лингвистической статистике — такая связь между языковыми явлениями, при которой одно из явлений входит в число причин, определяющих другие, или когда имеются общие причины, воздействующие на эти явления. В математической статистике существует несколько видов корреляции. В лингвистике обычно используют линейную корреляцию, согласно которой возрастание значений одного признака сопровождается возрастанием или убыванием значений другого признака. В такой линейной корреляции могут находиться, например, лексико-семантические варианты слова и частота встречаемости слова в речи (в тексте). Если при возрастании значений одного признака возрастают значения другого, то устанавливается так называемая положительная корреляция. Если же при возрастании значений одного признака значения другого признака убывают, то налицо отрицательная корреляция. Число, показывающее степень тесноты корреляции, называется коэффициентом корреляции (это число находится между -1 и 1). Иными словами, коэффициент корреляции заключается от нуля до единицы со знаком «плюс» или «минус»: -1 ← 0→ +1. Если между исследуемыми признаками нет никакой статистической зависимости, величина коэффициента будет равна нулю или близка к нему. И наоборот, сильную зависимость между наблюдаемыми явлениями следует констатировать тогда, когда величина коэффициента приближается к 1 или -1. Величина коэффициента здесь указывает на степень связи между наблюдаемыми языковыми явлениями, а его знак (плюс или минус) — на характер самой корреляции. Как же исчисляется коэффициент корреляции? Статистика располагает несколькими способами. В лингвистике обычно используют для этого формулу: r = Σ (x i - x)(у i - у) √ Σ (x i - x) 2 (у i - у)2 где r - коэффициент линейной корреляции; Σ - суммирование получаемых в результате той или иной операции величин; х i - значение первого знака; у i - значение второго знака; х - средняя (теоретическая) величина первого признака; у - средняя величина второго признака. Величины х i - х и у i - у обозначают отклонения полученных нами величин от средних. Покажем технику вычисления r на конкретном примере. Предположим, что мы произвели выборку десяти репрезентаций одного и того же явления в текстах двух авторов (А 1 и А 2) и получили следующие частоты их встречаемости:
По формуле исчисления r находим х и у: х = 275:10 = 27,5, а у = 325:10 = 32,5. Теперь произведем действия в числителе: (5 - 27,5) (10 - 32,5) +-(10 - 27,5) (15 - 32,5) + (15 - 27,5) (20 - 32,5) + (20 - 27,5) (25 - 32,5) + (25 - 27,5) (30 - 32,5) + (30 - 27,5) (35 - 32,5) + (35 - 27,5) (40 - 32,5) + (40 - 27,5) (45 - 32,5) + (45 - 27,5) (50 - 32,5) + (50 - 27,5) (55 - 32,5) = 506,25 + 306,25 + 156,25 + 56,25 + 6,25 + 6,25 + 56,25 + 156,25 + 306,25 + 506,25 = 2062,5. Соответствующие действия в знаменателе представим подобным же образом: 1) в первой выборке: 506,25 + 306,25 + 156,25 + 56,25 + 6,25 + 6,25 + 56,25 + 156,25 + 306,25 + 506,25 = 2062,5; 2) такой же результат получим и по второй выборке — 2062,5; 3) √ 2062,5 х 2062,5 = 4253906,2. Коэффициент r = + 062,5 : 4253906,2 = + 0,0004848. Коэффициент показывает, что корреляция между наблюдаемыми выборками крайне слабая, хотя и положительная. Однако окончательные выводы делать рано. Как полагает математическая лингвистика, коэффициент корреляции — величина в известной степени случайная. Для определения необходимой степени надежности получаемых величин пользуются понятиями «доверительная вероятность» (коэффициент доверия) и «уровень значимости» (коэффициент надежности). Под коэффициентом надежности принято считать 95%, когда вероятность допущенной ошибки равна 5%. Кроме того, существует еще уровень значимости — величина, дополняющая коэффициент надежности до 1. Так, при доверительной вероятности р = 0,95 уровень значимости 1 - р = 0,05. Именно при таком уровне значимости результаты лингвистического анализа считаются достаточно надежными. Уровень значимости и обусловливаемая ею доверительная вероятность определяется исследователем для установления параметров случайных величин. Соответствие между ними определяется по специальным статистическим таблицам (они прилагаются в учебниках и справочниках по статистике). Итак, в лингвистике установлено: частота появления тех или иных языковых элементов в речи подчиняется определенным статистическим законам (закономерностям). Статистические законы вероятностны потому, что они лишь предсказывают свойства языковых элементов. Однако они прогнозируют вероятность появления наблюдаемых свойств только в известном диапазоне (от — до), поскольку используются каждый раз в новом количественном измерении (хотя и в пределах известной средней величины). Статистические законы распространяются на те языковые явления, которые испытывают влияние множества факторов (причин). Такие факторы не только многочисленны, но и многовекторны (разнонаправлены). Они взаимодействуют между собой неоднозначно, и поэтому результаты их взаимного воздействия колеблются вокруг некой средней величины. Располагая известной гипотезой о действии некоторого статистического закона, можно говорить о вероятности соответствующего языкового явления. В нестрогом терминологическом употреблении вероятность представляет собой долю исследуемого элемента (явления) в ряду однородных, долю, ожидаемую по имеющейся у исследователя гипотезе. Исчисляется вероятность (Р) отношением числа появлений изучаемого явления в речевом потоке (а) к числу всех других явлений (b) по формуле Р= а: b. Сама вероятность закономерна. Действие статистического закона выражается именно в сохранении установленной ранее вероятности. Измерение вероятности языкового явления ведет к изменению статистического закона. Наблюдения за действием статистических законов, то есть за вероятностью языкового явления, осуществляются при помощи понятий «частота», «средняя частота», «отклонение от средней частоты». Простейшим из них является «частота» языкового элемента (или явления), под которым понимается число его появлений в наблюдаемом речевом отрезке. Это так называемая выборочная частота, то есть абсолютное (не обработанное) количество употреблений изучаемого элемента в тексте. Выборочные частоты в абсолютном выражении недостаточно информативны, поскольку не способны дать достоверное представление о вероятности изучаемого явления (элемента) и тем более не позволяют сформулировать статистический закон. Так, зная, что в текстах одинакового объема В. Ерофеева жаргонизмы встречаются 800 раз, а в текстах Б. Акунина — 400, нельзя вывести вероятность жаргонизмов в современной художественной прозе и сформировать соответствующий статистический закон. Л-ингвостатистический метод задал новые стимулы для развития лингвистической типологии. Впервые идею количественного исследования типологически разных языков высказал Джозеф Гринберг. Сравнивая отрывки текста одной и той же длины, составленные на разных языках, можно установить степень сходства или различий в строении этих языков. Об этом свидетельствуют количественные отношения между словами обследуемых текстов и компонентами их морфологического строения. Количественные характеристики словарного состава в разных стилевых и авторских разновидностях речи в настоящее время широко используются в лексикологии и стилистике. Количественное описание подъязыков науки и техники используется для автоматической обработки языковой информации (создания информационно-поисковых систем и программ для машинного реферирования текстов), а также в методике преподавания языков. Наиболее распространенными приемами лингвостатистического метода являются: А) Лексикографическая статистика (закон Ципфа — Мандельброта). Лексикографическая статистика -— это теория и практика состав-ления частотных словарей. Составление частотных словарей поставило ряд практических и теоретических задач. Было замечено, что при достаточно боль-шом количестве текстов около 80% его занимают две тысячи самых употребительных (частотных, активных) лексем. Изучая отношение частоты и ранга (порядкового номера в частотном словаре), американский лингвист Джордж Ципф в 1949 г. установил прямую их зависимость: r х f = с (то есть ранг х частоту = слово). В 1954 г. американский математик Бенуа Мандельброт предложил уточненную формулу: Рr = Р (r + р) -b, где r — номер слова в списке по убывающим частотам, Рr — относительная частота (вероятность), а Р, р, b — константы данного текста. Более детальная проверка закона Ципфа — Мандельброта об-наружила его относительность: константы оказались зависимыми от стиля, жанра, эпохи и т. п. Так, Джордж Юл определил, что для атрибуции текста необходима совокупность разных характеристик, а Ревекка Марковна Фрум-кина доказала, что закон Ципфа действует вообще лишь в интервале 15≤ r ≤ 1500. Б) Статистические параметры стилей и установление авторства. Статистические методы используются также для изучения употребительности языковых фактов с точки зрения их нормативности, принадлежности стилю языка и отдельного автора. Как и при обычном количественном исследовании, выборки должны быть однородными и одинакового объема (или длины); однородность выборки определяется интуитивно или по социолингвистическим соображениям. Если при количественной методике исследователь оперирует абсолютными частотами (представляя их иногда как процентное соотношение), то при лингвостатистической методике он оперирует средними частотами и частотностью (долями), понимаемой как отношение наблюдаемой частоты к длине. Статистическая методика заменяет полное обследование текста серией выборок-наблюдений (выборочная частота обозначается зна-ком «х» с показателем выборки: х 1, х 2 ; наблюдение - знаком «n i ». Средняя частота есть отношение суммы (знак суммирования – «Σ ») всех выборочных частот к числу выборок: − Σ (х 1+ х 2 + х n) х = n i Средняя частота отличается от выборочных частот, поэтому стати-стическая интерпретация предполагает обобщение отклонения средней частоты от выборочных частот. Наиболее употребительная (усредненная) мера отклонения от средней частоты в математической статистике и теории вероятностей называется дисперсией (лат. dispersio «отклонение») и обозна-чается буквой «δ». Дисперсия есть среднее арифметическое из квадрата отклонений величин хi от их среднего арифметического, -то есть от средней частоты: − − δ = √ ∑ (хi –х)2 или δ2 = ∑ (хi –х)2 k k Среднее квадратичное отклонение есть квадратный корень из дисперсии. Статистически изучаются не только выборочные частоты, но и частотные доли. Доля как отношение наблюдаемой частоты к длине выборки определяется при помощи формулы вероятности: р = m:n, где р — доля. Статистическое сравнение долей изучается при по-мощи вычисления квадратичного отклонения доли, критерия хи-квадрат и критерия Стьюдента. Распределение частот и частотных долей в тексте того или иного автора дает возможность выявить постоянные (константные) особенности текста, а также отклонения от типичного для данного стиля и жанра — индивидуальные особенности, касающиеся употребительности отдельных единиц и их длины. В) Теория информации и измерение текста. Теория информации интересуется не содержательной стороной передачи и хранения информации, а ее статистической структурой. -Текст можно изучать при помощи теории информации как статистическую структуру текста, его измерение. Статистическая структура понимается как частота появления в со-общении сигнала (символа). Это будет вероятность, обозначаемая знаком «р». Сочетания сигналов - условная вероятность - обозначается знаком «рi ». При многократном повторении сигнала очень важно опре-делить количество информации, передаваемой сигналом. Количество информации приравнивается к мере недостающей информации, то есть к величине неопределенности. Такое количество информации полу-чило название энтропии; она характеризует ситуацию перед полу-чением сигнала в большей степени, чем сам сигнал. Неопределенность ситуации (а следовательно, и количество информации) увеличивается с увеличением числа сигналов; при одинаковом числе сигналов не-определенность наибольшая в том случае, если вероятность появле-ния всех сигналов равновероятна. Величина неопределенности (она обозначается знаком Н) связана с вероятностями по формуле: Download 193.41 Kb. Do'stlaringiz bilan baham: |
ma'muriyatiga murojaat qiling