Деятельности
ПСИХОЛИНГВИСТИЧЕСКИЕ АСПЕКТЫ
Download 2.84 Kb. Pdf ko'rish
|
OTRD
Глава 15 ПСИХОЛИНГВИСТИЧЕСКИЕ АСПЕКТЫ СТАТИСТИЧЕСКОЙ ОРГАНИЗАЦИИ СВЯЗНОГО ТЕКСТА Последовательные попытки исследовать организацию связной речи (текста) методами статистики и теории вероятностей восхо- дят к периоду яркого влияния на лингвистику идей и методов теории информации. История использования этих методов в изу- чении организации связного текста насчитывает более двадцати лет (обзорные данные см. [Падучева, 1961; Миллер, 1963]). Ряд моделей, созданных в этот период [Aborn and Rubinstein, 1958; Goldman — Eisler, 1958; Miller and Bruner, 1954; Miller, Heise and Lichten, 1963], в настоящее время естественно оце- нивать с точки зрения того, в какой мере они способствовали решению собственно лингвистических проблем, а также разра- ботке приложений лингвистики к задачам, возникающим в смежных науках и, шире говоря, в различных областях теории и практики, где требуется использование знаний о восприятии речи. При этом надо, однако, учесть, что сами представления о том, что следует понимать под «собственно» лингвистическими зада- чами и «приложениями» лингвистики, также эволюционировали. Представление о чрезвычайно широких возможностях теоре- тико-информационного подхода к исследованию языка, столь рас- пространенное в 50-х годах, имело под собой, как казалось, весь- ма существенную базу. Теория информации, как известно, изуча- ет основные закономерности передачи сообщений по каналам связи с помехами. Передача сообщений — основная функция языка. Ес- тественно, что рассмотрение языка именно в свете этой основной его функции должно было представляться очень продуктивным (Яглом и Яглом, 1960; Падучева, 1961). Напомним, что с точки зрения теории информации основное, чем характеризуется сообщение,— это его статистическая струк- тура. Для простоты мы рассматриваем здесь только сообщения, состоящие из последовательности дискретных символов. Каждый элемент такого сообщения — отдельный символ — характеризует- ся: а) его безусловной вероятностью; б) его условной вероят- ностью. Иными словами, каждый символ сообщения i описывает- ся двумя численными характеристиками; одна указывает на то, каков шанс встретить данный символ i в некотором произвольно выбранном сообщении достаточно большой длины; вторая — ука- зывает на то, каков шанс встретить тот же символ при условии, что ему предшествовал символ j, или при условии, что два пред- шествовавших символа были к и j, и т. д. В рамках изложенного подхода для того, чтобы охарактери- зовать некоторое сообщение, следует задать его статистическую структуру, т. е. алфавит символов, их безусловные и условные вероятности. Допустим, что в качестве символа выбирается буква. Статистическая структура сообщения (текста) будет считаться заданной, если известны безусловные вероятности букв и услов- ные вероятности перехода от буквы к букве (пробел считается также «буквой»). Такова теоретико-информационная модель со- общения. Ее близость к реальному тексту определяется, как из- вестно, тем, какие условные вероятности выбираются в качестве способа описания статистической структуры (подробнее об этом см. Падучева, 1961); учитываем ли мы зависимость буквы № п только от буквы № п — 1, или также от буквы п — 2, п — 3 и т. д. Модель четвертого порядка, построение которой требует достаточно громоздких вычислений, приводит всего лишь к фразе вида: «весел враться и непо и сухом и корко». Очевидно, что полученное сообщение достаточно далеко от текста на естествен- ном языке и, следовательно, наша модель слишком груба. Однако надо иметь в виду, что «усложнение» модели при условии того, что мы остаемся в рамках теоретико-информационного подхода, может идти только в двух направлениях: 1) увеличение порядка приближения, т. е. учет условных вероятностей символа i относительно длинной цепочки предше- ствующих символов; 2) выбор в качестве исходного символа более «крупной» еди- ницы типа морфемы или слова. Так, если в качестве исходного символа выбрано слово, мо- дель второго порядка приводит уже к фразе типа: ...on an Eng- lish writer that the character of this point is therefore another method... Общеизвестно, однако, что уже на уровне словосочетания с чис- лом членов более двух существенным является не столько ли- нейный порядок вероятностей переходов от символа с № п к сим- волу с № n + 1 , n + 2 (а через условные вероятности задается именно он и ничего более), сколько наличие между членами словосочетания структурированных связей типа управления, од- нородности и т. д. Отношения управления, подчинения и прочие грамматические связи и ограничения, наряду с самыми разно- образными «смысловыми» ограничениями, с позиций статистиче- ского подхода неразличимы: «синтаксис» (т. е. законы сочетаемо- сти элементов) в рамках этой теории сводится к предсказанию выбора члена последовательности с № п на основе знания чле- на последовательности с № п — 1 или двух членов с № п — 1 и п — 2 или еще большего предшествующего отрезка последо- вательности и т. д. Но такой подход по существу переводит всю проблему в план исследования роли «контекста». При этом под ролью контекста, строго говоря, приходится понимать следую- щее: утверждается, что знание некоторого вполне определенного числа членов линейной последовательности, элементы кото- рой различаются между собой только местами, позволяет с большой степенью уверенности предсказывать пропущенный (или последующий по отношению к наличествующим) член данной последовательности. Мы обращаем внимание читателя на то, что чисто статистический подход приводит именно к такой трактовке контекста. Очевидно, что в лингвистическом отношении данная модель не слишком содержательна. Поэтому в большинстве экспе- риментальных исследований линейная последовательность не рас- сматривается как состоящая из однородных членов-символов: вво- дится понятие грамматического класса [Aborn, Rubinstein and Sterling, 1959; Fillenbaum, Jones and Rapoport, 1963], конгруэнт- ности контекста (в семантическом или ином отношении) [Tulving and Gold, 1963; Pollack, 1964; Bruce, 1958]. Восстановление пропущенных членов изучается не просто с точки зрения того, какова доля слов (букв), поддающихся вос- становлению (ср. Oleron, 1960; MacGinitie, 1961; Fillenbaum, Jones and Rapoport, 1963; Oleron, 1958), а в плане зависимости восстановления от грамматической принадлежности самого слова или от грамматической структуры его окружения [Cofer and Shepp, 1957; Fillenbaum, Jones and Rapoport, 1963], от «кон- груэнтности» контекста [Bruner, 1957; Tulving and Gold, 1963, и проч.]. Собственно теоретико-информационный подход тем са- мым оказывается представленным в достаточно малом числе ра- бот, главным образом ранних. Такой ход развития научной мысли представляется неизбежным. Легко видеть, что в общем случае восприятия текста челове- ком все виды контекста — языковой и внеязыковой, лексиче- ский и грамматический, общеситуативный и определяемый на- личными членами последовательности — предстают в нерасчленен- ном виде. В самом деле, восстанавливая отсутствующий член последовательности типа «Из лесу вышла старушка с... на пле- чах», мы основываемся сразу на нашем интуитивном владении всеми закономерностями родного языка, т. е. мы используем ком- плексно все виды связей: а) между словами, б) между их «смы- слами», в) между словами и их «референтами» и т. д. Разно- плановость, «слоистость» связей подтверждается в экспериментах, где сопоставляется восстановление фраз подобного типа тремя группами испытуемых: I — носителями русского языка; II — иностранцами, в известной мере владеющими русским языком; III — больными шизофренией. Если для русских типичным является восстановление с кор- Download 2.84 Kb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling