1. обучение языку на основе задач глава вопросы


ГЛАВА 2. СИНТАКСИЧЕСКИЕ КОНСТРУКТУРЫ , ВЫЗЫВАЮШИЕ ПРОБЛЕМЫ ПРИ АВТОМАТИЧЕСКОМ СИНТАКСИЧЕСКОМ АНАЛИЗЕ И СПОСОБЫ РЕШЕНИЯ ЭТИХ ПРОБЛЕМ


Download 107 Kb.
bet9/12
Sana19.06.2023
Hajmi107 Kb.
#1626429
1   ...   4   5   6   7   8   9   10   11   12
Bog'liq
курсовой Баходирова

ГЛАВА 2. СИНТАКСИЧЕСКИЕ КОНСТРУКТУРЫ , ВЫЗЫВАЮШИЕ ПРОБЛЕМЫ ПРИ АВТОМАТИЧЕСКОМ СИНТАКСИЧЕСКОМ АНАЛИЗЕ И СПОСОБЫ РЕШЕНИЯ ЭТИХ ПРОБЛЕМ.
2.1 НЕОДНОЗНАЧНОСТЬ И ПРОБЛЕМА КОМБИНАТОРНОГО ВЗРЫВА
Методология лингвистических исследований призвана определить подход к объекту языкознания, взаимоотношения между субъектом и объектом исследования, способ построения научного знания, общую ориентацию и характер лингвистического исследования. Объектом лингвистики выступает человеческий язык во всех его проявлениях. Как отмечает А. А. Горбачевский, с одной стороны, язык – биологическое явление (его «место обитания» – человеческий мозг), а с другой – социальное (язык является связующим звеном между отдельной личностью и всем обществом) [11, с. 42]. Исходной для языкознания является трактовка языка как одного из видов общественной деятельности. Язык теснейшим образом связан с психической сферой человека, с его мыслительной деятельностью и «духовной сущностью», т. е. с культурой, и в первую очередь относится к объектам «идеальной» природы. Поэтому лингвистику правомерно считать гуманитарной наукой. Одновременно язык 5принадлежит к объектам материальной природы, является естественным образованием, возникшим и существующим помимо воли человека. Это объединяет лингвистику с областями естественно-научного знания. Будучи одновременно и биологическим, и социальным явлением, язык как объект лингвистических исследований характеризуется фундаментальной двойственностью. Положение лингвистики между гуманитарными и естественными науками отражается на её методологии, совмещающей гуманитарный и естественно-научный подход. Двойственность Репозиторий БрГУ 15 языка обусловливает использование при его описании бинарных терминологических оппозиций «язык / речь», «система / реализация», «компетенция / употребление» и др. Сам язык недоступен непосредственному наблюдению, но может изучаться во внешних проявлениях, т. е. в речевой деятельности человека, а также в текстах, являющихся результатом такой деятельности. В силу специфики объекта изучения в лингвистических исследованиях широко используется моделирование – исследование языковых явлений на их моделях (от лат. modis ‘образец’), отражающих структуру, свойства объекта моделирования, взаимосвязи и отношения между его элементами в более простом, уменьшенном и конкретном виде. Важнейшее значение для лингвистических исследований имеет трактовка языка как системы, что позволяет экстраполировать на него общие системные закономерности. Язык – это системное образование, каждый из элементов которого связан некоторыми отношениями с другими элементами, а кроме того, с обществом, культурой, наукой, природой и т. д. Промежуточное положение лингвистики между гуманитарными и естественными науками накладывает отпечаток на её методологию, в которой совмещаются гуманитарный и естественно-научный подход. Субъектом научного исследования может выступать отдельная личность или научное сообщество. Отдельному исследователю важно чётко ограничить рамки своей деятельности и определить цели научной работы; изучить работы предшественников, освоить терминологию и строго выстроить понятийный аппарат; при этом следует придерживаться позиций одной научной школы. Результат любого исследования, полученное новое знание нужно оформить в виде текста, иначе это знание окажется невостребованным. В наши дни субъектом научной деятельности чаще выступает не отдельный исследователь, а научный коллектив, научный социум (проблемная группа, лаборатория, научный институт, кафедра, научная школа и т. д.). В коллективной научной деятельности важен плюрализм научного мнения, научное общение (показателен в этом смысле афоризм К. Бернара: «Искусство – это я, наука – это мы»). В каждом случае обязательно соблюдение общих принципов познания (установление причин явления; проверка истинности знания на практике, внедрение научных результатов; признание относительности полученного научного знания).
Помимо проблем программного обеспечения компьютерного синтаксического анализа, существует также проблема его лингвистического обеспечения, то есть того, каким образом и насколько полно представлена модель языка в системе автоматического анализа текста. В проекте AIIRE такая модель, используемая при автоматическом анализе текстов из корпуса, представлена в виде: 1. универсальной онтологии, содержащей информацию о семантике языковых единиц и семантических связях между ними; 2. наборов правил – «грамматики» на языке Python, которые формально 20 отражают структуру сложных языковых единиц; 3. морфологического словаря; 4. синтаксического модуля, в котором для каждого класса непосредственных составляющих из модуля грамматики прописаны шаблоны семантического графа. Корпус-менеджер проекта AIIRE «предоставляет возможность просмотра разметки полностью размеченных фрагментов текста» [Гроховский, Добров, Доброва и др. 2017: 158]. Существует три типа помет для фрагментов текста, которые по какой-то причине были размечены не полностью: 1. «Нераспознанные единицы» – «фрагменты, для которых в разметке отсутствуют синтаксические деревья» [Там же: 159]; 2. «Разрывы» – «позиции, в которых дерево не может быть связано с соседним» [Там же]; 3. «Перекрытия» – «фрагменты текста, в которых пересекаются синтаксические деревья, не полностью покрывающие текст...» [Там же]. Перечисленные инструменты позволяют исследователю вести параллельную работу над разметкой корпуса и совершенствованием формальной модели языка. Пользователь имеет возможность пошагово устранять возникшие проблемы – нераспознанные единицы, разрывы и перекрытия – повышая полноту и точность анализа текста, а также пополняя формальную модель новыми языковыми единицами и явлениями. Каждая из перечисленных проблем имеет определенное решение. Проблема нераспознанных единиц возникает, когда между двумя деревьями есть непустой текст, который машина не может распознать и построить для него синтаксическое дерево. В таком случае единица добавляется в морфологический словарь (и тогда либо проблема решена, либо возникает новая – разрыв, перекрытие или комбинаторный взрыв, что влечет за собой дополнительную работу над данным фрагментом текста). К сожалению, добавление одной единицы в словарь не всегда помогает решить 21 проблему: в морфологии могут отсутствовать две словоформы подряд, или одна словоформа может быть записана так, что получается несколько нераспознанных фрагментов (например, «Дур-р-ра!» в рассказе Л. Андреева «На реке» (1900)). Последняя проблема в настоящее время пока не решена, и подобные единицы (которые часто встречаются в художественных текстах) остаются нераспознанными. Проблемы разрывов и перекрытий, представляющие особую важность для настоящего исследования, могут быть решены следующими способами: 1. Создание и редактирование выражений и значений в универсальной онтологии, а также моделирование семантических валентностей (установка связей между значениями); 2. Создание и установка новых отношений между значениями в универсальной онтологии, а также расширение и редактирование уже существующих отношений; 3. Пополнение грамматики новыми конструкциями и редактирование уже существующих. Перекрытия в текстах на русском языке – редкое явление. Таким образом, основной проблемой автоматического синтаксического анализа (по крайней мере, в данном исследовании) стали разрывы и комбинаторные взрывы. Добиться уменьшения их количества — значит приблизиться к созданию полностью синтаксически размеченного корпуса рассказов Леонида Андреева.


Download 107 Kb.

Do'stlaringiz bilan baham:
1   ...   4   5   6   7   8   9   10   11   12




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling