I. Научные основы исследования проблемы непрерывного процесса изучения синтаксиса


Синтаксический анализ и его роль в непрерывном образовании


Download 0.5 Mb.
bet4/8
Sana20.06.2023
Hajmi0.5 Mb.
#1630746
TuriГлава
1   2   3   4   5   6   7   8
Bog'liq
развитие мышления учащихся старших классов в процессе формированияя синтактических понятий

1.3. Синтаксический анализ и его роль в непрерывном образовании.
Синтаксический анализ (парсинг) - это процедура, которая соотносит предложения, созданные на естественном языке, с некоторой системой правил (грамматикой) и позволяет определить структуру взаимоотношения между единицами более высоких и более низких уровней. Такая информация необходима для решения задач семантического анализа текста, автоматического извлечения информации, машинного перевода, автоматического аннотирования и реферирования, поиска ключевых слов и др. Синтаксические анализаторы (парсеры) позволяют проводить такую процедуру автоматически. Существует два основных подхода к анализу синтаксиса машиной: первый основан на правилах, второй - на статистических данных и машинном обучении.
Синтаксическая структура обычно представляется в виде дерева, листьями которого являются словоформы, а ветви выражают связь или зависимость между ними. Основные подходы к формальному описанию синтаксических структур (грамматика непосредственных составляющих и грамматика зависимостей) различаются тем, что в первом случае слова группируются в подгруппы и группы таким образом, чтобы представить последовательность их «упаковки» в высказывание, а во втором - выявляются логико-грамматические связи каждого листочка со «стволом» дерева.
Правила грамматики зависимостей предполагают, что синтаксическая структура полностью состоит из отношений зависимости. Каждое из таких отношений может иметь собственное название, но в целом в современных теориях они сводятся к следующим видам:
1) экзоцентрический (head-argument) - например, читать книгу: зависимый элемент здесь может быть только один, при этом в некоторых случаях главный элемент без зависимого не используется;
2) эндоцентрическое (head-modifie) - например, интересная книга: зависимые элементы могут быть или не быть, причем как один, так и несколько;
3) преобразование Теньера (head-specifier) - например, в книге: семантически главным элементом здесь является полнозначное слово, но грамматически - служебное. Понятно, что без зависимого элемента такие структуры существовать не могут;
4) координации - например, мороз и солнце: здесь элементы равноправны.
В анализе составляющих правила применяются к терминальным и фразовым категориям. Грамматика непосредственно составляющих была предложена и разработана Леонардом Блумфилдом (Leonard Bloomfield, 1887-1949). Аналогичных взглядов придерживался и Ноам Хомский. В этой грамматике предложение 201 рассматривается как линейная структура, которая может быть последовательно разложена на группы меньшего размера, вплоть до минимальной категории - словоформы. При этом в последовательности предложения выделяются такие подпоследовательности, которые могут быть перемещены в другое место последовательности только целиком, но не по частям. Такой подход позволяет как делить более крупные единицы на более мелкие (нисходящие алгоритмы), так и объединять более мелкие в более крупные (восходящие алгоритмы).

Считается, что анализ по непосредственно составляющим больше подходит для языков с бедной морфологией и жестким порядком слов, для языков же с сильно развитой флективностью и свободным порядком слов актуальнее деревья зависимостей. Однако существующий изоморфизм (и в том, и в другом случае конечный результат представляет собой «дерево») позволяет трансформировать модели одного типа в модели другого.
Каждый из двух подходов может быть реализован посредством анализа «по правилам» и статистического анализа.
Синтаксический анализ «по правилам» строится на основе формальной грамматики, которая описывает весь набор правильных для языка высказываний, составленных из конечного словаря в соответствии с заданными правилами.
Разработка такой грамматики для естественного языка осложняется рядом проблем, среди которых:
• морфологическая омонимия (part-of-speech tagging, word-category disambiguation);
• синтаксическая омонимия (syntactic homonymy);
• лексическая многозначность (word sense disambiguation);
• синтаксическая синонимия (syntactic synonymy);
• разрешение кореферентности (coreference resolution).
В результате действия всех этих причин возникают неоднозначные конструкции, которые могут быть проанализированы по- разному.
В 1990-е гг. появились парсеры, собирающие и обрабатывающие статистическую информацию. Они извлекают данные из коллекций текстов, размеченных вручную, и на основании их определяют наиболее вероятный вариант разбора того или иного предложения. К таким парсерам относится Стэндфордский парсер (The Stanford Natural Language Processing Group), который продолжает регулярно обновляться. Если Стэнфордский парсер основан на модели непосредственно составляющих, то статистический Malt Parser (Johan Hall, Jens Nilsson и Joakim Nivre) основан на индуктивном машинном обучении, работе с деревьями зависимостей.
Примером квантитативного анализа на основе синтаксического анализа может служить исследование имени существительного в русском языке по его синтаксическим признакам Юн Ван (Yong Wang) и Хайтао Лю (Haitao Liu), профессорами Чжэцзянского университета (КНР), проведенное на базе корпуса СинТагРус.
На основе случайной выборки из 3509 предложений авторы обнаружили следующие закономерности:
1) в выбранном массиве количество конструкций, в которых зависимое слово находится в препозиции по отношению к главному, составляет 18 033, а в постпозиции по отношению к главному - 32 629, т. е. 64,41 % зависимых слов по отношению к главному находятся в постпозиции;
2) если имя существительное является главным словом, то количество зависимых от него слов в постпозиции составляет 8901 (52,88 % от общего числа), в препозиции - 7930 (47,12 %);
3) количество конструкций, где расстояние зависимостей равняется 1, составляет 6172 (77,83 %) от общего числа конструкций с положительной величиной; а число конструкций, где расстояние зависимостей равняется -1, соответственно, 4769 (53,58 %) от общего числа конструкций с отрицательной величиной;
4) общая средняя величина расстояния зависимостей составляет 1,57, в том числе положительная средняя -1,47, а отрицательная средняя - 2,08;
5) число зависимых существительных в постпозиции равняется 15 557 (77,75 %), а в препозиции - 4451 (22,25 %), при этом общая средняя величина расстояния зависимостей составляет 1,99 (положительная средняя величина - 2,79, отрицательная средняя величина -1,77).
Наиболее частотными, по данным исследователей, являются следующие конструкции:
1) согласованное отношение главного существительного и зависимого прилагательного - 40,49 % (например, белые волосы);
2) несогласованное определение к главному слову - 12,55 % (например, конструкция комплекса');
3) предикативное слово (отглагольного существительного) с его вторым актантом - 12,55 % (например, ведение системы).
Кроме того, анализ показывает существенные особенности частотных характеристик выделенных конструкций.
Так, прилагательные, местоимения и порядковые прилагательные при согласовании составляют 88,09 % всех зависимых слов; причастий - 9,66 %. Имена прилагательные при этом используются в 98,45 % случаев препозитивно, а причастия - лишь в 55,02 %. При использовании существительного как предикатного слова в 92,92 % случаев зависимое существительное, обозначающее субъект действия, и в 97,46 % случаев зависимое существительное, обозначающее объект действия, следует непосредственно за ним. Если имя существительное зависит от предикативного слова, то в 85,72 % случаев главное слово - глагол, в 7,28 % случаев - прилагательное и в 4,55 % случаев - существительное. В 47,52 %, 81,88 % и 91 %, соответственно, случаев зависимое существительное находится перед главным.



Download 0.5 Mb.

Do'stlaringiz bilan baham:
1   2   3   4   5   6   7   8




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling