Программа «Иностранные языки»


Исходные понятия корпусной лингвистики


Download 0.96 Mb.
bet66/81
Sana09.04.2023
Hajmi0.96 Mb.
#1345857
TuriПрограмма
1   ...   62   63   64   65   66   67   68   69   ...   81
Bog'liq
ГОСы. Компиляция

Исходные понятия корпусной лингвистики


Проблемная область. Под проблемной областью понимается область реализаций языковой системы, содержащая феномены, подлежащие лин­гвистическому описанию. В идеале проблемная область имеет два измерения — языковое и речевое. Рече­вое представлено речевыми высказываниями (реализациями), а языковое измерение проявляется в существовании потенциальной возможности по­явления других употреблений, дополняющих массив имеющихся реализа­ций.
Корпус данных. Корпус данных представляет собой сформированную по определенным правилам выборку данных из проблемной области. Тем самым корпус данных представляет собой результат отображения из про­блемной области. В отличие от проблемной области, корпус данных имеет только одно измерение — речевое, поскольку сам по себе он не обла­дает потенцией производства своих составляющих.
Единица хранения корпуса данных – это некоторая совокупность естественноязыковых выражений проблемной области, которой сопоставляется одно описание на не­котором метаязыке, определяемом процедурой формирования корпуса.
Корпус текстов. Корпус текстов — это вид корпуса данных, единица­ми которого являются тексты или их достаточно значительные фрагмен­ты, включающие, например, какие-то полные фрагменты макроструктуры текстов данной проблемной области.
Типы корпусов данных .
Исследовательские корпусы. Исследовательскими называются такие корпусы, которые предназначены преимущественно для изучения раз­личных аспектов функционирования языковой системы.
Иллюстративные корпусы. Иллюстративные корпусы создаются после проведения научного исследования: их цель не столько выявить новые факты, сколько подтвердить и обосновать уже полученные результаты.
Корпусы параллельных текстов. Для научных и практических це­лей формируются корпусы параллельных текстов. По своей структуре это подмножество текстов на языке-источнике и одно или несколько подмножеств текстов, которые являются переводами текстов языка-источника на языки-цели. Например, английский текст «Alice in Wonderland» и его переводы на не­мецкий, французский и русский языки могут формировать такой корпус или быть частью большего корпуса параллельных текстов.
Требования к корпусу. Корпус данных, будучи отражением проблемной области, должен совмещать, с точки зрения пользователя, самые противоречивые требо­вания: репрезентативность (способность корпуса текстов отражать все свой­ства проблемной области, релевантные для данного типа лингвистичес­кого исследования) полнота (учет релевантных явлений), экономичность (экономия усилия иссле­дователя при изучении проблемной области), структуризация материала, компьютерная поддержка (поддержка корпуса текстов комплексом программ по обработке данных, обеспечивающих функции составления конкордансов, статистической инвентаризации, автоматиче­ской словарной обработки и пр.
К настоящему времени накоплен уже довольно значительный опыт построения корпусов текстов, однако информация о наличии корпусов в разных странах ограничена. Это существенно затрудняет проведение научных исследований и нередко приводит к дублированию работы. Сложность получения информации о существующих корпусах текстов связана с тем, что практически все они создаются по локальным проектам отдельными организациями. Международная координация усилий в этой области пока еще не налажена в должной мере.
Вторая проблема в области корпусной лингвистики связана с первой: локальность проектов приводит к возникновению различных форматов представления корпусов текстов. Отсутствие единого формата предста­вления дополняется и несовместимостью программного обеспечения.
В имеющихся описаниях корпусов нет ясной информации о содержа­тельных принципах отбора материала. Поскольку корпус является суже­нием проблемной области, то представительность корпуса прямо связана с принципами отбора материала. Если же нет уверенности в представи­тельности корпуса, его заведомо нельзя использовать для многих видов лингвистической деятельности, например, для оценки частоты употре­бления лексем в тех или иных значениях или для составления словников некоторой проблемной области. Необходимо разработать общепринятую процедуру сужения проблемной области до корпуса текстов. По-види­мому, таких процедур должно быть несколько, поскольку соотношение между корпусом и проблемной областью не является постоянной величи­ной и меняется в зависимости от характера проблемной области и задач исследования.



Download 0.96 Mb.

Do'stlaringiz bilan baham:
1   ...   62   63   64   65   66   67   68   69   ...   81




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling