Программа «Иностранные языки»
Исходные понятия корпусной лингвистики
Download 0.96 Mb.
|
ГОСы. Компиляция
- Bu sahifa navigatsiya:
- Типы корпусов данных .
- Требования к корпусу.
Исходные понятия корпусной лингвистикиПроблемная область. Под проблемной областью понимается область реализаций языковой системы, содержащая феномены, подлежащие лингвистическому описанию. В идеале проблемная область имеет два измерения — языковое и речевое. Речевое представлено речевыми высказываниями (реализациями), а языковое измерение проявляется в существовании потенциальной возможности появления других употреблений, дополняющих массив имеющихся реализаций. Корпус данных. Корпус данных представляет собой сформированную по определенным правилам выборку данных из проблемной области. Тем самым корпус данных представляет собой результат отображения из проблемной области. В отличие от проблемной области, корпус данных имеет только одно измерение — речевое, поскольку сам по себе он не обладает потенцией производства своих составляющих. Единица хранения корпуса данных – это некоторая совокупность естественноязыковых выражений проблемной области, которой сопоставляется одно описание на некотором метаязыке, определяемом процедурой формирования корпуса. Корпус текстов. Корпус текстов — это вид корпуса данных, единицами которого являются тексты или их достаточно значительные фрагменты, включающие, например, какие-то полные фрагменты макроструктуры текстов данной проблемной области. Типы корпусов данных . Исследовательские корпусы. Исследовательскими называются такие корпусы, которые предназначены преимущественно для изучения различных аспектов функционирования языковой системы. Иллюстративные корпусы. Иллюстративные корпусы создаются после проведения научного исследования: их цель не столько выявить новые факты, сколько подтвердить и обосновать уже полученные результаты. Корпусы параллельных текстов. Для научных и практических целей формируются корпусы параллельных текстов. По своей структуре это подмножество текстов на языке-источнике и одно или несколько подмножеств текстов, которые являются переводами текстов языка-источника на языки-цели. Например, английский текст «Alice in Wonderland» и его переводы на немецкий, французский и русский языки могут формировать такой корпус или быть частью большего корпуса параллельных текстов. Требования к корпусу. Корпус данных, будучи отражением проблемной области, должен совмещать, с точки зрения пользователя, самые противоречивые требования: репрезентативность (способность корпуса текстов отражать все свойства проблемной области, релевантные для данного типа лингвистического исследования) полнота (учет релевантных явлений), экономичность (экономия усилия исследователя при изучении проблемной области), структуризация материала, компьютерная поддержка (поддержка корпуса текстов комплексом программ по обработке данных, обеспечивающих функции составления конкордансов, статистической инвентаризации, автоматической словарной обработки и пр. К настоящему времени накоплен уже довольно значительный опыт построения корпусов текстов, однако информация о наличии корпусов в разных странах ограничена. Это существенно затрудняет проведение научных исследований и нередко приводит к дублированию работы. Сложность получения информации о существующих корпусах текстов связана с тем, что практически все они создаются по локальным проектам отдельными организациями. Международная координация усилий в этой области пока еще не налажена в должной мере. Вторая проблема в области корпусной лингвистики связана с первой: локальность проектов приводит к возникновению различных форматов представления корпусов текстов. Отсутствие единого формата представления дополняется и несовместимостью программного обеспечения. В имеющихся описаниях корпусов нет ясной информации о содержательных принципах отбора материала. Поскольку корпус является сужением проблемной области, то представительность корпуса прямо связана с принципами отбора материала. Если же нет уверенности в представительности корпуса, его заведомо нельзя использовать для многих видов лингвистической деятельности, например, для оценки частоты употребления лексем в тех или иных значениях или для составления словников некоторой проблемной области. Необходимо разработать общепринятую процедуру сужения проблемной области до корпуса текстов. По-видимому, таких процедур должно быть несколько, поскольку соотношение между корпусом и проблемной областью не является постоянной величиной и меняется в зависимости от характера проблемной области и задач исследования. Download 0.96 Mb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling