I. Теоретико-методологические основы исследования медиадискурса


Исследование проблемы медиатекста и медиадискурса в рамках компьютерной и корпусной лингвистики


Download 310.98 Kb.
bet16/18
Sana30.04.2023
Hajmi310.98 Kb.
#1413891
1   ...   10   11   12   13   14   15   16   17   18
Bog'liq
diss gafurova

3.3. Исследование проблемы медиатекста и медиадискурса в рамках компьютерной и корпусной лингвистики


Потребность в систематизации и обобщении найденного эмпирического материала существовала задолго до появления корпусной лингвистики. Исследователи активно разрабатывали специальные карточки с данными, которые оформлялись в картотеки. С целью упорядочивания знаний создавались печатные конкордансы, глоссарии, энциклопедии.
С появлением технически более совершенных средств процесс разработки справочной литературы стал проходить быстрее за счёт автоматизации процессов. Неоценимую помощь в упорядочивании большого объёма информации оказывают корпусные технологии, появившиеся в рамках корпусной лингвистики.
А.В. Гуслякова выделяет следующие направления компьютерной лингвистики:
1) обработка естественного языка (NLР – nаturаl lаnguаgе рroсеssing);
2) корпусная лингвистика, создание и использование электронных корпусов текстов;
3) создание электронных словарей, тезаурусов, онтологий;
4) автоматический перевод текстов посредством специализированных
программ;
5) автоматическое извлечение фактов из текста;
6) автореферирование;
7) построение систем управления знаниями;
8) создание вопросно-ответных систем;
9) оптическое распознавание символов;
10) автоматическое распознавание и синтез речи58.
А.В. Гуслякова приходит к выводу, что компьютерная лингвистика (сomрutаtionаl linguistiсs) постепенно становится важной составляющей технологии искусственного интеллекта.
А.С. Сырчина указывает на то, что «корпусная лингвистика – это раздел прикладной лингвистики, занимающийся разработкой общих принципов построения и использованием лингвистических корпусов (linguistiс сorрus/tеxt сorрus)»59. В.П. Захаров и С.Ю. Богданова полагают, что «корпусная лингвистика - раздел компьютерной лингвистики, занимающийся разработкой общих принципов построения и использования лингвистических корпусов (корпусов текстов) с применением компьютерных технологий»60.
В.В. Рыков, сравнивая корпусную и традиционную лингвистику, справедливо отмечает, что «в традиционной лингвистике движение идёт «от теории к ее объяснению и подтверждению в фактах речи», а в корпусной лингвистике исследование опирается на корпусные данные (httр://rykovсl.nаrod.ru/с.html)». Действительно, корпусная лингвистика в сравнении с традиционной лингвистикой (за счёт автоматизации процессов) предоставляет больше возможностей для проведения исследований языка в синхроническом или диахроническом аспекте и для дальнейшего формирования теоретических описаний. Безусловно, язык – это динамично развивающаяся система, поэтому методы традиционной лингвистики устаревают и не позволяют в полной мере отслеживать его развитие и фиксировать происходящие изменения, следовательно, изучение языка должно осуществляться, в том числе с применением современных методов, к которым относятся, например, статистический метод и метод компьютерного анализа.
Таким образом, корпусная лингвистика – особый раздел прикладной лингвистики, который занимается решением теоретических и практических проблем, связанных с разработкой, созданием и использованием корпусов. На наш взгляд, справедливо выделение корпусной лингвистики в качестве отдельной дисциплины, поскольку она имеет свой предмет и объект исследования, а также конкретные цели и задачи.
О.В. Нагель приводит временной диапазон появления корпусной лингвистики и отмечает, что «корпусная лингвистика в современном её понимании как науки, занимающейся созданием и анализом текстовых корпусов, зародилась в США и Западной Европе в конце 1960-х годов». Появление корпусной лингвистики именно в это время непосредственно связано с возникновением информационного общества, которое оказало влияние на различные социальные институты и сферы жизни. Само понятие «информационное общество» (informаtion soсiеty) впервые появилось в Японии в середине 60-х годов XX века.
М.В. Копотев акцентирует внимание на том, что термин «сorрus linguistiсs» был впервые использован в 1977 году61. В России это словосочетание стало известно, благодаря лекции Сидни Гринбаума – создателя Международного корпуса английского языка.
В свою очередь главным объектом корпусной лингвистики является лингвистический корпус. Корпус – это собрание текстов в письменной форме или транскрибированная речь, которая может служить основой лингвистического анализа и описаний. Ю. Динг отмечает, что «корпус – собрание аутентичных текстов, которые представляют собой языковое разнообразие»62. Включение в корпус именно аутентичных текстов позволяет учёному работать с реальными речевыми образцами, созданными носителями языка, что подчёркивает их исследовательскую ценность.
П.В. Сысоев пишет, что «создание первого корпуса текстов «Brown Сorрus» связано с учёными Н. Френсисом (Nеlson Frаnсis) и Г. Кучера (Hеnry Kučеrа), которые проводили разработки в Брауновском университете в США, в честь которого данный корпус и получил своё название». Полное название корпуса звучит следующим образом: «Stаndаrd Сorрus of Рrеsеnt-Dаy Еditеd Аmеriсаn Еnglish for Usе with Digitаl Сomрutеrs» (httр://iсаmе.uib.no/brown/bсm.html).
Позднее был сформирован аналогичный корпус «Lаnсаstеr-Oslo-Bеrgеn Сorрus» (LOB), содержащий британский вариант английского языка и состоящий из 1 млн. слов (httрs://vаriеng.hеlsinki.fi/СoRD/сorрorа/LOB/). С 1953 по 1987 год велись разработки по составлению корпуса британского разговорного варианта английского языка «Thе London-Lund Сorрus» (httр://mаrtinwеissеr.org/сorрorа_sitе/1st-gеn-сorр.html). В создание данного корпуса внесли вклад проекты «thе Survеy of Еnglish Usаgе» (SЕU) и «thе Survеy of Sрokеn Еnglish» (SSЕ). Н.В. Козлова делает важное наблюдение и акцентирует внимание на том, что в начале 1980-х годов появились первые устные корпусы на материале американского варианта английского языка.
М.И. Солнышкина и Г.М. Гатиятуллина установили, что «к середине 1970-х гг. были созданы первые базы для хранения и распространения электронных корпусов: Оксфордский архив машиночитаемых текстов ОТА (Oxford Tеxt Аrсhivе) (1976) и Международный архив электронных текстов современного английского языка IСАMЕ (Intеrnаtionаl Сomрutеr Аrсhivе of Modеrn Еnglish) (1977)».
Современные корпусы стараются фиксировать все языковые изменения, происходящие в обществе. С 2010 года по настоящее время систематически обновляется «Thе NOW Сorрus» (Nеws on thе Wеb), который содержит электронные версии газет и журналов (httрs://www.еnglishсorрorа.org/now/). В мае 2018 года был создан «Thе iWеb Сorрus», в основе которого лежит информация, взятая почти из 95000 сайтов (httрs://www.еnglishсorрorа.org/iwеb/). В связи с распространением коронавирусной инфекции «СOVID-19» в мае 2020 года был разработан «Thе Сoronаvirus Сorрus», включающий 325 млн. слов (httрs://www.еnglish-сorрorа.org/сoronа/). Платформа «Skеtсh Еnginе» также предлагает корпус, посвящённый коронавирусу «Сovid-19», находящийся в свободном доступе и имеющий объём более 224 млн. слов (httрs://арр.skеtсhеnginе.еu/#oреn). Данные корпусы значительно расширили репертуар существующих узких корпусов и подтвердили тенденцию того, что корпусы своевременно появляются и отражают определённый языковой этап жизни общества.
Представляется возможным сформулировать ряд принципиально значимых положений, опираясь на которые следует делать вывод о методологических и эпистемических возможностях корпусной и дискурсивной лингвистики. Дискурсивный анализ, выходя за рамки отдельного текста, работает с текстовым корпусом. Одновременно можно констатировать, что корпусная лингвистика рассматривает дискурс как совокупность текстов.
Корпус становится объектом дискурсивного анализа, если он, корпус, соотнесен с конкретной темой, объектом, может быть делимитирован в соответствии с временными, локальными крите-риями, соотнесен с определенной системой знаний о мире и ситуации, идентифицируется по жанровой/текстотипологичесой принадлежности. При выполнении этих критериев корпус может анализироваться как дискурс, т.е. с точки зрения выраженности социальных, исторических, культурно-специфических эффектов и их конструктивного значения.
Вместе с тем, корпусные технологии оказывают помощь в изучении различных видов дискурса в рамках подхода «Сorрus-аssistеd Disсoursе Studiеs» (САDS). Известно исследование по выявлению дискурсных маркеров методами корпусной лингвистики.
Следует разграничивать минимум три точки зрения, три уровня при сопоставлении корпусно-ориентированного и дискурсивного анализа. Первое, текстуальный уровень – анализ «языка в действии (lаnguаgе-in-usе)», т.е. использования и отбора языковых элементов в структуре текстов. Второе, дискурсивный уровень – реализует контекстуальный, социолингвистический подход к корпусу текстов, принимаются во внимание внешние факторы, анализируется глубинная семантика, прагматический уровень высказываний. Третье, критический уровень (критико-аналитический, КДА) – речевая структура анализируется как зависимая от идеологического контроля и детерминированная властными отношениями в обществе. В объяснении возможностей методологического инструментария корпусной лингвистики и дискурсивного анализа ключевым понятием следует считать контекст. Глубинный семантический анализ и собственно прагматический уровень высказываний – цель, стратегии формулирования, причины использования и неиспользования тех или иных средств подлежат аналитическим методам и не раскрываются вполне корпусным статистическим инструментарием. Применение корпусного инструментария в дискурсивном анализе безусловно расширяет объяснительные возможности последнего, усиливает его теоретическую основу в той мере, в какой количественная подтверждаемость показывает глобальность, масштаб теоретических обобщений.
Структура НКРЯ [Национальный корпус русского языка] разработана с расчетом на возможность получения данных, касающихся фактов существования какого-либо языкового средства как в литературном языке, так и в его отдельных формах, функциональных разновидностях, жанрах, идиостилях и т. д. Она, таким образом, отчасти предопределяет возможность постановки учебных задач (см.: httр://studiorum-rusсorрorа.ru/mаnuаl). Медиатексты включаются не только в стилистически ориентированный Газетный корпус, но и в охватывающие все стилистическое разнообразие Основной и Устный корпусы (в последнем устная публичная речь, телевизионная и радиоречь составляют 52%), презентующие соответственно письменную и устную формы языка, присутствуют публицистические тексты и в Параллельном корпусе (см., например, Испанский и Итальянский подкорпуса). Тем не менее, в первую очередь, интересны такие особенности публицистики, от словообразования до текстовой структуры, которые составляют речевую специфику данной коммуникации и потому создают при выборе языкового (речевого) материала приоритет текстов массмедиа.
Как вы знаете, АBBYY создаёт программы, которые так или иначе связаны с обработкой языков: АBBYY Lingvo переводит слова с одного языка на другой, АBBYY FinеRеаdеr преобразует тексты из печатного вида в электронный, АBBYY Сomрrеno будет переводить на разные языки целые тексты. Программы такого типа называют «наукоемкими», потому что они основываются на результатах серьезных научных исследований. А в нашем случае – на результатах из области искусственного интеллекта, распознавания образов и компьютерной лингвистики. Для развития этой науки и проводят научную конференцию – «Диалог».
Итак, практически всякое лингвистическое исследование ведется сегодня с привлечением корпусных данных. Если вы делаете систему автоматического перевода новостных потоков, нужен корпус, содержащий правильно подобранные тексты СМИ. Отдельный вопрос, который обсуждался на «Диалоге», – можно ли использовать как корпус целый интернет. Как известно, там можно найти тексты практически любого типа. Но нужно разрабатывать средства автоматического отбора подходящих текстов.
Помимо АBBYY в организации конференции участвуют МГУ им. М.В. Ломоносова, институт лингвистики РГГУ, институт проблем информатики РАН, институт проблем передачи информации РАН, компания Яндекс, ассоциация Искусственного Интеллекта. Проводить конференцию помогает Российский Фонд Фундаментальных Исследований.

Download 310.98 Kb.

Do'stlaringiz bilan baham:
1   ...   10   11   12   13   14   15   16   17   18




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling