Машинный перевод для выравнивания параллельных текстов с. Б. Потемкин


Download 1.47 Mb.
Pdf ko'rish
bet1/5
Sana25.08.2023
Hajmi1.47 Mb.
#1670016
  1   2   3   4   5
Bog'liq
mashinnyy-perevod-dlya-vyravnivaniya-parallelnyh-tekstov



79
 
- Технические науки - 
 
International Journal of Humanities and Natural Sciences, vol. 4-1 (55), 2021
МАШИННЫЙ ПЕРЕВОД ДЛЯ ВЫРАВНИВАНИЯ ПАРАЛЛЕЛЬНЫХ ТЕКСТОВ 
 
С.Б. Потемкин, канд. техн. наук, с.н.с. 
Московский государственный университет им. М.В. Ломоносова 
(Россия, г. Москва) 
 
DOI:10.24412/2500-1000-2021-4-1-79-82 
 
Аннотация. В данной статье предложена процедура выравнивания параллельных 
текстов с использованием он-лайн переводчика предложений исходного текста. Резуль-
тат перевода сопоставляется с переводом, выполненным профессиональным переводчи-
ком и эти два перевода выравниваются средствами динамического программирования. 
Метод был проверен на параллельных корпусах рассказов Чехова в переводах на англий-
ский, немецкий, французский, итальянский, португальский, фарси и армянский языки. 
Продолжение работы предполагает фрагментацию предложений на словосочетания и 
слова. 
Ключевые слова: машинный перевод, динамическое программирование, армянский 
язык, рассказы Чехова, параллельные тексты. 
 
Параллельные лингвистически значи-
мые тексты имеют важное значение в ряде 
направлений обработки естественного 
языка и в лексикографических приложе-
ниях, в частности в области машинного 
перевода на основе примеров (EBMT) и в 
системах Памяти переводов (TM). TM 
ищет наилучшее совпадение между пред-
ложениями исходного и целевого текстов 
и сохраняет пару предложений в памяти 
машины. При попытке перевести новый 
текст система TM ищет ближайшее пред-
ложение исходного языка (ИЯ) в памяти 
устройства и выдает параллельное пред-
ложение на целевом языке (ЦЯ). Пробле-
ма, решение которой имеет существенное 
значение в этом подходе, заключается в 
установлении соответствия между едини-
цами текстов на разных языках на уровне 
предложений, словосочетаний и даже на 
уровне слов. Было предложено несколько 
подходов к решению проблемы сопостав-
ления единиц текста на различных уров-
нях.
[1] описал метод, основанный на коли-
честве слов, содержащихся в предложени-
ях, кроме того, им рассматриваются неко-
торые опорные точки и маркеры абзацев. 
Этот метод был применен к Hansard 
Corpus с точностью до 96-97%. [2] пред-
ложил метод, основанный на простой ста-
тистической модели длин предложений. 
Модель основана на наблюдении, что бо-
лее длинные предложения на одном языке, 
как правило, переводятся более длинными 
последовательностями на другом языке, и 
обратно. Вероятностная величина при-
сваивается каждой паре предложений, ис-
ходя из отношения их длин и дисперсии 
этого отношения. Хотя очевидная эффек-
тивность алгоритма GaleChurch проверена 
на разных языках, он сталкивается с про-
блемами при обработке сложных вырав-
ниваний, то есть когда одно предложение 
исходного текста соответствует несколь-
ким предложениям целевого текста или 
наоборот, либо когда несколько предло-
жений переводятся несколькими, но их 
границы не совпадают.
Следует отметить, что предложенные 
методы предполагают широкое использо-
вание двуязычных словарей для пословно-
пооборотного сопоставления предложений 
ИЯ и ЦЯ [3]. В то же время для большин-
ства пар языков отсутствуют двуязычные 
машиночитаемые словари, и даже словари 
на бумажных носителях. В случае наличия 
последних перевод словаря в машиночи-
таемую форму требует значительных тру-
дозатрат и не всегда дает точный результат 
вследствие ошибок распознавания, редак-
тирования, выверки. Предлагаемый под-
ход основан на использовании многоязыч-
ного он-лайн переводчика. Такие перево-
дчики выпущены многими ведущими ин-
тернет-компаниями, Майкрософт, Яндекс 



Download 1.47 Mb.

Do'stlaringiz bilan baham:
  1   2   3   4   5




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling