Машинный перевод для выравнивания параллельных текстов с. Б. Потемкин
Download 1.47 Mb. Pdf ko'rish
|
mashinnyy-perevod-dlya-vyravnivaniya-parallelnyh-tekstov
- Bu sahifa navigatsiya:
- Московский государственный университет им. М.В. Ломоносова (Россия, г. Москва)
- Ключевые слова
79 - Технические науки - International Journal of Humanities and Natural Sciences, vol. 4-1 (55), 2021 МАШИННЫЙ ПЕРЕВОД ДЛЯ ВЫРАВНИВАНИЯ ПАРАЛЛЕЛЬНЫХ ТЕКСТОВ С.Б. Потемкин, канд. техн. наук, с.н.с. Московский государственный университет им. М.В. Ломоносова (Россия, г. Москва) DOI:10.24412/2500-1000-2021-4-1-79-82 Аннотация. В данной статье предложена процедура выравнивания параллельных текстов с использованием он-лайн переводчика предложений исходного текста. Резуль- тат перевода сопоставляется с переводом, выполненным профессиональным переводчи- ком и эти два перевода выравниваются средствами динамического программирования. Метод был проверен на параллельных корпусах рассказов Чехова в переводах на англий- ский, немецкий, французский, итальянский, португальский, фарси и армянский языки. Продолжение работы предполагает фрагментацию предложений на словосочетания и слова. Ключевые слова: машинный перевод, динамическое программирование, армянский язык, рассказы Чехова, параллельные тексты. Параллельные лингвистически значи- мые тексты имеют важное значение в ряде направлений обработки естественного языка и в лексикографических приложе- ниях, в частности в области машинного перевода на основе примеров (EBMT) и в системах Памяти переводов (TM). TM ищет наилучшее совпадение между пред- ложениями исходного и целевого текстов и сохраняет пару предложений в памяти машины. При попытке перевести новый текст система TM ищет ближайшее пред- ложение исходного языка (ИЯ) в памяти устройства и выдает параллельное пред- ложение на целевом языке (ЦЯ). Пробле- ма, решение которой имеет существенное значение в этом подходе, заключается в установлении соответствия между едини- цами текстов на разных языках на уровне предложений, словосочетаний и даже на уровне слов. Было предложено несколько подходов к решению проблемы сопостав- ления единиц текста на различных уров- нях. [1] описал метод, основанный на коли- честве слов, содержащихся в предложени- ях, кроме того, им рассматриваются неко- торые опорные точки и маркеры абзацев. Этот метод был применен к Hansard Corpus с точностью до 96-97%. [2] пред- ложил метод, основанный на простой ста- тистической модели длин предложений. Модель основана на наблюдении, что бо- лее длинные предложения на одном языке, как правило, переводятся более длинными последовательностями на другом языке, и обратно. Вероятностная величина при- сваивается каждой паре предложений, ис- ходя из отношения их длин и дисперсии этого отношения. Хотя очевидная эффек- тивность алгоритма GaleChurch проверена на разных языках, он сталкивается с про- блемами при обработке сложных вырав- ниваний, то есть когда одно предложение исходного текста соответствует несколь- ким предложениям целевого текста или наоборот, либо когда несколько предло- жений переводятся несколькими, но их границы не совпадают. Следует отметить, что предложенные методы предполагают широкое использо- вание двуязычных словарей для пословно- пооборотного сопоставления предложений ИЯ и ЦЯ [3]. В то же время для большин- ства пар языков отсутствуют двуязычные машиночитаемые словари, и даже словари на бумажных носителях. В случае наличия последних перевод словаря в машиночи- таемую форму требует значительных тру- дозатрат и не всегда дает точный результат вследствие ошибок распознавания, редак- тирования, выверки. Предлагаемый под- ход основан на использовании многоязыч- ного он-лайн переводчика. Такие перево- дчики выпущены многими ведущими ин- тернет-компаниями, Майкрософт, Яндекс Download 1.47 Mb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling