Машинный перевод для выравнивания параллельных текстов с. Б. Потемкин


Download 1.47 Mb.
Pdf ko'rish
bet2/5
Sana25.08.2023
Hajmi1.47 Mb.
#1670016
1   2   3   4   5
Bog'liq
mashinnyy-perevod-dlya-vyravnivaniya-parallelnyh-tekstov

80
Технические науки - 
 
International Journal of Humanities and Natural Sciences, vol. 4-1 (55), 2021 
и др. Мы пользуемся переводчиком Гугл, в 
настоящее время обрабатывающим более 
100 языков и, соответственно, около 10000 
языковых пар. Список языков постоянно 
расширяется, улучшается также качество 
перевода. Для нас важно, что слова ИЯ пе-
реводятся наиболее частотными эквива-
лентами ЦЯ. Далее средствами динамиче-
ского программирования выполняется со-
поставление предложений уже одного и 
того же ЦЯ, а именно предложений пере-
вода, выполненного профессиональным 
переводчиком и Гугл-перевода, таким об-
разом исключается необходимость исполь-
зования двуязычных словарей.
Алгоритм сопоставления 
Соответствие между предложениями 
исходного и целевого текстов очень часто 
не является взаимно-однозначным, т.е. од-
ному предложению исходного текста мо-
гут соответствовать несколько предложе-
ний перевода и наоборот; какие-то пред-
ложения и целые абзацы исходного текста 
могут выпадать в переводе, границы пред-
ложений могут не совпадать, т.е. группа 
слов в переводе переходит в следующее 
предложение и т.п. Особенно часто отсут-
ствие однозначного соответствия между 
предложениями и фразами в парах текстов 
характерно для перевода художественных 
произведений. При выравнивании на 
уровне предложений применяются чисто 
структурные (по длине, числу слов) и ста-
тистические методы (по частотности со-
ставляющих слов), которые могут исполь-
зоваться для языков с небольшой ресурс-
ной базой. Методы выравнивания по дли-
не очень чувствительны к пропускам или 
вставкам предложений в том смысле, что 
отдельный пропуск или вставка может 
приводить к неправильному последующе-
му выравниванию от точки пропуска или 
вставки до конца текста. Статистические 
методы также часто дают ошибочные ре-
зультаты выравнивания, требуя в после-
дующем дорогостоящей ручной проверки 
и исправления. Для научных текстов часто 
применяют метод транскрибирования, по-
скольку многие научные термины проис-
ходят из одного источника – греческого, 
латинского, позднее из английского, не-
мецкого, французского. Сопоставленные 
таким образом термины служат опорными 
точками для дальнейшего выравнивания. 
Использование двуязычных словарей для 
выравнивания текстов менее распростра-
нено и применялось в основном для спе-
циализированных 
текстов, 
(англо-
французские протоколы канадского пар-
ламента, юридические тексты ЕС, специ-
фикации программ, и т.п.). Предлагаемый 
нами метод выравнивания содержит опре-
деленные ограничения, а именно (a) поря-
док предложений в русском и иноязычном 
текстах совпадает; (b) в ЦЯ нет значитель-
ных (более 200 слов) пропусков; (c) длина 
параллельных текстов не слишком боль-
шая – порядка 60 тыс. словоупотреблений.
Прежде всего, необходимо провести 
Download 1.47 Mb.

Do'stlaringiz bilan baham:
1   2   3   4   5




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling