Статистический машинный перевод в программе перевода


Download 263.24 Kb.
bet2/3
Sana14.12.2022
Hajmi263.24 Kb.
#1004490
1   2   3
Bog'liq
Дарс Мавзуси


разделить на частоту «наибольшего»:

Вероятность триграммы ранее невидимого предложения снова рассчитывается путем умножения вероятностей составляющих его триграмм.
Таким образом, вероятность триграммы предложения (6) выше «Она живет в самой большой деревне» равна
P(she lives in).P(lives in the).P(in the biggest).P(the biggest village) =
(1) × (1) × (1) × (1) × (0.5) = 0.5
(что совпадает с вероятностью его биграммы, учитывая нашу языковую модель).
Языковые модели также могут быть основаны на 4-граммах, 5-граммах и т. д.; верхний предел около семи слов обычно накладывается на n-граммы, однако из-за ограничений на вычислительные ресурсы и временные ограничения. Более длинные n-граммы интуитивно лучше, т.к.
они более контекстно-зависимы, но чем длиннее n-граммы, идентифицированные в ранее невиданном предложений, тем меньше вероятность того, что они появятся в обучающих данных. Чтобы объединить
сильные стороны более коротких и гибких n-грамм с более длинными, более контекстно-зависимыми n-граммами, это нормально использовать несколько языковых моделей (униграмма, биграмма, триграмма и т. д.) одновременно
при вычислении вероятности ранее невидимого предложения с большим весом обычно присваивается более длинным n-граммам.
Однако интересующемуся переводоведу важно отметить, что в SMT вероятность предложения на целевом языке рассчитывается на основе совместного вероятности n-грамм, которые он содержит. Такой тип моделирования называется генеративным.
моделирование и включает в себя разбиение более крупной проблемы на ряд более мелких шагов (Кон 2010, 86). Сами n-граммы не являются лингвистически мотивированными, т. не соответствуют таким категориям лингвистической теории, как «составляющая» или даже «коллокация».
Иногда n-граммы совпадают с составляющими (триграмма «самый большой дом» хорошо совпадает, например, с составной «фазой существительного» или «именной группой»), но это просто совпадение: другие триграммы в нашем тренировочном корпусе в предложении (1) выше («живет в» или «дом в»; см. табл. 3) не совпадают с составляющими в синтаксическая теория. Можно ожидать, что хорошая модель n-грамм захватит некоторые составляющие.
и словосочетаний,7 но он также будет охватывать многие n-граммы, которые не имеют статуса в лингвистическом теория.

2.2 Модели перевода


Модели перевода, вторая часть нашей головоломки SMT, также полагаются на n-граммы. Они есть зафиксировано в основном в таблицах, в которых последовательности слов исходного языка объединены в пары с последовательностями слов целевого языка, и каждой паре присваивается вероятность. В моделях униграмм, как уже должно быть ясно, эти таблицы основаны на отдельных словах. Таким образом французское слово maison может быть соединено с английским словом «дом» и вероятностью назначается паре. Например, вероятность 0,6 будет означать, что в шесть раз


из десяти «дом» встречается как перевод maison в параллельном корпусе, который используется для обучить рассматриваемую систему SMT. Другие переводы слова maison также можно найти в обучающие данные, и им тоже будут присвоены вероятности на основе их наблюдаемых частота. Таблица 4 представляет собой очень простую таблицу перевода или Т-таблицу, показывающую вероятности трех переводов слова maison, где e означает английское слово, а t(e|f) обозначает вероятность перевода английского слова e на французское слово f.8 Таблица 4 в некотором смысле предполагает, что мы знаем все, что нужно знать о том, как перевести слово maison, основываясь на том, что мы уже наблюдали в нашем (вымышленном) обучающий корпус. Мы могли бы (снова зарезервировав некоторую вероятностную массу) учесть
возможность того, что есть другие переводы maison, которые еще не видели потому что наш параллельный корпус, возможно, слишком мал, или потому что он не охватывает достаточноразных областях, но это не должно нас здесь останавливать.
Таблица 4 также маскирует значительную работу, которая требуется для выяснения того, какие цели языковые слова в паре с какими словами исходного языка в первую очередь. Хотя это может быть очевидным для двуязычного человека, что «дом» — это перевод слова maison в примерах (7a)
и (7b) ниже, в SMT это обычно нужно узнавать непосредственно из обучающих данных с помощью машины в процессе, известном как выравнивание слов.

(7a) La maison familiale doit parfois se vendre à perte.


(7b) Семейный дом, возможно, придется продать с убытком.
(с www.linguee.com и приписано erc-cee.gc.ca)

Алгоритм машинного обучения, используемый для сопоставления слов в паре


предложения9 обычно начинаются с предположения, что любая униграмма в (7а) может быть спарена с любой униграммой в (7b). Таким образом, вероятность будет присвоена раскладу: maison с «то»; дом с «семьей»; дом со словом «дом»; maison с «май» и так далее.
Последующие итерации алгоритма позволяют предположить, что некоторые выравнивания гораздо более более вероятно, чем другие10. В идеале алгоритм в конечном счете должен был бы сделать вывод о том, что совпадение maison с «домом» является наиболее вероятным. Доказательства из других пар предложений может предложить сопоставление maison с «домом», что в конечном итоге способствует таблица перевода, изображенная в таблице 4. После того, как выравнивание слов было выработано, можно выработать выравнивание между более крупными единицами, например, между домом familiale и «семейный дом», что приводит к тому, что в SMT известно как выравнивание фраз.


Примечание. Здесь p(e|f) обозначает вероятность (p) английской n-граммы (e),
дана французская n-грамма (f), f в данном случае — maison familiale.
Обратите внимание, однако, что эти выравнивания фраз могут быть между n-граммами, которые не были бы считались «фразами» в соответствии с обычным пониманием этого термина в лингвистике.
Hearne and Way (2011, 218), например, приводят выравнивание в Таблице 5 в качестве иллюстрации.
выравнивания фразы.
Выравнивания фраз вместе с их вероятностями фиксируются в таблицах фраз. Ан таблица изобретенных фраз для биграммы maison familiale представлена ​​в таблице 6.
Таблицы фраз, содержащие n-граммы различной длины и которые могут записывать соответствия «многие-многие», функционируют как модели перевода, на которых основаны системы SMT. Так как уже указано, статистические модели, описанные выше, извлекаются во время обучения этап СМТ. На последующем этапе системы SMT также изучают оптимальное взвешивание.
что должно быть отдано переводческой модели с одной стороны, и языковой модели с другой другой, чтобы система производила наилучшие результаты. Этот процесс известен как тюнинг. Более подробное описание см. в Hearne and Way (2011, 218–219).
После того, как система SMT обучена и настроена, она готова приступить к переводу новых, ранее невидимые предложения на исходном языке. Для этого система сопоставляет n-граммы в эти предложения против n-грамм в его таблице фраз (где они доступны), и извлекает их вероятные переводы. переводы n-грамм могут быть связаны вместе в любом чтобы временно произвести ряд гипотетических предложений на целевом языке, некоторые из
что может быть неграмотно и даже бессмысленно. Как только (целевая) языковая модель принимая во внимание, однако, что некоторые (надеюсь, все!) из этих бессмысленных переводов отсеиваются, потому что они крайне маловероятны в соответствии с языковой моделью. СМТ это таким образом, вопрос создания нескольких кандидатов на перевод для данного исходного языка предложение, а затем найти наиболее вероятное как по переводу, так и по и модель целевого языка. Эта фаза «собственного перевода» SMT известна несколько ошибочно (Kenny 2011) как декодирование.



Download 263.24 Kb.

Do'stlaringiz bilan baham:
1   2   3




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling