Статистический машинный перевод в программе перевода
Download 263.24 Kb.
|
Дарс Мавзуси
Статистический машинный перевод в программе перевода: преодоление препятствий и расширение прав и возможностей переводчиков Дороти Кенни* и Стивен Доэрти Центр перевода и текстологии, Школа прикладного языка и межкультурных исследований и Центр локализации следующего поколения, Дублинский городской университет, Дублин, Ирландия. В этой статье мы утверждаем, что настало время преподавателям-переводчикам взаимодействовать с Статистический машинный перевод (SMT) более глубокими способами, чем они сделали для Дата. Мы объясняем основные принципы SMT и размышляем о роли людей в SMT. рабочие процессы. На фоне расходящихся мнений по последнему, мы выступаем за целостный подход к интеграции SMT в программы обучения переводчиков, один это расширяет возможности, а не маргинализирует переводчиков. Мы обсуждаем возможные препятствия на пути использование SMT переводчиками в целом и при обучении переводчиков в частности, и предложить некоторые решения выявленных таким образом проблем. В частности, облачные сервисы предлагается как средство преодоления некоторых технических и этических проблем, возникающих за счет более продвинутого использования SMT в классе. В конечном итоге статья направлена на то, чтобы проложить способ разработки и реализации новой учебной программы SMT, ориентированной на переводчика, в наш собственный университет и в других местах. Ключевые слова: статистический машинный перевод (SMT); роль человека в SMT; учебный план дизайн; этика 1. Введение Важность технологий в обучении переводчиков хорошо известна. Несколько источников утверждают, что на программах перевода лежит обязанность помочь учащимся стать уверенными, гибкие и критические пользователи различных инструментов автоматизированного перевода (CAT), так что они смогут удержать свои позиции во все более технологичной отрасли (за довольно недавние обсуждения см. Kenny 2007; Боукер и Маршман, 2010 г.; Маршман и Боукер 2012). Такие инициативы, как Европейская сеть магистров перевода (EMT) подчеркните суть: программы переводоведения должны включать существенную подготовку в технологии перевода (среди прочего) для допуска в Сеть (ЕМТ Эксперт Группа 2009). Но помимо служения этой общепризнанной инструменталистской повестке дня, она также может утверждал, что изучение инструментов перевода и их использования ценно, потому что оно по своей сути интересно: современные технологии перевода основаны на решениях, основанных на данных, которые повторно использовать существующие человеческие переводы, поднимая интересные вопросы о свободе действий и доверии например (Кенни 2012). Они часто используются в средах, допускающих крупномасштабные сотрудничества (см. материалы O’Hagan 2011) и играют важную роль в и воплощенное познание (Риску, 2010). И если перевод всегда определялся технологий, которые он использует (как утверждает Cronin 2003, 2012), то нет особого смысла видеть опыт использования новых технологий в качестве дополнения, которое в противном случае полностью сформировалось студенты-переводчики могут принять участие. Новые технологии означают, что меняется сам перевод; перевод сейчас не тот, что был 10 или 15 лет назад, и это влияет на то, как мы определяем основные концепции перевода и то, как мы учим практике перевода (Pym 2012). Это не означает, что все переводчики в настоящее время используют весь диапазон перевода. технологий, доступных на рынке. Действительно, мы никогда не ожидали, что это произойдет, поскольку различные технологии (например, память переводов или машинный перевод) могут быть более или менее полезным в зависимости от целого ряда факторов, включая форматы файлов, которые с которыми имеют дело переводчики, рассматриваемая языковая пара и ожидаемые уровни качества, чтобы назвать только несколько. Скорее, изменилась более широкая область перевода, и ученые-переводчики и преподаватели, чтобы отразить такие изменения в своих исследованиях и преподавании, в то время как профессиональные переводчики должны уметь позиционировать себя в условиях меняющихся рынка в качестве практиков, которые предлагают или не предлагают определенные услуги по переводу (включая CAT и услуги МТ), возможно, в зависимости от обстоятельств. Такие аргументы подчеркивают, почему мы должны обучать технологии перевода. Увеличение в ряде публикаций также представлены подробные описания того, как те или иные инструменты могут быть включены в более узкую учебную программу по технологии перевода или в более широкая учебная программа по переводоведению. Большинство статей в журнале Специальный выпуск Translation Studies 2010 по обучению компьютерному переводу (Chan 2010) относятся к первой категории, а работы, проводимые под знаменем Сборник электронных ресурсов по технологиям перевода (CERTT) – на Университет Оттавы придерживается широкого, целостного взгляда и пытается создать условия в котором ряд технологий можно легко интегрировать в курсы переводоведения (Боукер и Маршман, 2010; Маршман и Боукер, 2012). место машинного перевода (МП) в большинстве педагогически вдохновленных работ, на которые ссылаются здесь, однако, маргинал. Боукер и Маршман (2010, 204) упоминают, например, что учебные пособия и упражнения для преподавания МП на примере системы, основанной на правилах (см.ниже) Reverso Pro, были созданы в рамках проекта CERTT, но они не дают любые дополнительные подробности. Другие статьи Чана (2010), в которых упоминается МТ, мало что говорят, если вообще ничего не говорят. об обучении МТ. Несмотря на утверждение Пима (2012) о том, что «на самом деле много размышлений о том, как можно внедрить машинный перевод и постредактирование в преподавание практике», нужно вернуться на десятилетие назад, чтобы найти источники, посвященные конкретно преподавание МТ. Возможно, расцвет размышлений в этом районе пришелся на период между 2001 и 2003 г., когда Европейская ассоциация машинного перевода (EAMT) и Ассоциация машинного перевода в Америке (AMTA) посвятила три семинара к обучению машинному переводу (Forcada, Pérez-Ortiz, and Lewis 2001; ЭАМТ/БКС 2002; АМТА 2003). Но даже доклады, представленные на этих семинарах, в основном сосредоточиться на технологиях, отличных от SMT, технологии, которая должна была революционизировать MT в последующее десятилетие, с которым теперь должны бороться преподаватели переводов1. Исключением является короткая статья Кевина Найта (2003) о ресурсах для введения концепции SMT, вклад, который остается ценным и по сей день. Ниже мы вернемся к современным подходам к обучению SMT. На данный момент мы желаем утверждают, что преподавание МП (и, в частности, СМТ) является недостаточно изученной областью, несмотря растущее значение SMT и его неотъемлемый интерес. Наш опыт также свидетельствует что SMT широко не преподается на программах перевода;2 и какая литература существует кажется, предполагает, что, когда SMT включается в программы обучения переводчиков, роль «переводчиков» в рабочем процессе SMT сконструирована ограничивающим образом (см. ниже). В ниже мы приводим доводы в пользу целостного подхода к обучению SMT, который будет больше возможностей, чем альтернативные подходы для тех наших студентов, которые могут принять технологии в своей будущей карьере. Мы использовали такой целостный подход в нашей собственной преподавание SMT в Дублинском городском университете, опыт, кратко изложенный в Доэрти, Тренер устных и письменных переводчиков 277 Загружено [Библиотека UNSW] в 18:06 11 мая 2015 г. Кенни и Уэй (2012 г.) и подробно в Доэрти и Кенни (2014 г.). Ниже мы устанавливаем сцену для реализации новой программы SMT, дав очень краткое объяснение SMT и размышляя о роли людей в рабочих процессах SMT. Мы обсуждаем потенциал барьеры для использования SMT переводчиками в целом и при обучении переводчиков в частности, и предложить некоторые решения выявленных таким образом проблем. 2. Статистический машинный перевод SMT — это технология, лежащая в основе знакомых систем машинного перевода, таких как Google Translate™, Microsoft® Переводчик и Азия Онлайн™. Он основан на интуитивно простой стратегии: вместо того, чтобы пытаться кодировать априори в виде словарей, грамматик и баз знаний, все лингвистические и мировоззренческие знания, необходимые для перевода текста с одного языка на другой (подход, используемый в машинном переводе на основе правил и знаний), просто научитесь переводить из уже существующих человеческих переводов. На практике такое обучение включает индукцию статистические модели перевода параллельных корпусов, то есть исходных текстов и их человеческого переводы. В терминологии SMT мы говорим, что модели перевода обучаются на эти параллельные корпуса. Системы SMT также полагаются на так называемые языковые модели или одноязычные модели. модели целевого языка; поэтому вместо того, чтобы просто спросить, является ли «дом» вероятным переводом la maison (ответ на какой вопрос должен исходить из модели перевода), Система SMT также должна спросить, является ли «дом» вероятной последовательностью на английском языке в первом место. Языковые модели можно обучать на стороне целевого языка параллельного корпуса или на большие одноязычные корпуса текстов на целевом языке. Следуя Херну и Уэю (2011), мы в первую очередь остановимся на языковых моделях, поскольку они позволяют нам представить важные базовые концепции SMT в относительно простой Затем мы повторно используем некоторые из этих понятий в нашем кратком объяснении перевода. модели. Наш обзор технических деталей SMT будет обязательно кратким. Заинтересованному читателю рекомендуется обратиться к Hearne and Way (2011), статье, написанной специально для лингвистов и переводчиков. Другим отличным источником является учебник Филиппа Коэна (2010 г.). Статистический машинный перевод. Хотя он предназначен для специалистов по информатике, большая его часть доступным для лингвистов, не имеющих вычислительной подготовки. 2.1 Языковые модели Имея корпус текстов на целевом языке, можно создать модель целевого языка. язык (точнее, модель корпуса), основанный на распределении единичных слов в корпусе. Такая модель называется моделью униграмм. В качестве иллюстрации, если у нас был крошечный корпус, состоящий всего из одного предложения из 10 слов в (1), мы могли индуцируем модель униграммы в таблице 1. Здесь мы делаем простые наблюдения, такие как: «она» встречается один раз в 10 словах, в то время как «in», «the» и «biggest» встречаются дважды в 10 словах. Мы перейти от этих наблюдений частоты к утверждениям о вероятности и сказать (в Таблица 1), что вероятность появления «она» составляет один к десяти (или 0,1), вероятность появления «in» — это два из десяти (или 0,2) и так далее. Эти вероятности могут быть позже применены к пока еще невидимые строки (см. пример (2) ниже). (1) Она живет в самом большом доме в самой большой деревне. Учитывая модель, представленную в таблице 1, мы можем вычислить вероятность для целых предложений. путем простого перемножения их униграммных вероятностей.4 Вероятность предложения (2) Таблица 1. Простая модель языка униграмм. Примечание. Здесь e означает английское слово, а p(e) — английское слово. вероятность этого слова. (2) Она живет в деревне. таким образом: P(she).P(lives).P(in).P(the).P(village)5 = (0.1) × (0.1) × (0.2) × (0.2) × (.01) = 0.00004 (or 4 in 100,000) При этом вероятность: (3) Она живет. является: P(she).P(lives) = (0.1) × (0.1) = 0.01 (or 1 in 100) Согласно очень ограниченной модели в таблице 1, предложение (3) является гораздо более вероятным предложением. английского языка, чем предложение (2). С моделями Unigram, конечно же, возникают проблемы. Во-первых, они систематически ставьте более высокие баллы более коротким предложениям. Другое дело, что они не принимают во внимание порядок слов. счет, поэтому (4) будет присвоена точно такая же вероятность, как (2): (4) деревенская то в жизни она. Еще одна проблема заключается в том, что если ранее невидимое предложение содержит слово, которое не было присутствует в обучающих данных, то этому слову присваивается нулевая вероятность. Вынести приговор (5), например: (5) Она живет в пригороде. Здесь, если униграммная вероятность «пригорода» равна нулю (поскольку он не данные, на основании которых мы индуцировали модель в таблице 1), то вероятность приговора (5) сам по себе равен нулю. Конечно, если бы у нас были более качественные (то есть намного больше) обучающие данные, мы бы лучшие модели униграмм, и гораздо меньше слов в ранее невиданных предложениях будут считаться быть неизвестным. Но ни один учебный корпус никогда не будет содержать каждое слово на данном языке, поэтому требуется другое решение. Обычно принятое решение состоит в том, чтобы присвоить крошечные вероятности Таблица 2. Биграммы в предложении (1). неизвестные слова, такие как «пригород» в предложении (5), так что предложения, содержащие такие слова, присваиваются низкие вероятности, но не считаются невозможными. Другими словами, небольшое количество Вероятностная масса зарезервирована для невидимых событий. Модели биграмм, основанные на последовательностях двух последовательных слов, несколько сложнее. Биграммы, присутствующие в нашем крошечном корпусе (предложение (1) выше «Она живет в самом большом доме в самой большой деревне») воспроизведены в таблице 2. В то время как «в» и «самый большой» встречаются дважды, все остальные биграммы встречаются только один раз. Так как прежде мы можем использовать подсчеты из нашего корпуса для оценки вероятности будущих событий. В этом случае мы вычисляем вероятность биграммы, разделив ее частоту в нашем корпусе по частоте в нашем корпусе первого слова в биграмме. Вероятность Таким образом, биграмма «она живет» равна 1/1 = 1; в то время как вероятность «в» равна 2/2 = 1; и вероятность «самой большой деревни» равна ½ = 0,5. Это означает, что (учитывая нашу крошечную подготовку corpus!) если мы видим «она», то вполне ожидаем увидеть «жизни». Если мы видим «в», мы полностью ожидаем чтобы увидеть'. Но если мы видим слово «самый большой», вероятность того, что следующее слово будет «деревня», так же как и «дом». Вероятность биграммы ранее невидимого предложения: (6) Она живет в самой большой деревне. снова рассчитывается путем умножения вероятностей отдельных биграмм. P(she lives).P(lives in).P(in the).P(the biggest).P(biggest village)6 = 1 × 1 × 1 × 1 × 0.5 = 0.5 Этот тип моделирования можно распространить на строки из трех слов или триграмм (см.Таблица 3). Используя триграммы, мы пытаемся получить информацию о том, насколько вероятно, что мы увидим конкретное слово, учитывая два предыдущих слова. Рассчитываем вероятность триграммы путем деления его частоты на частоту первых двух слов в триграмме. Таким образом, вероятность триграммы «самый большой дом» равна частоте «самого большого дома». Download 263.24 Kb. Do'stlaringiz bilan baham: |
Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling
ma'muriyatiga murojaat qiling