Статистический машинный перевод в программе перевода


Что должны знать переводчики-люди


Download 263.24 Kb.
bet3/3
Sana14.12.2022
Hajmi263.24 Kb.
#1004490
1   2   3
Bog'liq
Дарс Мавзуси

3. Что должны знать переводчики-люди
Приведенные выше примеры чрезвычайно упрощены: современный фразовый SMT системы учитывают гораздо больше факторов (известных в кругах SMT как особенности), чем просто то, что предсказывается моделями перевода и языка на основе n-грамм. Это важно для нашего целей, однако, чтобы понять ряд основных моментов, связанных с ролью людей в рабочих процессах SMT и с тем, как мы понимаем SMT в обучении переводчиков. Большинство из них
пункты вытекают из технической реализации систем SMT, описанной выше.
Во-первых, модели перевода, используемые в SMT, основаны на параллельных корпусах. исходных текстов и их человеческих переводов. Переводчики (и переводческие компании) производить такие корпуса; таким образом, они уже присутствуют в самом начале цепочки SMT.
Как утверждают Уэй и Херн (2011, 238): «роль переводчика в SMT — это
ключевой: они предоставляют все знания, на которых основаны наши модели».11 Во-вторых, переводческие и языковые модели отражают данные, на которых они обучались.
Например, система, обученная юридическим текстам, будет более полезна для перевода юридических текстов.
чем это будет для текстов из других доменов. Переводчики и переводческие компании, которые специализируются в определенных областях — это те самые люди, которые, скорее всего, будут владеть тексты, на основе которых можно обучать полезные модели перевода для собственных нужд.
Такие специализированные данные представляют собой ценный товар, особенно когда их качество может поручиться.
В-третьих, как уже указывалось, вероятностный перевод и язык модели, используемые в SMT, основаны на n-граммах, то есть они полагаются на строки слов ограниченной длины.
которые систематически не соответствуют ни одному типу синтаксической составляющей. Так же, как «вероятностный перевод» является корректной биграммой в предыдущем предложении, так же как и «перевод».
и’ и ‘длина что’. Понимание этого имеет решающее значение для понимания того, что вмешательства могут быть плодотворными в любых попытках улучшить результаты систем SMT.
Вместо того, чтобы систематически пытаться разрешить синтаксическую двусмысленность в исходных текстах перед отправкой их для машинного перевода (что можно было бы сделать с системой машинного перевода, основанной на правилах), например, пользователь SMT может отдать приоритет созданию тематических глоссариев, которые обеспечат надежный перевод терминов.
В-четвертых, и в связи с последним пунктом, этапы вероятностной обработки, лежащие в основе генерация предложений на целевом языке в SMT не имеет очевидного аналога в человеческий перевод. Дэвид Беллос (2011, 266), возможно, прав, когда говорит, что профессионал переводчики ведут себя как Google Translate™, «просматривая свои собственные воспоминания в два раза быстрее в поисках наиболее вероятного решения проблемы».
повторное использование языка хорошо сделано. Но дьявол кроется в деталях, и когда смотрит, как SMT строит предложения-кандидаты на перевод, различия между SMT и человеческий перевод поставлены в резкое облегчение. Как говорят Хирн и Уэй (2011, 206):
Идея создания целевых предложений путем перевода слов и фраз из источника
предложение в случайном порядке с использованием модели, содержащей много бессмысленных переводов, не может кажутся правдоподобными. На самом деле используемые методы не предназначены (по крайней мере, по нашему мнению) для либо лингвистически, либо когнитивно правдоподобно.
Это означает, что «черные ящики» оценки SMT, которые критикуют технологию на основе того, как он относится к данным языковым категориям, конкретному падежу или времени в финском языке, для например (см. Robinson 2012, 42–44), могут быть ограничены в своем применении. Пока это
якобы правда, что в исходных текстах есть реализации лингвистических категорий, таких как грамматическая роль (подлежащее, дополнение и т. д.), падеж (именительный, винительный и т. д.), время (прошедшее, настоящее и т. д.) и т. д., и что слова, реализующие такие категории, «переводятся» посредством Системы SMT, сам «чистый» SMT вообще не имеет представления о таких категориях; и там не является очевидным, прямым способом вмешательства в систему SMT, чтобы изменить то, как она работает
с падежом, или время, и так далее. Это не означает, что метаязык, обеспечиваемый лингвистика бесполезна, когда дело доходит до диагностики проблем в выводе SMT, скорее она не сразу ясно, как такие диагнозы могут отразиться на усилиях по улучшению системы представление.
В-пятых, как мы уже видели, модели перевода и языка иногда идут на компромисс. друг против друга, чтобы найти баланс между «адекватными» переводами, которые действительно отражают ввод на исходном языке и «беглый» перевод, которые хорошо работают на целевом языке предложения (поскольку они представляют собой предложения, которые с большой вероятностью встречаются в целевом 284 Д. Кенни и С. Доэрти Загружено [Библиотека UNSW] в 18:06 11 мая 2015 г. (язык). В то время как значительное количество изобретательности уходит на настройку систем, так что разработчики машинного перевода находят правильный баланс между адекватностью и беглостью (и другие особенности, которые могут быть приняты во внимание), пользователи систем SMT все еще должны быть осознавать, что вывод, который хорошо выглядит на целевом языке, не обязательно «достоверный» перевод исходного текста. Единственный способ быть абсолютно уверенным — иметь грамотная человеческая проверка. Компетентный человек, о котором идет речь, может быть двуязычным читателем. который проверяет как исходный, так и целевой тексты, но другие виды человеческой оценки возможно (см., например, White 2003; Bowker and Ehgoetz 2007). Такие человеческие оценки дороги в проведении и неизбежно субъективны (Koehn 2010, 218–220), а разработчики систем МТ разработали альтернативные, автоматические способы оценивая, как работают их системы. Эти показатели автоматической оценки (AEM) для по большей части полагаются на «золотой стандарт» человеческого эталонного перевода, против которого машина выходные данные сравниваются.12 AEM, как и статистические модели, используемые в SMT, как правило, основаны на n-граммах и обычно подсчитывают количество n-грамм, общих для машинного вывода и человеческого вывода. эталонный перевод (чем больше количество общих n-грамм, тем лучше машинный вывод). считается). AEM имеют хорошо известные недостатки (Koehn ibid., 228–229), но они широко используется в кругах SMT для измерения дополнительных улучшений производительности системы. в то время как системы все еще находятся в стадии разработки, или для сравнения систем друг с другом в оценки «совместных задач» (см., например, Bojar et al., 2013). Они также используются в этап настройки процесса SMT. Таким образом, несмотря на свои недостатки, известные АЭМ, такие как BLEU (Двуязычное исследование по оценке, Папинени и др., 2002 г.) остается чрезвычайно важным сообществу SMT, и людям-переводчикам, работающим с SMT, полезно знать как работают эти AEM. Люди-переводчики, обладающие этими знаниями, могут, например, объяснить, почему человеческая оценка фрагмента вывода машинного перевода иногда может дают совершенно другой результат для автоматической оценки. Они также могут порекомендовать и использовать наиболее подходящие методы оценки в данном сценарии.
Наконец, даже если SMT-система была обучена на высококачественных предметных данных и настройка была оптимальной, а оценка тщательной, все еще может потребоваться исправить ошибки (или внести другие правки) в переводах, выдаваемых системой SMT. Профессиональные переводчики-человеки являются очевидными (но не единственными) кандидатами на постредактирование, учитывая их традиционные наборы навыков (O’Brien 2002). Для некоторых переводчиков постредактирование, несомненно, «очень привлекательное предложение» (Gouadec 2007, 25); другие, однако, могут рассматривать это как редуктивный (Koehn 2010, 23).
Хотя этот раздел по необходимости был коротким, мы надеемся подчеркнуть
этапы, на которых люди-переводчики могли бы с пользой вмешаться в процесс SMT, и виды знаний, которыми они должны обладать для этого. Это согласуется с тем, что мы надежда — это целостный, расширяющий возможности подход к обучению SMT, который не исключает людей-переводчиков из любой части процесса, в котором они могли бы участвовать.
Если у переводчиков есть необходимые данные, ноу-хау и технологии, то мы не видим смысла исключить их из рабочих процессов SMT. Как мы увидим ниже, некоторые источники стремятся маргинализировать переводчиков в рабочих процессах SMT, в то время как другие допускают лишь ограниченное, постфактум-событие. роль переводчиков (обычно связанная с постредактированием вывода машинного перевода) в те самые рабочие процессы. Таким образом, мы занимаем позицию, которая противоречит некоторым голосам или только частично совпадает с др. В следующих разделах мы попытаемся проработать некоторые из напряжение в литературе. Однако прежде чем сделать это, нам следует подумать о том, как большая часть SMT должна быть занята инструкторами по переводу. Учитывая историю шумихи от разработчиков МП и скептицизм со стороны многих переводчиков,13 стоит обратиться к в какой степени SMT используется в профессиональных процессах перевода и, следовательно, как вопрос это действительно для выпускников переводчиков, которые собираются войти в профессию.

4. Использование SMT в профессиональных процессах перевода


Трудно найти надежные, независимые статистические данные о том, сколько переводчиков используют MT в вообще или SMT в частности. Тем не менее, мы можем сформировать частичные картины профессионального использование машинного перевода из ряда обследований. Недавний общеевропейский опрос более 700 работодатели переводчиков, преимущественно из частного сектора (Optimale 2011), обнаружили что только 6% респондентов считают «возможность параметризации машинного перевода системы» как необходимый навык для новобранцев, а 22% считают его «важным». Этот означает, что 72% респондентов ответили, что этот навык «не так важен» (35%) или «не важен». требуется» (37%). Аналогичным образом исследование Lafeber (2012) 153 международных организаций, переводчики также обнаружили, что от новых сотрудников не требовалось обладать знаниями в области машинного перевода. или даже в технологии памяти переводов. Но и опросы Optimale, и опросы Лафебера предлагают лишь частичную картину потенциального использования МП переводчиками: например, они изучают только работодатели, а учитывая, что подавляющее большинство переводчиков работают внештатно (см. например, Olohan 2007), эти источники ничего не могут сказать нам об используемых технологиях. большинством переводчиков. Кроме того, они позволяют получить информацию о навыках, необходимых при приеме на работу. этапе и, таким образом, не пытайтесь овладеть теми навыками, которые могут оказаться желательными позже в штате. карьера переводчика. Недавний опрос, проведенный исследовательской компанией Common Sense.
Консультации (CSA) (Kelly, DePalma, and Stewart 2012) также нацелены на работодателей, в данном случае поставщики языковых услуг (LSP) с двумя или более сотрудниками. Их ежегодный обзор за 2012 г. индустрии письменных и устных переводов, находит относительно небольшую но растущий спрос на постредактирование результатов машинного перевода. Они сообщают, что постредактирование результатов машинного перевода принесло 2,47% доходов, или 828,02 долларов США. млн на мировом рынке лингвистических услуг в рассматриваемом периоде. Напротив,
«традиционный» перевод оставался основой LSP, на его долю приходилось 45,70% доходов (Kelly, DePalma, and Stewart, 2012). Но в то время как доходы от постредактирования машинного перевода были небольшая в относительном выражении, услуга представляет собой растущий рынок, и 38,63% из 1119 респонденты опроса CSA сообщили, что они предлагают услуги постредактирования. КСА Таким образом, данные свидетельствуют о том, что постредактирование нельзя охарактеризовать как «нишевую» услугу на основе количество LSP, которые предлагают это, поэтому выпускники с навыками постредактирования должны найти множество LSP, которым они могут предложить эти навыки. Но они также показывают, что постредактирование услуги по-прежнему имеют лишь скромную позицию, когда речь идет о получении дохода, который может заставить выпускников переводов и LSP задуматься. Если деятельность, порождающая это Однако доход оказывается очень прибыльным, тогда вывод машинного перевода после редактирования может быть очень привлекательна для тех, кто занимается. Опрос CSA не сообщает о задачах, кроме постредактирование, которое требуется в рабочих процессах SMT и о котором мы упоминали выше (создание параллельных корпусов, профилирование обучающих данных, вмешательство в процесс SMT, оценка выходов и др.). Несмотря на эти недостатки, мы считаем, что можно с уверенностью сказать, что CSA опрос подтверждает, что существует растущий спрос на услуги постредактирования, но, возможно, быть мудрым для тех, кто вот-вот закончит учебу, чтобы сосредоточиться на постредактировании за счет другие «традиционные» навыки перевода. Данные опросов Optimale (2011) и Lafeber (2012) также поддерживает эту позицию.14

5. SMT в обучении переводчиков


Выше мы приводили аргументы в пользу подхода к преподаванию SMT, который не исключает людей-переводчиков из любой части процесса, в котором они могли бы участвовать. Мы чувствуем себя обязанными продвигать такую ​​точку зрения перед лицом того, что можно было бы назвать
мягкий антагонизм по отношению к переводчикам из некоторых деловых кругов SMT. В сообщении 286 Д. Кенни и С. Доэрти Загружено [библиотекой UNSW] в 18:06 11 мая 2015 г. в группу автоматического языкового перевода на Linked In, например, Dion Wiggins.
(2011), генеральный директор провайдера SMT Asia Online™, выступает за ограниченную роль переводчиков в рабочих процессах перевода, в котором у переводчиков не было бы владение, не говоря уже о контроле:
Переводчик не должен владеть процессом перевода. Они составляют 1 часть
процесс перевода. Это гораздо больше, чем переводчик. Право собственности должно принадлежать уровне LSP и клиента, а не на уровне транслятора. . . Разрешение переводчику (кто обычно фрилансер, а также работает на ваших конкурентов) контролировать процесс перевода рецепт катастрофы.15
Как уже говорилось, небольшой, но растущий объем литературы по SMT и трансляторам обучение, хотя и не враждебное по отношению к переводчикам, как Виггинс, может тем не менее, роль переводчика в рабочих процессах SMT можно также сконструировать в несколько ограниченном виде.
способ. Это связано с тенденцией рассматривать постредактирование как единственную роль переводчиков (которые затем превращайтесь в постредакторов) в таких рабочих процессах. Недавняя работа Игнасио Гарсии (2010 г.), например, фокусируется на различиях в производительности, когда группа из 14 студентов переводит тексты с нуля, а не после редактирования вывода SMT. Он заключает скорее предварительно, что «данные указывают на возможность того, что переводчики могут достичь более высоких качество при работе с базовым уровнем MT» (17), вывод, который позволяет ему предполагают, что «вопрос в долгосрочной перспективе не будет заключаться в том, будет ли перевод делается от базового уровня МТ, а просто когда» (18). В связанном, более крупном исследовании, в котором рассматривается переменные, такие как направление перевода (в L1 или в L2), сложность текста и тип участника (слабее или сильнее), Гарсия (2011, 218) делает вывод что «даже без какого-либо обучения постредактированию стажеры-переводчики в среднем могут лучше при переводе с помощью постредактирования». Гарсия предоставляет нам полезные модели для оценка успеваемости учащихся в условиях перевода и постредактирования, но существует риск того, что, превознося постредактирование и предполагая, что «перевод путем постредактирования» (218) неизбежен, Гарсия может побудить нас забыть о других этапах.
в рабочем процессе перевода, в котором переводчики (стажеры) могли бы легко внести свой вклад, учитывая свои особые навыки. Учитывая продолжающееся преобладание на рынке «традиционных» перевода (как показано выше), было бы также неразумно не сосредоточить значительную энергию на обеспечение того, чтобы переводчики-стажеры могли обеспечивать высокое качество даже без использования SMT.
Гарсия также ничего не говорит об обучении SMT в более широком смысле (как это предусмотрено в этой статье), а его комментарии по обучению постредактированию ограничиваются наблюдением, что «Пионерское исследование О’Брайена (2002 г.), Белама (2003 г.) и Депретере (2010 г.). . .
необходимо расширить, чтобы получить информацию о наборе навыков, который лучше всего подходит для задачи и способы развития таких навыков» (Garcia 2011, 229).
Из трех источников, упомянутых Гарсией, трактовка учения О'Брайеном (2002) постредактирование, хотя и не основанное на школьном опыте, является наиболее обширным16. включает в себя обоснование обучения постредактированию и рассмотрение того, кто может сделать хорошие постредакторы (переводчики или другие) и какие навыки им могут понадобиться. Он заключает с предлагаемой программой курса постредактирования. Эта программа, однако, охватывает многое больше, чем постредактирование. Он также включает в себя машинный перевод в целом, авторскую разработку на контролируемом языке, продвинутое управление терминологией, лингвистика текста (термин, который может датировать статью несколько) и базовое программирование. Таким образом, он охватывает весь рабочий процесс машинного перевода и более в соответствии с тем подходом к обучению SMT, который мы здесь рассматриваем. О’Брайен
(2002) не упоминает SMT как таковой, поскольку этот источник предшествует широко распространенному наличие SMT-решений.
Учитывая значительный потенциал стажеров и профессиональных переводчиков участвует почти на всех этапах рабочего процесса SMT-перевода, наряду с интересными различия в отношении к участию переводчика в этих рабочих процессах и очевидные пробелы в педагогически ориентированной литературы, мы считаем, что настало время для развития и
опубликовать актуальный целостный учебный план по SMT для переводчиков-стажеров. Мы разработали и внедрил такую ​​программу в Дублинском городском университете и подробно отчитался об этом.
проект в Доэрти и Кенни (2014). В оставшейся части этой статьи мы рассмотрим барьеры, которые мы пришлось преодолеть при внедрении этой программы, и что другие преподаватели-переводчики должны преодолеть, чтобы сделать то же самое. Мы также предлагаем некоторые способы преодоления этих барьеров.
6. (Преодоление) барьеров на пути использования SMT в обучении переводчиков Мы надеемся, что обеспечили достаточную мотивацию для введения целостного учебного плана в SMT к программе перевода. Для многих преподавателей-переводчиков и студентов-переводчиков (не говоря уже о профессиональных переводчиках), однако существуют значительные барьеры на пути внедрение СМТ. Некоторые из этих барьеров носят концептуальный характер: SMT может быть трудно понять даже специалистам по компьютерной лингвистике (см. Way 2009; Hearne and Way 2011). Осторожный, повторное чтение описаний SMT, предназначенных для лингвистов и переводчиков (см. выше) однако может помочь переводчикам-стажерам преодолеть этот барьер, равно как и посещение занятий по SMT в частности или вероятностная обработка естественного языка в целом.17 Хотя это верно что пользователям не нужно много или даже какое-либо понимание SMT, чтобы использовать такие системы, как Google Translate™ (Robinson 2012, 39), Google Translate™ изначально не был разработан для профессиональных переводчиков,18 и есть несколько причин, по которым профессиональные переводчики возможно, вы захотите избежать перевода чего-либо, кроме коротких фрагментов текстов, используя этот источник.
Например, они могут быть не в состоянии обеспечить конфиденциальность клиента и неразглашение соглашения могут прямо запрещать переводчикам загружать материалы клиентов в веб-службы перевода19. Они также могут испытывать сомнения по поводу повторного использования работы других непризнанные переводчики, которые, возможно, не давали разрешения на свои переводы использоваться таким образом. Такие проблемы создают юридические и этические барьеры для использования (бесплатного веб-) SMT в профессиональном качестве.
Более подробно они обсуждаются Друганом и Бабич (2010). Один из способов преодоления этих барьеров — не полагаться на веб-сайты. услуги, а построить собственную внутреннюю систему SMT, но здесь переводчики могут сталкиваются с техническими препятствиями для использования SMT. Такие барьеры расширены ниже. На данный момент отметим, что Google Translate™ может быть парадоксальным образом слишком прост в использовании; не только делает бесплатный онлайновый машинный перевод подразумевает, что перевод является «безагентной, автоматической функцией».
что может быть реализовано в кратчайшие сроки» (Кронин 2012, 47), тем самым затемняя человеческий труд который производит переведенные и другие данные, на которых основан SMT; системы, такие как Google Перевод также скрывает труд специалистов по информатике, создающих SMT-системы, и может создаться впечатление, что SMT тут ни при чем.
Но если Google Translate™ слишком прост в использовании, другие решения кажутся слишком сложными:
Первоначально SMT был прерогативой крупных корпораций (Google, Microsoft и т. д.) или специализированных компаний (например, Language Weaver, приобретенная SDL в 2010 г.), которые имели в своем распоряжении
располагать огромными вычислительными мощностями, штатными группами компьютерных ученых и корпуса существующих данных перевода или возможность поиска таких данных в Интернете. Увеличение компьютерная мощь и обмен идеями, данными и инструментами, однако, вскоре позволили
академическое сообщество, работающее над SMT, должно процветать; особенно важным было появление инструментария Moses с открытым исходным кодом,20 описанного его создателями как:
полная готовая система перевода для академических исследований. Он состоит из всех компоненты, необходимые для предварительной обработки данных, обучения языковых моделей и моделей перевода.
Он также содержит инструменты для настройки этих моделей. . . и оценивая полученные переводы с помощью шкалы BLEU. . . (Коэн и др. 2007, 178)
Но даже Моисей, который был специально разработан с учетом доступности и простоты использования в разум (Koehn et al. 2007, 178), по-прежнему предназначался для ученых-компьютерщиков, и даже тогда некоторые высококвалифицированные пользователи сочли это сложным для реализации. В марте 2009 года Том Хоар (Hoar 2009, 2) написал в отчете Общества пользователей автоматизации перевода (TAUS):
Посмотрим правде в глаза, системы SMT сложны. Это день, когда начинающий пользователь компьютера может установить и настроить сложное офисное приложение за 30 минут. Тем не менее, одно опытное программное обеспечение C++
инженеру, активно разрабатывающему проекты с открытым исходным кодом для Ubuntu Linux, потребовалось три дня, чтобы понять концепции, сбор зависимостей, компиляция компонентов и проверка базовой линии Приложение Moses Decoder, прежде чем он смог настроить существующую обученную модель данных и протестировать качество перевода.
Несмотря на продолжающуюся разработку и подробную документацию, Моисей все еще может быть пугающим. для некомпьютерных ученых, и, конечно же, нельзя предполагать, что студенты-переводчики с небольшим опытом работы в области вычислительной техники будет иметь необходимые знания или навыки (или время, необходимое для получения таких знаний и навыков, учитывая комплексные переводческие исследования учебные программы) для успешной установки и запуска программного обеспечения.
Возможно, неудивительно, что за запуском «Моисея» вскоре последовал запуск «Моисея». другие проекты, призванные сделать технологию более доступной. Эти проекты включают Do Moses Yourself ™ и Moses for Mere Mortals. Ранний положительный отчет об использовании последняя система была опубликована Мачадо и Фонтесом (2011), которые, что важно для нашего целей – оценили «с точки зрения переводчика» (2). Но при реализации
«Моисей для простых смертных» значительно повысил производительность португальского перевода. команда Генерального директората по переводу Европейской комиссии, где Мачадо и Fontes, понятно, что даже установка системы остается сложной задачей для тех, с небольшим знанием операционной системы Linux™ или языков сценариев. Аналогичный проблемы возникают с Do Moses Yourself ™. Очень мотивированный профессиональный переводчик может быть в состоянии преодолеть эти проблемы, но знания, необходимые для начала работы с тем, что стал известен как «Сделай сам» или «Сделай сам». SMT не может (пока) считаться одним из
когорты переводчиков-стажеров, которых мы обычно обучаем.
Также нельзя обязательно предполагать это среди учителя перевода. В долгосрочной перспективе студентам-переводчикам и их преподавателям может потребоваться приобрести более совершенные вычислительные навыки, но в краткосрочной перспективе другие облачные решения возможно. Такие облачные решения оказываются «в самый раз» для наших целей, а в прекрасная иллюстрация принципа Златовласки, мы тяготеем к ним в нашем обучении.

7. Облачный SMT


Термин «облачные вычисления» описывает предоставление вычислительных услуг по сети, обычно Интернет. Недавно запущенные облачные сервисы SMT включают: KantanMT™, разработан Xcelerator Machine Translation Solutions Ltd; Центр переводчиков Microsoft®; BeGlobal™ от SDL; и SmartMATE™ компании Capita.21 Эти облачные сервисы позволяют пользователям использовать свои собственные двуязычные и одноязычные данные, иногда поверх данных поставщика услуг «заводские» данные для обучения настроенных двигателей SMT. Поскольку сам двигатель остается в облако, нет необходимости устанавливать программное обеспечение локально. Пользователям также не нужно иметь особенно мощные компьютеры, так как вся «тяжелая работа» выполняется удаленными машинами, в Тренер устных и письменных переводчиков 289 Загружено [Библиотека UNSW] в 18:06 11 мая 2015 г. в удаленных центрах, таких как те, которыми управляет Amazon Web Services.22 Пока пользователи остаются в одном удалить из двигателя SMT, по сравнению с решениями DIY, они все еще могут пройти через полный цикл: загрузка данных; обучение и тестирование двигателя; при необходимости изготовление вмешательства, направленные на повышение качества (например, за счет добавления большего количества обучающих данных или
развертывание глоссариев для конкретных проектов и т. д.); переобучение двигателя; и, наконец, развертывание двигатель "настоящий". В целом пользовательские интерфейсы просты в использовании и позволяют взаимодействовать между рецензенты/тестировщики. В некоторых случаях созданные на заказ механизмы перевода можно оставить частными, общими.
с другими названными сторонами или сделать общедоступными.
На первый взгляд SMT в облаке предлагает ряд преимуществ для обучения переводчиков в университетах: он позволяет пользователю, который может быть переводчиком, переводить компании или переводчика-стажера с доступом к значительному объему обучающих данных –вмешиваться на всех соответствующих этапах рабочего процесса SMT, предоставляя широкие возможности для тип целостного обучения, в котором мы заинтересованы. Однако, насколько нам известно, Использование облачного SMT не тестировалось в университетской среде обучения переводчиков, пока мы не развернули эту услугу на степень магистра переводоведения и степень магистра в области переводоведения. Технология перевода в Дублинском городском университете в начале 2012 г. В сопутствующей статье.
к этому (Doherty and Kenny, 2014) мы предоставляем более подробную информацию о том, как мы проектировали, внедрили и оценили нашу программу SMT.
8. Выводы В этой статье мы представили нетехнический обзор SMT, чтобы подчеркнуть знания и навыки, которые особенно необходимы переводчикам-стажерам для того, чтобы работать с этой технологией. Мы приняли за аксиому, что переводчики де-факто участвует или может внести свой вклад почти на всех этапах рабочего процесса SMT, и что когда-то преодолеваются определенные барьеры, нет необходимости ни исключать переводчиков, ни назначать их к тому, что некоторые считают ограниченными или упрощающими ролями в рабочих процессах SMT. Эти важные моменты для нас: как ученые, обучающие переводчиков, мы заинтересованы, но также этическое обязательство по обеспечению устойчивости профессии. В противном случае мы обучают студентов в наших собственных интересах, но мало заботятся об их интересах. (Мы могли бы, из конечно, вообще перестать обучать переводчиков, но это было бы мало смысла, учитывая наши оценка текущего рынка переводов, представленная выше, в том числе.)
устойчивость должна частично заключаться в способности переводчиков развиваться и принимать любые инструменты полезны и в настоящее время доступны для них, чтобы оставаться актуальными и конкурентоспособными.
В то же время внедрение таких инструментов не должно принуждать переводчиков к выполнению тех ролей, которые они могут оказаться настолько ограничивающими, что перестанут быть интересными или профессиональными. Это почему мы выступаем за активный, целостный подход к преподаванию и изучению SMT, один в котором переводчики имеют право собственности, критическое понимание и значительный контроль.
Это, конечно, требует, чтобы те же самые переводчики — и те, кто их обучает, — приобрелисопутствующей степени специализированных знаний и навыков, а также преодолевать барьеры, будь они концептуальные, этические или технические. Мы надеемся, что предоставили достаточно информации и мотивация в этой статье, чтобы побудить других педагогов использовать SMT аналогичным образом.
целостный способ. В сопутствующей статье (Doherty and Kenny, 2014) мы показываем, сколькоидеи, изложенные здесь, могут быть реализованы, и как полный цикл SMT, от обучения для оценки и улучшения, могут быть реализованы в учебной программе по переводу. Для теперь мы надеемся обосновать отказ от «дезинтермедиации» в SMT (Cronin 2012, 45–47), иными словами, для восстановления переводчика в должности агента, очень активно присутствует в рабочем процессе SMT, и для программы SMT, которая отражает это.
Благодарности Это исследование поддерживается Ирландским научным фондом (грант 07/CE/I1142) в рамках Центр локализации нового поколения (www.cngl.ie) Дублинского городского университета. Авторы также хочу поблагодарить двух наших анонимных рецензентов за их неоценимые отзывы.

Примечания


1. Однако следует также признать, что, несмотря на широкое распространение, SMT не
предлагают единое решение для всех задач машинного перевода, и в настоящее время многие исследования сосредоточены на
сочетая сильные стороны более ранних систем, основанных на правилах, с более новыми системами SMT в «гибридном»
и «многодвигательные» системы.
2. Это впечатление отчасти сложилось благодаря обширному контакту с переводчиками.
программы, являющиеся членами сети ЕМТ и сети Optimale.
3. Действительно, представление SMT здесь во многом обязано представлению Hearne and Way (2011).
4. Мы умножаем вероятности униграмм, исходя из предположения, что униграммы не зависят от
друг друга. В теории вероятностей совместная вероятность двух или более независимых событий равна
просто произведение их индивидуальных вероятностей. Конечно, это предположение легко
подвергается критике в случае текста на естественном языке, поскольку слова, вероятно, оказывают какое-то
влияние друг на друга, поэтому, например, «книга» более вероятна, чем «это». Очень местный
влияния лучше фиксируются в биграммных моделях, рассматриваемых ниже.
5. Здесь «P» означает вероятность ассоциированного слова.
6. Обратите внимание, что вероятности биграмм обычно представляются с использованием обозначения P(B|A), которое
указывает вероятность появления второго слова при условии, что первое слово уже встречалось. Так
вероятность биграммы «она живет» выражается следующим образом: Р(живет|она).
7. Здесь мы полагаемся на данное Мэннингом и Шютце (1999, 151) определение словосочетания как
выражение, состоящее из двух или более слов, соответствующих какому-либо общепринятому способу
говорить вещи». Часто цитируемым примером является выражение «крепкий чай», которое условно
используется в английском языке, а не другие возможные выражения, такие как «мощный чай».
8. Мы следуем обозначениям, использованным в Koehn (2010).
9. Для выравнивания слов требуется параллельный корпус, выровненный по предложениям.
10. См. Hearne and Way (2011) рабочий пример того, что известно как алгоритм максимизации ожидания.
Download 263.24 Kb.

Do'stlaringiz bilan baham:
1   2   3




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling