Статистический машинный перевод
Для тестирования результатов построения модели используются как экспертные, так и автоматические метрики. При экспертной оценке обычно сравниваются переводы двух моделей. Проводить оценку в идеале должен человек, владеющий и исходным, и целевым языком (при этом считается, что важнее хорошее знание целевого языка). Автматические оценки, такие как описанная в работе метрика BLEUScore, предполагают… Читать ещё >
Статистический машинный перевод (реферат, курсовая, диплом, контрольная)
Основные принципы
Статистический машинный перевод (SMT) — одна из базовых разновидностей машинного перевода наряду с машинным переводом, основанным на правилах (RBMT). Основной особенностью статистического перевода в его классическом виде является то, что в нем не используются разработанные вручную правила перевода между двумя конкретными языками. Вместо этого перевод текста создается на основе обученной ранее модели. Для обучения модели перевода нужны два параллельных корпуса текстов: на исходном и целевом языках. Кроме того, нужно использовать программное обеспечение, позволяющее построить данную модель. Помимо этого, в таких случаях обычно используются параллельные тексты для тюнинга: настройки параметров в модели перевода.
Основной идеей обучения является установление соответствий между токенами в параллельных корпусах. На первом этапе происходит выравнивание корпусов по словам, затем алгоритм высчитывает вероятности соответствий между образованными из токенов фразами обоих текстов. Помимо этого, вычисляются также вероятности перестановок фраз с другими. На этапе тюнинга алгоритм определяет веса различных параметров перевода. Для того, чтобы текст выглядел более естественно, используется также модель языка — корпус текста на целевом языке, позволяющий узнать вероятности фраз в этом языке.
Для тестирования результатов построения модели используются как экспертные, так и автоматические метрики. При экспертной оценке обычно сравниваются переводы двух моделей. Проводить оценку в идеале должен человек, владеющий и исходным, и целевым языком (при этом считается, что важнее хорошее знание целевого языка). Автматические оценки, такие как описанная в работе [Papineni et al. 2002] метрика BLEUScore, предполагают оценку совпадающих униграмм, биграмм, триграмм и квадрограмм, а также, в некоторых методиках, использование списков синонимов (см. [Banerjee, Lavie 2005]). Кроме того, некоторые методики основываются на оценке того, являются ли получившиеся перевода парафразами референтных предложений (см. [Russo-Lassner, Lin, Resnik 2005]).
Рассмотрим подробнее историю статистического машинного перевода и основные этапы, которые включает в себя процесс создания статистической модели.