Статистический машинный перевод

РефератПомощь в написанииУзнать стоимостьмоей работы

Статистический машинный перевод (реферат, курсовая, диплом, контрольная)

Основные принципы

Статистический машинный перевод (SMT) — одна из базовых разновидностей машинного перевода наряду с машинным переводом, основанным на правилах (RBMT). Основной особенностью статистического перевода в его классическом виде является то, что в нем не используются разработанные вручную правила перевода между двумя конкретными языками. Вместо этого перевод текста создается на основе обученной ранее модели. Для обучения модели перевода нужны два параллельных корпуса текстов: на исходном и целевом языках. Кроме того, нужно использовать программное обеспечение, позволяющее построить данную модель. Помимо этого, в таких случаях обычно используются параллельные тексты для тюнинга: настройки параметров в модели перевода.

Основной идеей обучения является установление соответствий между токенами в параллельных корпусах. На первом этапе происходит выравнивание корпусов по словам, затем алгоритм высчитывает вероятности соответствий между образованными из токенов фразами обоих текстов. Помимо этого, вычисляются также вероятности перестановок фраз с другими. На этапе тюнинга алгоритм определяет веса различных параметров перевода. Для того, чтобы текст выглядел более естественно, используется также модель языка — корпус текста на целевом языке, позволяющий узнать вероятности фраз в этом языке.

Для тестирования результатов построения модели используются как экспертные, так и автоматические метрики. При экспертной оценке обычно сравниваются переводы двух моделей. Проводить оценку в идеале должен человек, владеющий и исходным, и целевым языком (при этом считается, что важнее хорошее знание целевого языка). Автматические оценки, такие как описанная в работе [Papineni et al. 2002] метрика BLEUScore, предполагают оценку совпадающих униграмм, биграмм, триграмм и квадрограмм, а также, в некоторых методиках, использование списков синонимов (см. [Banerjee, Lavie 2005]). Кроме того, некоторые методики основываются на оценке того, являются ли получившиеся перевода парафразами референтных предложений (см. [Russo-Lassner, Lin, Resnik 2005]).

Рассмотрим подробнее историю статистического машинного перевода и основные этапы, которые включает в себя процесс создания статистической модели.

Показать весь текст

Заполнить форму текущей работой

Другие работы

Социальный и когнитивный аспекты дискурса

Таким образом, дискурс представляет собой одновременно социальный и когнитивный феномен. Дискурс чувствителен и к тому, что происходит внутри одной головы (когнитивный аспект), и к тому, что происходит между двумя или более индивидами (социальный аспект). При этом указанные два аспекта не противопоставляются жестко. Ведь мысль в мозгу индивида формируется на основе и с учетом взаимодействия…

Реферат