Заказать курсовые, контрольные, рефераты...
Образовательные работы на заказ. Недорого!

Введение. 
Обучение с нуля грамматики связей русского языка

РефератПомощь в написанииУзнать стоимостьмоей работы

Попытки статистического обучения контекстно-свободных грамматик уже совершались, однако кросс-энтропия моделей языка либо не указывалась, либо была хуже триграмных моделей. В большинстве подобных работ для обучения используются предварительно размеченные тексты, специфичные для данной модели языка, что сильно осложняет возможность сравнения самих моделей языка с другими формализмами… Читать ещё >

Введение. Обучение с нуля грамматики связей русского языка (реферат, курсовая, диплом, контрольная)

В настоящий момент в некоторых практических приложениях пользуются популярностью n-грамные модели грамматики [Bahl et al., 1983], [Jelinek, 1997]. К n-грамным грамматикам относятся и триграмные модели, занимающие сильные позиции в статистическом моделировании языка [Brown et al., 1992]. Однако в триграмной модели каждое слово зависит только лишь от двух предыдущих, и не может учитывать дальние связи в предложении. Если лингвистический формализм будет иметь дальние связи, то он потенциально должен иметь лучшие характеристики при моделировании естественного языка. В данной работе изучаются вероятностные грамматики связей, относительно новый контекстно-свободный формализм (относительно грамматик непосредственно составляющих [Chomsky, 1957] и грамматик зависимостей [Mel'chuk, 1979]), которые впервые были предложены в работе [Sleator et al., 1991], а применимость для русского языка была показана в работе [Протасов, 2005]. Формализм грамматики связей содержит n-грам модели как подкласс и одновременно допускает наличие дальних связей [Lafferty et al., 1992].

В данной работе рассмотрена концепция грамматики связей, её вероятностная модель и обучающий алгоритм. На базе алгоритма была создана программа, которая при тестировании на реальных русскоязычных текстах показала значительное снижении кросс-энтропии кросс-энтропия — (нестрого) среднее число бит, необходимых для кодирования каждого слова с помощью модели грамматики языка, что подтверждает принципиальную возможность существования автоматизированных технологий создания грамматики связей русского языка. Предполагается вывод правил грамматики, и оценка вероятности срабатывания выведенных правил грамматики при отсутствии подробной грамматической теории. Исследование возможности создания грамматики связей с помощью только лишь анализа неразмеченного корпуса предложений есть главная цель данной работы.

Попытки статистического обучения контекстно-свободных грамматик уже совершались [Lari et al., 1990] [Jelinek et al., 1992] [Yuret, 1998] [Collins, 1999], однако кросс-энтропия моделей языка либо не указывалась, либо была хуже триграмных моделей [Brown et al., 1992]. В большинстве подобных работ для обучения используются предварительно размеченные тексты, специфичные для данной модели языка, что сильно осложняет возможность сравнения самих моделей языка с другими формализмами. Мы же попытались получить численное значение (кросс-энтропии), которое можно сравнивать с другими моделями. Так как грамматика связей имеет дальние связи, контекстную свободу и эффективный алгоритм разбора, то мы надеемся на получение преимущества над триграмными моделями.

Далее в работе будет показан процесс создания вероятностной модели языка, основанной на грамматике связей. После короткого описания концепции грамматики связей мы рассмотрим алгоритм разбора и обучения. После чего будут обсуждены вопросы, касающиеся сглаживания параметров, лингвистических ограничений и оценки качества модели.

Показать весь текст
Заполнить форму текущей работой