Заказать курсовые, контрольные, рефераты...
Образовательные работы на заказ. Недорого!

Введение. 
Использование методов машинного обучения для извлечения слов-терминов

РефератПомощь в написанииУзнать стоимостьмоей работы

В данной работе мы рассмотрим различные признаки выявления терминологичности отдельного слова (прилагательных и существительных), оценим их качество на основе меры средней точности, заимствованной из информационного поиска. Используемые нами признаки могут быть разделены на три типа: Признаки, полученные на основе заданного тезауруса предметной области. Здесь мы моделируем ситуацию развития… Читать ещё >

Введение. Использование методов машинного обучения для извлечения слов-терминов (реферат, курсовая, диплом, контрольная)

Важным аспектом создания прикладных систем в конкретных предметных областях является учет терминологии предметной области. Поэтому одним из важных направлений исследований в области создания понятийных моделей предметных областей, прикладных онтологий являются технологии извлечения из текстов терминов предметной области.

При извлечении терминов предметной области большое внимание уделяется извлечению терминологических словосочетаний, и значительно меньшее исследований посвящено извлечению отдельных слов-терминов [Zhang et al., 2008].

Вместе с тем известно, что список самых частотных словосочетаний, извлеченных из текстов предметной области, содержит очень высокую долю терминологических словосочетаний. В то время как подавляющее число наиболее частотных слов, извлеченных из коллекции текстов предметной области, представляют собой слова литературного языка, и, следовательно, не являются терминами. Применение статистических мер, позволяющих оценить особенность употребления слов в данной коллекции по сравнению с некоторой контрастной коллекцией документов таких, как tf. idf или странность (weirdness) [Zhang et al., 2008] повышает долю слов-терминов, получивших высокие веса по этим мерам, однако все еще остается относительно низкой.

Другой мерой, которая может применяться для выделения терминологических слов, является мера, оценивающая их вхождение как фрагмента в объемлющие словосочетания [Ananiadou, 1994].

В данной работе мы рассмотрим различные признаки выявления терминологичности отдельного слова (прилагательных и существительных), оценим их качество на основе меры средней точности, заимствованной из информационного поиска. Используемые нами признаки могут быть разделены на три типа:

  • — признаки, построенные на основе текстовой коллекции предметной области;
  • — признаки, полученные на основе информации глобальной поисковой машины,
  • — признаки, полученные на основе заданного тезауруса предметной области. Здесь мы моделируем ситуацию развития существующего тезауруса и хотим выяснить, насколько знания, описанные в текущей версии тезауруса, могут улучшить качество автоматического извлечения следующих терминов.

Далее мы применяем методы машинного обучения для наилучшего комбинирования выделенных признаков с целью получения терминологических слов. Как показано в ряде публикаций, комбинирование признаков для выделения терминологических словосочетаний, устойчивых словосочетаний других видов позволяет значительно улучшить качество их извлечения [Pecina et al., 2006; Zhang et al., 2008].

Эксперименты проводятся в широкой области естественных наук. Качество методов определения терминологичности слов признаков оценивается на создаваемой вручную Онтологии по естественным наукам и технологиям ОЕНТ [Добров и др., 2005].

Показать весь текст
Заполнить форму текущей работой