Заказать курсовые, контрольные, рефераты...
Образовательные работы на заказ. Недорого!

Ключевые слова и словосочетания

РефератПомощь в написанииУзнать стоимостьмоей работы

В программной реализации данной работы также представлен другой метод выделения ключевых слов, который отсекает все слова, встречающиеся в слишком малом или слишком большом количествах текстов (слова из стоп-листа не рассматриваются). Такой метод был использован в экспериментах Диллона для бикластеризации матриц релевантности слово/текст. Диллон рассматривал только те слова, которые встречаются… Читать ещё >

Ключевые слова и словосочетания (реферат, курсовая, диплом, контрольная)

В данной работе рассмотрены три источника ключевых слов: искусственно составленный список ключевых словосочетаний (см. Приложение 1), ключевые словосочетания, предоставляемые электронной библиотекой IEEE Xplore, а также сами научные статьи.

1) Алгоритмы выделения ключевых словосочетаний.

Можно выделить два основных подхода к нахождению ключевых слов и словосочетаний: методы, использующие обучение на выборках текстов с известными ключевыми словами (supervised), и методы, не требующие предварительного обучения (unsupervised).

В данной работе мы сосредоточимся на методах, не требующих предварительного обучения, так как они чаще всего проще в реализации, а главное способны показывать даже лучшие результаты, по сравнению с обучаемыми методами.

Очень часто при выделении ключевых слов используются метрики релевантности — например, TF-IDF. Для получения ключевых слов на основе метрики, можно из каждого текста в коллекции выделять ограниченное количество наиболее релевантных слов (то есть тех слов из текста, для которых метрика показывает наилучший результат), после чего объединять полученные слова в единое множество ключевых слов. Для того, чтобы слова, не отражающие специфику документа, как the, a, however и тому подобные, не попадали в множество ключевых слов, используются списки так называемых стоп-слов (stop-words). Слова, попадающие в стоп-лист, просто не учитываются алгоритмами выделения ключевых слов.

Другим популярным подходом к выделению ключевых слов является подход на основе графов зависимостей между словами. Пожалуй, наиболее известным таким методом является TextRank, на котором мы и остановимся. Создателями метода TextRank было показано, что их метод превосходит по точности даже алгоритмы, использующие обучение, на одинаковых данных. Основная идея метода TextRank заключается в построении графа связей между словами из текста. Такой граф содержит в качестве вершин все слова, которые встречаются в тексте. Этот набор слов можно ограничивать — например, не включать слова из стоп-листа и/или включать только слова, относящиеся к определённым частям речи, например, только существительные и прилагательные.

В базовом варианте TextRank рёбра в графе являются ненаправленными и строятся на основе взаимного местоположения слов — между двумя словами ставится ребро в графе, если они в тексте встречаются в окне слов размера N, где N из интервала. Важно заметить, что если слова встречаются рядом более одного раза по тексту, то в граф добавляется соответствующее количество кратных рёбер. В дополнение, авторы статьи рассматривали модификации графов с ориентированными рёбрами — ребро ведёт от первого слова ко второму, если в окне, где эти слова встречаются вместе, первое слово предшествует второму. Также рассматривались графы с обратными связями (ребро от второго слова ведёт к первому).

Граф, построенный по описанному выше принципу, далее обрабатывается известным алгоритмом индексирования веб-страниц PageRank, который был представлен Брином и Пейджем в 98 году. Этот алгоритм является итеративным и основывается на той идее, что вершины, в которые входит большое количество рёбер, имеют большой вес. Таким образом, конечный вес вершины определяется из весов других вершин, связанных с ней ребром. После того, как конечные веса для всех слов были подсчитаны алгоритмом, TextRank выделяет k слов с самым высоким весом и помечает их как ключевые. Следующим шагом является выделение ключевых фраз на основе уже выделенных ключевых слов. Все вхождения ключевых слов в текст помечаются, после чего последовательности ключевых слов (стоящих подряд) объединяются в ключевые фразы. В качестве примера, приведено предложение «Matlab code for plotting ambiguity functions». Если TextRank выделил слова Matlab и code, то из них будет образовано единое ключевое словосочетание Matlab code, при этом объединяться может более двух слов сразу.

2) Модификация TextRank.

При обработке аннотаций к научным статьям по отдельности алгоритмом TextRank, всё же получается довольно много «шума», то есть слов, которые сложно использовать в качестве ключевых. Поэтому в данной работе была реализована модифицированная версия TextRank, в которой граф слов строился на основе всей коллекции аннотаций (алгоритм тестировался на коллекциях размером от 300 до 3000 аннотаций на одну тематику). После обработки такого графа с помощью метода PageRank, «склеивание» ключевых слов в ключевые словосочетания происходило, если полученное словосочетание встречается хотя бы в текстах (аннотациях) из коллекции — параметр может настраиваться пользователем. В экспериментах над аннотациями к научным статьям брался равным трём, чтобы избежать попадания «шумовых» словосочетаний в коллекцию. Если ключевое слово присутствует хотя бы в одном из «склеенных» словосочетаний, то оно больше не используется как самостоятельное ключевое слово. Это сделано для того, чтобы исключить из потенциальных бикластеров ключевых фраз явные зависимости между фразой и словами, содержащимися в ней, так они несут в себе очень мало информации. Также при обработке аннотаций, в граф связей добавлялись только существительные, как кандидаты на роль ключевых слов. Однако пользователь конечной программы может задавать части речи, которые он хотел бы учитывать. В дополнение, для повышения эффективности TextRank все слова из текстов предварительно обрабатываются при помощи лемматизации, то есть все слова приводятся к словарной форме («better» «good», «cats» «cat» и т. п.).

3) Частотный анализ.

В программной реализации данной работы также представлен другой метод выделения ключевых слов, который отсекает все слова, встречающиеся в слишком малом или слишком большом количествах текстов (слова из стоп-листа не рассматриваются). Такой метод был использован в экспериментах Диллона для бикластеризации матриц релевантности слово/текст. Диллон рассматривал только те слова, которые встречаются не менее, чем в 0,2% и не более, чем в 15% статей из коллекции. В программной же реализации данной работы пользователю даётся возможность указать собственные минимальный и максимальный пороги. Разработанное программное обеспечение также даёт возможность использовать гибридный метод выделения ключевых словосочетаний, объединяющий модифицированный TextRank и частотный анализ. Идея заключается в том, что после обработки слов по методу PageRank, кандидаты на роль ключевых слов дополнительно фильтруются на основе их частоты встречаемости в коллекции. Пороги частоты для фильтрации по умолчанию используются такие же, как и в экспериментах Диллона, но могут регулироваться пользователем.

Показать весь текст
Заполнить форму текущей работой