Заказать курсовые, контрольные, рефераты...
Образовательные работы на заказ. Недорого!

2.3 Предварительная обработка данных

РефератПомощь в написанииУзнать стоимостьмоей работы

После проведения предварительной обработки задача выявления классообразующих терминов по существу сводится к разделению их на две группы, состоящие из информативных и слабоинформативных признаков. Процедура снижения размерности заключается в отборе из Р исходных признаков M наиболее информативных, обладающих наилучшими разделяющими свойствами. Данный подход основывается на предположении, что… Читать ещё >

2.3 Предварительная обработка данных (реферат, курсовая, диплом, контрольная)

Для упрощения классификации требуется предварительная обработка данных. Она заключается в выявлении наиболее информативных признаков, сокращением числа терминов и их дальнейшем взвешивании (рис. 2.2.).

Одним из основных способов решения задачи сокращения числа терминов (задачи уменьшения размерности документа) является отсечение стоп-слов. Стоп-слова — слова, не несущие смысловой информации — местоимения, предлоги, артикли и т. д. Также в целях дополнительного сокращения размерности задачи и для улучшения качества классификации, проводится выделение корней слов (stemming).

После проведения предварительной обработки задача выявления классообразующих терминов по существу сводится к разделению их на две группы, состоящие из информативных и слабоинформативных признаков. Процедура снижения размерности заключается в отборе из Р исходных признаков M наиболее информативных, обладающих наилучшими разделяющими свойствами [7].

На рис. 2.3. показано, что все термины документа могут быть разделены на три группы: информативные, слабо информативные и неинформативные признаки. Неинформативные признаки удаляются на стадии предварительной обработки текстовых документов.

Для выявления информативных признаков в задаче классификации текстовых документов мы будем использовать подсчет частоты встречаемости термина в текстах выборки.

Данный подход основывается на предположении, что смысловая составляющая любого документа может быть представлена в виде совокупности терминов, которые с разной частотой встречаются в тексте. При этом используются следующие эмпирические наблюдения (рис. 2.4.):

  • · чем чаще слово встречается в документе, тем в большей степени оно отражает тематику документа;
  • · чем чаще слово встречается во всей выборке документов, тем меньшей выделительной (дискриминирующей) способностью оно обладает, т. е. тем более оно (слово) присуще области науки, в которой проводятся исследования (например, Информационные Технологии), либо часто используемое слово при оформлении документов (например, термин) и тем менее отражает обобщенность конкретной тематики от других.

Рис. 2.4. Частота встречаемости терминов

Таким образом, все слова можно разделить на 3 категории по частоте встречаемости в тематике:

  • · Высокая частота. Сюда относятся термины, которые встречаются часто либо в нашей выбранной тематике, либо при оформлении текстовых документов, либо общепринятая лексика для исследуемой области науки;
  • · Средняя частота. В данную категорию можно отнести слова, в большей степени отражающие термины специфические для данной области науки;
  • · Низкая частота (шум). Слова, не относящиеся к данной тематике: слова общей лексики, связующие слова.

Для проведения классификации желательно отбирать среднечастотные термины, которые лучше всего описывают документ заданной тематики. Однако для документов небольшого объема, как например, библиографические описания, исключение высокочастотных составляющих может привести к потере информации, так как в этом случае часто встречающиеся термины не будут являться «общими словами», а в большей степени будут специальными терминами, описывающими тематику документа.

На практике решение задачи классификации усложняется следующими факторами:

  • · разбиение на классы неоднозначно, оно зависит от выбранного метода классификации, пространства признаков и критериев определения различия и сходства между текстами, а также настроечными параметрами алгоритма.
  • · оценка качества классификации существенно зависит от субъективных представлений о сходстве и различии документов, т. е. от личных предпочтений эксперта;
  • · не существует единых критериев оценки качества классификации.
Показать весь текст
Заполнить форму текущей работой