Введение.
Автоматическая классификация отзывов на основе оценочных слов
С развитием сети Интернет неуклонно растет количество неструктурированной информации, например, такой, как мнения и отзывы людей о различных товарах и услугах. Существует множество интернет ресурсов, которые аккумулируют в себе терабайты этих данных: форумы, блоги, социальные сети. В этих данных содержится полезная информация, полученная людьми в результате их профессиональной и бытовой… Читать ещё >
Введение. Автоматическая классификация отзывов на основе оценочных слов (реферат, курсовая, диплом, контрольная)
С развитием сети Интернет неуклонно растет количество неструктурированной информации, например, такой, как мнения и отзывы людей о различных товарах и услугах. Существует множество интернет ресурсов, которые аккумулируют в себе терабайты этих данных: форумы, блоги, социальные сети. В этих данных содержится полезная информация, полученная людьми в результате их профессиональной и бытовой деятельности.
Для того чтобы использовать эту информацию и составить собственное мнение о некотором объекте, человеку требуется ознакомиться с отзывами других людей и определить, как каждый из них оценивает рассматриваемую сущность. Эта процедура достаточно трудоёмкая ввиду большого количества данных.
Для многих сущностей актуальным является сравнение с другими подобными объектами. В таких случаях простой оценки «понравилось» или «не понравилось» уже не достаточно. Для решения этой задачи необходимо уметь оценивать объект по некоторой шкале. В связи с этим актуальной является задача автоматической классификации отзывов более, чем на два класса.
В данной статье предложен метод классификации отзывов о фильмах на три класса, основанный на использовании множества оценочных слов данной предметной области. Для этого заранее формируются списки оценочных слов со средней оценкой для каждого слова. Особенность предлагаемого нового метода извлечения оценочных слов заключается в том, что извлекаются оценочные слова, характерные для данной предметной области.
Составляя для каждого отзыва вектор используемых в нем слов, мы применяем методы машинного обучения для распределения отзывов по классам. Предметная область — кинематограф.