Заказать курсовые, контрольные, рефераты...
Образовательные работы на заказ. Недорого!

Достоинства и недостатки

РефератПомощь в написанииУзнать стоимостьмоей работы

Более сложным подходом к определению мер близости ПОД и ПОЗ является учет разной значимости терминов и их зависимости друг от друга. В пространственно-векторной модели это означает отход от ортогональности и ортонормированности базисных векторов поискового пространства. В этом случае скалярное произведение векторов ПОД и ПОЗ более гибко и осмысленно отражает близость соответствующих векторов и… Читать ещё >

Достоинства и недостатки (реферат, курсовая, диплом, контрольная)

Пространственно-векторная модель основана на предположении, что совокупность документов можно представить набором векторов в пространстве, определяемом базисом, из L нормализованных векторов терминов. Значение первого компонента вектора представляющего документ отражает вес термина в нем. Запрос пользователя также представляется L-мерным вектором z. Показатель RSV, определяющий соответствие документа запросу, задается скалярным произведением векторов запроса и документа:

Достоинства и недостатки.

Чем больше RSV, тем выше релевантность документа запросу.

Достоинства модели: Дает количественное выражение для релевантности, проста и наглядна в использовании.

Недостатки модели: Спецификация запросов, в отличие от булевой модели, потеряла выразительность и простоту; нечувствительность к степени соответствия отсутствующих словоформ в ПОД и ПОЗ.

Интуитивно понятно, что чем ближе содержание документа и запроса, тем меньше в документе должно быть словоформ (терминов), которых нет в запросе. Если, к примеру, в словаре системы всего 6 элементов и имеется два документа D1 (1,1,0,1,0,0) и D2 (1,1,1,1,1,1), то для запроса Z (1,1,0,00,0) значение RSV для обоих документов будет равно 2 (33%), хотя интуитивно понятно, что более близким по содержанию является первый документ, а второй документ, скорее всего, затрагивает более широкую тематику, не обязательно интересующую пользователя Такой чувствительностью обладает показатель релевантности, определяемый следующим образом:

Достоинства и недостатки.

.

где — дополнение к элементами w, и z. Если вернуться к предыдущему примеру с документами D1 (1,1,0,1,0,0) и D2 (1,1,1,1,1,1) и запросом Z (1,1,0,00,0), то RSV для первого документа будет равным 5 (83%), а для второго документа 2 (33%).

Более сложным подходом к определению мер близости ПОД и ПОЗ является учет разной значимости терминов и их зависимости друг от друга. В пространственно-векторной модели это означает отход от ортогональности и ортонормированности базисных векторов поискового пространства. В этом случае скалярное произведение векторов ПОД и ПОЗ более гибко и осмысленно отражает близость соответствующих векторов и, тем самым, смысловое содержание документов и запросов. В простейшем варианте подобного расширения пространственно-векторной модели к весам терминов добавляется дополнительная компонента, отвечающая за важность термина для конкретной предметной области.

Идея вероятностных моделей заключается в том, что вероятность вхождения терминов запроса в релевантные и нерелевантные документы существенно различается. Если удастся найти способ подсчета вероятностей вхождения термина в релевантные и нерелевантные части совокупности документов, то для любого документа можно будет вычислить вероятность того, что он будет релевантным (или нерелевантным). К сожалению простых методов подсчета упомянутых вероятностей не существует. Тем не менее, вероятностные модели играют важную роль, объясняя процесс поиска и предлагая теоретическое обоснование методов, которые ранее применялись лишь эмпирически.

Основным методом ранжирования результатов запроса в настоящее время является ранжирование по релевантности, которое возможно только в тех случаях, когда возможно получить количественную оценку соответствия запроса содержанию документа. Это означает, что ранжирование по релевантности нельзя, например, провести при использовании булевой модели представления запросов и документов. Развитые ДИПС включают возможность ранжирования результатов запроса и по иным критериям: по дате поступления документа, по индексу цитируемости и т. п.

Показать весь текст
Заполнить форму текущей работой