Основные методы классификации

РефератПомощь в написанииУзнать стоимостьмоей работы

Основные методы классификации (реферат, курсовая, диплом, контрольная)

Первоначальные подходы к классификации документов основывались на формировании списка предметных заголовков, располагаемых в алфавитном порядке. Каждая предметная рубрика получала определенный цифровой или буквенно-цифровой код. Содержание (тематика) документа индексировалось перечислением кодов тех рубрик, которые отражали предметы документа. Такие подходы получили название перечислительной классификации.

Особенностью систем перечислительной классификации является возможность индексирования документов любым количеством предметов (рубрик), отражающих содержание документа. Для осуществления поиска необходимых документов по классификатору (каталогу) определяются коды интересующих абонента предметов (рубрик) и далее отбираются из хранилища те документы, которые проиндексированы соответствующими кодами.

Перечислительная классификация иллюстрируется рис. 3.


Наименование предметной рубрики.	Код.	Картотека.
Вещные права.
Гражданское право.
Договорное право.
			Документ № 1 003,004,005,012.
Договор аренды.
Договор аренды транспортного средства.
Договор дарения.
Лица.
Обязательственное право.
Основы гражданского законодательства.
Право собственности.			Документ № 2 007,013,014.
Сервитуты.
Сроки.
Физические лица.
Юридические лица.			…

Рис. 3. Пример перечислительной классификации

В приведенном на рис. 3 примере некоторый документ № 1 проиндексирован кодами 003 («Договорное право»), 004 («Договор аренды»), 005 («Договор аренды транспортного средства») и 012 («Сроки»). Документ № 2 проиндексирован кодами 007 («Лица»), 013 («Физические лица») и 014 («Юридические лица»).

Достоинства метода: простота, достаточная эффективность (особенно в эпоху ручных ИС).

Недостаток метода: Отсутствие систематизированных связей и отношений между предметными рубриками. Так, в приведенном примере рубрика «Юридические лица» является подчиненной рубрикой рубрики «Лица» и интуитивно ясно, что если документ получил код 014, то тем самым он автоматически относится и к более широкой рубрике с кодом 007.

Для преодоления этого недостатка в списке рубрик документальных ИС нередко используют перекрестные ссылки, которые вводятся через конструкцию «см. также». В этом случае в классификаторе вместе с рубрикой «Лица» помещается следующая конструкция:

«см. также: 013 Юридические лица.

014 Физические лица".

Перекрестные ссылки ориентируют пользователя на смысловую связь некоторых рубрик, позволяя более адекватно строить выражение своих информационных потребностей.

При систематизированной (иерархической) классификации список предметных рубрик строится в виде множества деревьев. Вся предметная область разбивается на несколько рубрик (обычно не пересекающихся), каждая из которых может включать несколько подрубрик. Рубрики и подрубрики должны быть связаны между собой отношением «Род-Вид», «Часть-целое» или «Класс-представитель». Таким образом, при систематизированной классификации используются уже семантические основы предметной области, выражаемые в указанных выше отношениях между категориями, понятиями или классами.

Представление иерархической классификации производится либо в виде древовидного графа (рис. 4), либо в табличном виде (рис. 5).

Рис. 4. Графическая форма представления иерархической классификации

Рис. 5. Табличная форма представления иерархической классификации

Так же, как и при перечислительной классификации, содержание документа индексируется кодами соответствующих рубрик, однако при этом отпадает необходимость в явном указании более общих рубрик, к которым относятся отмеченные подрубрики. В результате индексирование и поиск документов на основе иерархической классификации позволяют более адекватно отражать содержание документов и обеспечивают большую точность поиска. Так, документ № 2 из предыдущего примера на основе иерархической классификации может быть проиндексирован только рубриками «Физические лица» и «Юридические лица», обозначение каждой из которых означает автоматическое отнесение содержания документа и к более широкой рубрике «Лица».

Перечислительный и иерархический подходы к классификации впоследствии воплотились в широко используемых в библиотечной практике алфавитно-предметных каталогах, наиболее распространенным из которых в настоящее время является универсальная десятичная классификация (УДК). В ее основе лежит классификационная схема М. Дьюи, дополненная правилами образования сложных рубрик, а также специальными определителями, служащими для более детального описания документов (определители формы и характера документа, определители времени и т. д.). При этом систематизированная классификация позволяет строить сам каталог (картотеку документов) в структурно-иерархическом виде, что существенно упрощает выражение пользователем своих информационных потребностей, и, тем самым, ускоряет и повышает точность поиска.

Согласно УДК весь универсум знаний делится на 10 больших тематических полей (главных классов):

0 Общие вопросы науки и информационной деятельности
1 Философия, логика, психология
2 Религия, богословие
3 Общественно-экономические науки
4 (Свободный резервный класс)
5 Естественные и точные науки
6 Прикладные области знания (включая медицину, технику и сельское хозяйство)
7 Искусство, развлечения, спорт
8 Язык и литература
9 История и география.

Каждый класс в свою очередь делится на 10 (или менее) подклассов. Подклассы делятся дальше и дальше до любого необходимого уровня подробности. Обычны, например, классы девятого уровня деления, отражающие важные прикладные проблемы — квантовую электронику, защиту техники от коррозии и тому подобное.

Каждое деление обозначается десятичной цифрой, а цифры последовательных делений соединяются в одном индексе, где первая цифра обозначает номер деления на главные классы, вторая — номер подкласса первого уровня, третья — подкласс второго уровня, и так далее. Для облегчения зрительного восприятия индекса через каждые три цифры ставится точка.

Пример. Тема «Нарушения налогового законодательства» имеет индекс УДК 336.225.682, где мы можем видеть следующую последовательность делений, постепенно уточняющих нашу тему:

3 — первая цифра индекса обозначает — общественно-экономические науки
33 — Экономические науки
336 — Финансы. Банковское дело. Деньги и денежное обращение
336.2 — Налоги, платежи, отчисления и сборы
336.22 — Налоги и сборы
336.225 — Методы налогообложения и налоговая администрация
336.225.6 — Механизм налогообложения
336.225.68 — Нарушения налогового законодательства и регулирования
336.225.682 — Нарушения налогового законодательства.

Полная расшифровка всех индексов УДК занимает 10 томов средней величины (по 30 авторских листов, что составляет около 200 страниц). Современным пользователям информацию по классификатору УДК можно получить из сети Интернет (например, по адресу: http://teacode.com/online/udc/).

Кроме тематической характеристики УДК позволяет отразить в индексе некоторые дополнительные особенности документа или его содержания. Для этого в индекс добавляют определители этих особенностей, обозначенные специальными символами:

= - язык документа (=111 английский, =161.1 русский).

(=) — народ, к которому относится содержание документа: (=111) англоязычное население, (=161.1) русскоязычное население
(0) — форма, назначение документа (закон, учебник, справочник, работа по истории предмета или что-либо другое в этом духе)
({4.9}…) — страна, к которой относится содержание документа: (4) Европа, (470) Россия в целом, (5) Азия, (571) Сибирь и Дальний Восток России

" «- время, к которому относится содержание документа: «2005» нынешний год, «20» двадцать первый век, «19» двадцатый век.

-0 — свойство основного предмета документа
0, -1/9, `1/9 — специальные определители, значение которых раскрывается в таблицах применительно к каждому конкретному разделу.

Кроме того, допускается комбинировать разные классы для указания на документы, имеющие отношения к различным отраслям знания. Так что конкретный индекс УДК может иметь весьма сложную структуру.

Например:

[343.95+340.53](470)(091)=111 — работа по истории судебной психиатрии и судебной медицине России на английском языке, где 343.95 — судебная медицина;

340.53 — судебная психиатрия;
(470) — Россия;
(091) — история предмета;

=111 — английский язык.

Таким образом, характеристика документа индексом УДК читается и составляется действительно как языковое высказывание, в котором отдельные смысловые элементы (слова) при помощи вспомогательных знаков (препинания) по определённым правилам соединяются в единое целое, и число таких целых высказываний потенциально не ограничено.

Недостатком как перечислительной, так и иерархической классификации является принципиальная невозможность заранее перечислить все темы, по которым существуют или могут существовать документы. Выход из таких ситуаций путем добавления к классификатору новых рубрик (классов, предметов) не может эффективно решить проблему, так как требует в таких случаях переиндексирования всего ранее накопленного документального фонда, что чаще всего невозможно по техническим и технологическим причинам.

Интересная методика классификации, которая частично позволяет снять указанное ограничение, была предложена выдающимся индийским библиографом и математиком Ш. Р. Ранганатаном и впоследствии развита в работах английской группы по исследованию классификаций (Classification Research Group). Эта методика получила название фасетной классификации.

Идея фасетной классификации состоит в том, что вся предметная область сведений разбивается на ряд исходных групп рубрик (фасет) по организационно-технологическому или семантическому принципу, отражающему специфику предметной области. Фасеты выступают в роли «кирпичиков», из которых можно сложить (сконструировать) любую, даже самую сложную и узкую предметную рубрику. Внутри фасет предметные рубрики строятся и упорядочиваются по алфавитно-иерархическому принципу. Примером может являться классификация фильмов, для которой обычно предлагаются следующие фасеты:

Тип — анимация, документальный, игровой;

Жанр — боевик, комедия, романтика, фантастика;

Продолжительность;

Год;

Страна;

Режиссер;

Другие параметры: немой/звуковой, цветной/чёрно-белый и т. п.

Основное достоинство фасетной классификации заключается в возможности ограниченным небольшим перечнем фасетных рубрик отразить (сконструировать) огромное количество узких специализированных рубрик и, тем самым, наиболее точно и полно проиндексировать содержание документов. Сильной стороной является также более глубокое, чем при иерархической классификации, использование семантики предметной области. Рядом исследователей предлагались универсальные фасетные классификации, на основе которых можно построить описание практически для любой предметной области. Например: «Индивидуальность», «Материя», «Энергия», «Пространство» и «Время» (Ш.Р. Ранганатан) или «Предмет в целом», «Вид», «Часть», «Материал», «Свойство», «Процессы», «Операции», «Факторы» (Д. Миллз). При этом в отличие от перечислительной и иерархической классификации для разработки фасетной классификации предметной области сведений конкретной ИПС используются те же методологические подходы, что и при разработке информационно-логических схем предметных областей фактографических систем (выделение основных фрагментов-сущностей, анализ отношений между ними и т. д.).

Недостатком фасетной классификации при ее использовании в ручных информационных системах является зависимость эффективности поиска документов от порядка следования обозначений фасетных рубрик. Психологические особенности ручного поиска таковы, что пользователь в первую очередь сосредоточивает внимание на обозначениях тех подрубрик, которые стоят первыми в цепочке, и если интересующие его в первую очередь сведения отражаются рубрикой, стоящей не на первом месте, то он может «с ходу» отвергнуть всю формулу. Для преодоления этого недостатка используется так называемая пермутация, при которой для документа приводится список всех возможных вариантов написания сконструированной фасетной формулы на основе циклической перестановки. Однако такой подход не всегда полностью решает проблему, так как комбинаций по перестановкам может быть очень много, что, в свою очередь, утяжеляет и усложняет поиск. Другим подходом является, напротив, жесткая регламентация порядка изложения фасет, что в определенной степени ориентирует первоначальное внимание пользователя на тех фасетах, информация по которым интересует его в большей степени.

Очевидно, развитие информационных технологий не могло не повлечь за собой попытки создать такие методы классификации документов, которые бы полностью или хотя бы частично освободили человека от этой работы. В современных автоматизированных системах процедуры рубрицирования выполняются частично вручную (интеллектуально), а частично автоматически с помощью специально разрабатываемого программного обеспечения. Обычно выделяют два основных подхода к автоматизации рубрицирования:

Методы рубрицирования, основанные на знаниях. В системах, реализующих данный подход, используются заранее сформированные базы знаний, в которых описываются языковые выражения, соответствующие той или иной рубрике, а также правила выбора между рубриками. Процесс создания подобных систем часто сравнивают с созданием экспертных систем для диагностики и классификации. Наибольшее распространение среди данных методов получили две модели представления знаний: модель семантической сети и продукционная модель.

Методы рубрицирования, основанные на обучении по примерам. В системах, реализующих данный подход, машинное обучение производится на основе примеров текстов, которые были заранее отрубрицированы экспертом вручную. Здесь следует обратить внимание на статистические и нейросетевые методы рубрицирования. Идея статистического рубрицирования состоит в определении степени соответствия терминологического портрета документа и терминологического портрета рубрик на основе статистических характеристик субъектов сравнения. Основой нейросетевых методов является использование нейронной сети в качестве обучаемого классификатора. В результате обучения нейронная сеть позволяет оценить, с какой степенью релевантности любой новый текст относится к заданной рубрики.

Следует отметить, что современные автоматизированные ДИПС, в которых реализованы методы автоматического или полуавтоматического рубрицирования, работают, как правило, не с традиционными классификационными системами, а с ИПЯ дескрипторного типа. В этом случае классификация проводится при помощи координатного индексирования, которое позволяет классифицировать каждый документ не по одному направлению, а одновременно с нескольких сторон, описывая его как набор терминов (дескрипторов), включенных в тезаурус языка.

Показать весь текст

Заполнить форму текущей работой