Реализация метода извлечения

РефератПомощь в написанииУзнать стоимостьмоей работы

Реализация метода извлечения (реферат, курсовая, диплом, контрольная)

Один из вариантов реализации автоматизированной системы извлечения информации заключается в написании отдельных посредников для каждого источника информации. Именно такой вариант был первоначально реализован и внедрен в Аппарате Совета Федерации Федерального Собрания Российской Федерации для сбора новостной информации из разнородных источников в информационной системе «Обзор СМИ», разработанной НПЦ «ИНТЕЛТЕК ПЛЮС» [15]. Примерно такие же принципы заложены в аналогичных системах, используемых некоторыми органами государственной власти России, разработанных другими компаниями. При таком способе реализации для каждого новостного источника приходится создавать отдельный скрипт-посредник, который обеспечивает сбор новостей.

В качестве дальнейшего развития системы извлечения было предложено создание универсальной программы (скрипта-посредника), который мог бы обрабатывать любой новостной источник.

Для решения данной задачи предполагается следующее:

1) Разделить систему на настроечную и выполняемую части. При этом создается отдельный XML-файл, описывающий как структуру новостных данных, так и схему их верстки, характерные для каждого источника (заголовок новости, аннотация, дата, время и др.) и единая программа-скрипт, использующая при сборе новостей данный описатель.
2) Создать визуальный редактор, который позволит специалисту без специальной подготовки (не программисту), отметить на сайте необходимый ему блок информации и реквизиты, содержащиеся в этом блоке. Основным результатом работы этого визуального редактора является управление настроечным файлом.

Можно выделить основные этапы настройки системы извлечения на новый Интернет-источник:

· в редакторе после загрузки HTML-страницы источника новостей пользователь выделяет новостные сообщения и определяет их реквизиты: заголовок, аннотацию, дату, время;
· в результате разметки формируется путь к каждому из реквизитов новости, а также, составленный на языке обработки XML-данных — XPath. При этом результат разметки визуально можно наблюдать в редакторе (изменяется цвет фона области сайта, содержащий новостные сообщения);
· данные заносятся в настроечный файл. Пользователь может проверить правильность настроек;
· создается (автоматически после выполнения пользователем соответствующей команды в редакторе) универсальный скрипт, который на основании настроечного файла соберет новости и загрузит их в указанное место.

Таким образом, создается один XML-файл, который описывает настройки каждого источника новостей. При изменении верстки какого-либо источника пользователю не составит труда быстро внести в него изменения.

Ниже приведена функциональная схема системы извлечения данных (рисунок 2).

Рис. 2. Функциональная схема системы извлечения данных.

Необходимо добавить, что данный подход, на наш взгляд, представляет собой универсальное решение задачи извлечения информации из слабоструктурированных источников и в дальнейшем сможет обрабатывать любой источник, в котором человек при первоначальной настройке сможет выделить блоки и некоторый набор обязательных и необязательных реквизитов.

Предполагается, что таким же способом можно собирать любую информацию с WWW-ресурсов, меняться будет XML-файл и его описатель (DTD или XSD).

Предложенный подход был реализован в прототипе новой версии ранее упомянутой информационной системы «Обзор СМИ», который включает в свой состав средства извлечения данных и знаний из структурно разнородных источников, созданные на основе изложенного подхода. В прототипе реализованы несколько алгоритмов извлечения, выбор которых осуществляется пользователем исходя из того, насколько строго структурирован информационный ресурс. Имеется возможность выбрать строгий вариант извлечения, привязав извлекаемые реквизиты к определенному месту его положения на странице, так и сделать правила извлечения нечеткими, чтобы обеспечить извлечение нужной информации в случае небольших изменений в верстке страниц.

Система выполняет автоматическое регулярное считывание новостей из конкретных Интернет-источников и размещение этих новостей в локальное хранилище информации. В качестве локального хранилища информации может использоваться файловая система или база данных. В случае использования базы данных в качестве локального хранилища информации, система выполняет систематизацию новостей и предоставляет пользователям средства для контроля и коррекции проведенной систематизации, а также средства по формированию обзоров новостных сообщений.

Данные проектируемой системы представляют собой XML-карточки, содержащие основные реквизиты документа, документы с текстом сообщения, служебные файлы описателя и журнала событий.

Перед началом работы система должна быть настроена администратором. Администратор с помощью подсистемы визуальной разметки производит настройку на конкретные источники информации. В результате действий администратора происходит создание XML-файла описателя.

Подсистема первичной обработки приводит полученную информацию к формату, необходимому для загрузки в базу. В процессе обработки формируется XML-файл, содержащий информацию о реквизитах новости, и файл с текстом новости в формате html или doc. Если текст новости представлен в виде архива (zip, rar, arj, tar), то файл предварительно разархивируется и проверяется на соответствие допустимым форматам: html или doc. Для обеспечения безопасности, данная подсистема имеет возможность пересылки данных через FTP-сервер из незащищенной сети в защищенную. Далее следует загрузка данных в базу. На этом заканчивается первичная обработка и управление передается ИПС «ODB-text».

Процесс сбора данных осуществляется модулем сбора данных в автономном режиме по установленному расписанию. Для этого используется описатель, созданный администратором на этапе настройки. Данные о считанных документах и результате выполнения процесса фиксируются в журнале событий. В основу алгоритма работы модуля сбора данных положена двухуровневая схема доступа к данным.

При разработке прототипа системы использовались языки Jscript для реализации визуальной разметки источника и создания описателя, а также Perl для выполнения автоматического извлечения данных и их первичной обработки.

Показать весь текст

Заполнить форму текущей работой

Другие работы

Разница между rom и dram

RAM — это область памяти для запуска (выполнения) программ. Когда вы включаете КПК, программы из ROM загружаются в RAM, где они и будут выполняться. Например, при прослушивании музыки, небольшой фрагмент композиции сначала загружается из ROM в RAM для воспроизведения. Затем этот фрагмент освобождает место для следующего. Когда вы читаете электронное письмо, его текст загружается из ROM в RAM…

Реферат