Заказать курсовые, контрольные, рефераты...
Образовательные работы на заказ. Недорого!

Формальное представление статьи

РефератПомощь в написанииУзнать стоимостьмоей работы

Если имеются индикаторы начала первой главы в статье, как правило, это слова «Введение» или «Introduction», то часть текста до строки с этим индикатором отделяется как шапка. Существует набор маркеров, однозначно определяющих начало списка литературы: «Источники», «Список использованной литературы», «References» и др. Если имеются маркеры ключевых слов, такие как «Ключевые слова» или «Keywords… Читать ещё >

Формальное представление статьи (реферат, курсовая, диплом, контрольная)

Как уже упоминалось выше, всякое поле в цитате представлено своим значением, по этой причине цитату можно описать набором пар «атрибут — значение». Сама же обрабатываемая статья (см. Рис.1) содержит не только поля, она еще несет в себе набор отношений «ссылается на», связывающих ее с цитатами.

Формальное представление статьи.

Рис. 1. Формальное представление статьи

Обработка текста статьи

Обработку текста статьи можно разделить на несколько этапов:

Выделение вводной части текста, содержащей название статьи, ее авторов, ключевые слова и аннотацию.

Определение основной информации о статье по ее вводной части.

Выделение списка цитированной литературы из текста статьи.

Разбор списка, полученного в п. 3 на отдельные цитаты.

Синтаксический разбор каждой из цитат, полученных в п. 4.

Выделение вводной части текста статьи (далее шапки) производится на основе следующих посылов:

Предполагается, что вся основная информация о статье находится в ее первых строках.

Ключевые слова и аннотация находятся после авторов и названия.

На основе этих предположений были построены следующие методы отделения вводной значимой части текста:

Если имеются индикаторы начала первой главы в статье, как правило, это слова «Введение» или «Introduction», то часть текста до строки с этим индикатором отделяется как шапка.

Если имеются маркеры ключевых слов, такие как «Ключевые слова» или «Keywords», то часть текста, включая эту строку, считается шапкой.

В ходе изучения представительного множества научных статей, были выявлены конструкции-индикаторы для определения аннотации: как стандартные («Аннотация» или «Abstract»), так и используемые в определенной форме словосочетания, например, «статья содержит», «в работе рассматривается» и др. Здесь выделение шапки происходит аналогично п. 2.

Пользуясь набором примитивных шаблонов для определения автора статьи, как например, «Фамилия И.О.» или «Фамилия Имя О.», можно определить строки, содержащие имена авторов.

В случае, если ни один из предложенных методов не отделяет шапку, то предполагается, что-либо это не текст статьи, либо оформленная не по стандарту статья. Отделение начальной части в таком случае нужно сделать вручную. Дальнейшие шаги обработки текста будут продолжены, поскольку список литературы все равно может присутствовать в тексте.

После того, как шапка отделена, при помощи тех же шаблонов и маркеров происходит определение основных данных о статье.

Значимая часть текста со списком цитируемой литературы (далее хвост), как правило, находится в конце статьи, за исключением случая, когда статья содержит приложения, помещаемые после списка литературы. По этой причине выделение списка литературы разбивается на два этапа: отделение «сверху», т. е. нахождение первой строки списка, и отделение «снизу» — последней строки.

Выполнение отделения «сверху» — задача сравнительно более простая, чем отделение «снизу», ввиду того, что имеется ряд характерных признаков, по которым можно отыскать первую строку списка:

Существует набор маркеров, однозначно определяющих начало списка литературы: «Источники», «Список использованной литературы», «References» и др.

Список литературы

обычно содержит очень много конструкций, подходящих под поле «автор», например, «Фамилия И.О.».

В случае, если подобные методы не отделяют никакой список литературы, делается вывод, что его либо нет, либо имеются серьезные ошибки в его описании. В последнем случае применяется ручное отделение «хвоста».

Отделение «снизу» применяется уже к отделенной «сверху» части текста и проводится на основе следующих эвристических признаков — список литературы заканчивается, если выполнено одно из условий:

Если в списке имеется нумерация, тогда список отделяется однозначно.

Нашлись две подряд идущих «пустых» строки (предполагается, что цитаты идут одна за другой).

Если «пустых» строк нет, значит, вся отделенная «сверху» часть является списком цитат.

После выделения списка литературы из текста его необходимо разделить на отдельные цитаты. В работе [Захарова, 2003] был предложен метод поиска начала цитаты по шаблону, но этого, как показывают и практика, и многочисленные правила оформления библиографических ссылок, недостаточно.

Поэтому в дополнение к этому методу используются следующие методы разделения списка литературы на отдельные цитаты:

Разделение цитат на основе нумерации (это основной метод, так как большинство списков литературы нумеруется). При этом ведется счетчик цитат, что позволяет свести ошибки к минимуму.

Определение начала цитаты по комбинации полей «Фамилии авторов» + «год». В некоторых статьях библиографические ссылки именуются с помощью этой комбинации, например, «Guarino, 1998». Поэтому такое сочетание может служить основанием для определения начала цитаты.

Если строка начинается с комбинации слов, соответствующей полю «автор», то эта комбинация отбирается как начало ссылки.

Как показали эксперименты, этих методов достаточно для успешного отделения шапки и хвоста приблизительно у 95% статей.

Показать весь текст
Заполнить форму текущей работой