Разработка формата семантико-морфологического словаря
Рис. 9. Формат семантико-морфологического словаря. Сочетаемость с грамматическими модификаторами; Решение проблемы омонимии (многозначности слов); Рис. 10 Поиск зависимого слова существительным. Синтаксическая и семантическая модель; Перевод на русский и английский языки; Таблица 6 — Этапы составления словаря. Стандартная сочетаемость; Орфографические варианты; Написание в полной форме… Читать ещё >
Разработка формата семантико-морфологического словаря (реферат, курсовая, диплом, контрольная)
В рамках настоящего исследования необходимо разработать формат семантико-морфологического словаря.
С учетом имеющихся недостатков существующих словарей, мы считаем, что требуется новая структура семантико-морфологического словаря. За основу будет взять стандартный словарь. При этом главными задачами выступали преобразование содержательной части с учетом особенностей использования разрабатываемого словаря и формальная организация словаря с учетом потребностей адресата.
Данный словарь является двуязычным электронным словарем, предназначенным для анализа простых английских предложений.
Рассмотрим основные этапы составления такого словаря.
Таблица 6 — Этапы составления словаря.
Разрабатываемый словарь должен выполнять следующие функции:
- 1) решение проблемы омонимии (многозначности слов);
- 2) обеспечение описания семантических и морфологических характеристик каждого слова;
- 3) хранение признак для согласования слов в простом английском предложении, лица;
- 4) обеспечение наиболее простой трансформации списка толкований слов исходного предложения.
Лексикографическая статья в данном словаре должна обладать максимум лексико-семантической и синтаксической информацией, которая будет релевантна для будущих задач автоматической обработки простых предложений. Для каждого лексикографических типов должна указываться следующая информация:
- — транскрипция;
- — написание в полной форме;
- — орфографические варианты;
- — перевод на русский и английский языки;
- — толкование;
- — синтаксическая и семантическая модель;
- — сочетаемость с грамматическими модификаторами;
- — возможность употребления в различных синтаксических позициях;
- — стандартная сочетаемость;
- — синонимы.
Данный словарь будет состоять из описания вышеуказанной информации (рис. 9). В капсулу с описанием морфологических свойств толкования лексемы (падеж, род, число и т. п.) предлагается разместить вышеуказанную информацию. В информационную капсулу (далее — ИК) Капсула — это совокупность информационных пар, служащих для описания определенного объекта (с помощью капсулы обеспечивается абстракция данных). Каждая ИП, входящая в капсулу, задает один из критериев описываемого объекта. описания слова будет помещаться информационная пара (далее — ИП) Информационная пара (ИП) (атрибутированные данные) — совокупность нагрузки (данных или ссылки на данные), и ярлыка (атрибута/уникального идентификатора), описывающего нагрузку. Указатель, хранящийся в нагрузке ИП, может ссылаться наинформационные конструкции любой сложности (переменные, массивы, списки, другие ИП и т. д.). Тип данных, помещенных в нагрузке, определяется по ярлыку ИП. словоформы. В ИК с описанием указанной информации будут помещаться ИП с описанием морфологических свойств толкования словоформы. Для согласования словоформ в описание толкования словоформы добавим ИП со ссылкой на список согласований, который обеспечит автоматическое согласование. Каждая ИП будет состоять из двух линий: в первой хранятся признаки синтаксического согласования, во второй — признака семантического согласования.
Рис. 9. Формат семантико-морфологического словаря
Описания всех словоформ, которые присутствуют в списке толкований слов исходного текста будут скопированы в список слов исходного текста.
Ниже представлен пример поиска слов, зависимых от главного слова, словарем (рис. 10).
Рис. 10 Поиск зависимого слова существительным