Программное обеспечение для исследования частотных характеристик и рангового корреляционного анализа текстов
В конфигурационном файле «config.cfg» содержится описание параметров необходимых для корректной работы программы «01_FrequencyDictionary.exe». Другими словами, файл содержит список частей речи, наборов частей речи, а также N-грамм, настраивая который можно строить частотные словари, состоящие как из определенных частей речи, так и из различных их комбинаций. Кроме того, в данном варианте… Читать ещё >
Программное обеспечение для исследования частотных характеристик и рангового корреляционного анализа текстов (реферат, курсовая, диплом, контрольная)
Для анализа и сопоставления литературных текстов были использованы базовые варианты программ под названием «FrequencyDictionary» и «Spearman».
Составление частотных словарей
Для проведения частотного анализа литературных текстов и составления частотных словарей поэтов была использована программа «FrequencyDictionary», которая включает в себя исполняемый файл «01_FrequencyDictionary.exe», а также вспомогательные файлы: «ru_dict.bin» — словарь русского языка и «config.cfg» — конфигурационный файл модуля построения словарей.
Для построения частотного словаря исследуемый текст (исходные данные) должен находиться в кодировке UTF-8 и иметь расширение «.txt». Его название будет соответствовать названию будущего частотного словаря.
В конфигурационном файле «config.cfg» содержится описание параметров необходимых для корректной работы программы «01_FrequencyDictionary.exe». Другими словами, файл содержит список частей речи, наборов частей речи, а также N-грамм, настраивая который можно строить частотные словари, состоящие как из определенных частей речи, так и из различных их комбинаций. Кроме того, в данном варианте программы возможно построение частотных словарей для именных групп, глагольных групп и N-грамм, где N=1, …, 8. Для того, чтобы построить частотный словарь с необходимым набором признаков, то есть словарь, содержащий только слова определенных частей речи, необходимо при настройке параметров конфигурационного файла поставит значение 1 напротив тех типов признаков, которые будут включены, и соответственно 0 — напротив тех типов признаков, которые не должны быть включены в частотный словарь.
В настоящее время программа «FrequencyDictionary» построения частотных словарей способна обрабатывать языки, основанные на кириллице. При необходимости ее также можно модифицировать для работы с языками, основанными на латинице.
В результате работы программы создаются частотные словари в формате «dictionary_.txt». Количество созданных словарей соответствует количеству входных файлов. На выходе программы составленный частотный словарь содержит только те признаки, которые были отмечены в конфигурационном файле.
Отдельно следует отметить, что с помощью программы «CreateBarChart» в виде исполняемого файла «CreateBarChart.exe» построенные частотные словари возможно представить в виде столбчатой диаграммы. Говоря точнее, по каждому из словарей автоматически строится гистограмма, отражающая частоту встречаемости каждой словоформы из словаря в тексте. Это позволяет визуализировать словари для удобства их дальнейшего анализа. На гистограмме отображаются первые 30 наиболее частотных слов по той причине, что, согласно мнению многих ученых-лингвистов, именно такого количества слов достаточно для проведения полноценного анализа исследуемого текста. В результате выполнения программы «CreateBarChart» создаются файлы с расширением «.xls», в которых будут представлены графики соответствующих частотных словарей.