Заказать курсовые, контрольные, рефераты...
Образовательные работы на заказ. Недорого!

Алгоритм сентиментного анализа твиттов

РефератПомощь в написанииУзнать стоимостьмоей работы

В связи с тем, что данные по частотам могут быть сколь угодно большие числа и в каждый момент времени их количество может сильно отличатся, после подсчета частот, происходи их нормализация по формуле: Mon May 18 00:34:23 +0000 2015″ @maryxcr she’s probably gonna lip synch poorly or something like there’s no point of her being there unless 5h comes& sings like mariah lmao. Mon May 18 00:34:23… Читать ещё >

Алгоритм сентиментного анализа твиттов (реферат, курсовая, диплом, контрольная)

Алгоритм сентиментного анализа на основе составленного словаря DCE был написан на языке С. Из текстового входного файла программой считываются данные по твиттам, которые ранее были загружены с помощью Twitter API.

Напомним, что данные входного файла выглядят следующим образом:

Mon May 18 00:34:23 +0000 2015″ I need you so bad, my love you drive me madud83cudfb6.

Mon May 18 00:34:23 +0000 2015″ RT @VibeMagazine: .@MeekMill drops visuals for 'Energy (Freestyle)' feat. cameos from @DeJLoaf & @NICKIMINAJ: http://t.co/3CcEdunxRX http:/u2026.

Mon May 18 00:34:23 +0000 2015″ @D1Kid_ thank youu263aufe0f.

Mon May 18 00:34:23 +0000 2015″ RT @WW_1Dupdates: Harry on the red carpet ud83dude0du2764ufe0f http://t.co/l9yjgaxCA7.

Mon May 18 00:34:23 +0000 2015″ RT @HisAndHers: The struggle is real for Clippers fans… #PlaylistForClippers http://t.co/FEd33QZa9M.

Mon May 18 00:34:23 +0000 2015″ DOES ANYONE HAVE LIVESTREAM LINKS??? #BBMA2015 #BBMAs.

Mon May 18 00:34:23 +0000 2015″ RT @harrykilos: THEIR FSCES WHEN LIAM WAS THANKING Z THOUGH ud83dudc40ud83dude29ud83dudd2bud83dudc80 http://t.co/bKBPvgNGnC.

Mon May 18 00:34:23 +0000 2015″ I’ve already been drinking so who wants to bring me Chinese & beer? I’ll buy.

Mon May 18 00:34:23 +0000 2015″ RT @Iirryisreal: but seriously liam is very mature and he always handles things like an adult and I’m glad I stan him.

Mon May 18 00:34:23 +0000 2015″ RT @clairemaree64: you’re welcome for those legs @Zendaya ud83dude1dud83dudc4fud83dudc4fud83dudc4fud83dudc4f http://t.co/YFFTRqUN64.

Mon May 18 00:34:23 +0000 2015″ @maryxcr she’s probably gonna lip synch poorly or something like there’s no point of her being there unless 5h comes& sings like mariah lmao.

Mon May 18 00:34:23 +0000 2015″ RT @Jaureguable: This fandom trying to figure out what’s going on with Fifth Harmony at the BBMAs. http://t.co/RN9eVUp7C5.

Таким образом, каждая строка в файле соответствует одному твитту и содержит информацию по дате и времени публикации, а также само сообщение. Такое представление информации позволяет анализировать данные за любой желаемый промежуток времени.

Подробный код программы описан в Приложении 2.

Касательно алгоритма работы, программа поочередно считывает по одной строке из входного файла и производит анализ сообщения. Происходит поиск в сообщении слов из DCE, если слово найдено, то частота, соответствующая определенной эмоции увеличивается на 1.

В связи с тем, что данные по частотам могут быть сколь угодно большие числа и в каждый момент времени их количество может сильно отличатся, после подсчета частот, происходи их нормализация по формуле:

Алгоритм сентиментного анализа твиттов.

где.

Алгоритм сентиментного анализа твиттов.
Алгоритм сентиментного анализа твиттов.

Таким образом, результатом работы программы является вектор частот по каждой из эмоций для каждого заданного интервала времени. В нашем случае данные анализировались за каждый час, поэтому для каждого часа в выходном текстовом файле программа записывала частоты и относительные частоты для каждого часа.

Результаты работы программы записывались в файл в следующем виде:

Fri May 29.

time: 04.

frequencies: 1014 204 672 3403 145 179 782 3581.

normalized_frequencies: 0.101 603 0.20 441 0.67 335 0.340 982 0.14 529 0.17 936 0.78 357 0.358 818.

time: 05.

frequencies: 953 189 695 3455 113 192 833 3564.

normalized_frequencies: 0.95 357 0.18 911 0.69 542 0.345 707 0.11 307 0.19 212 0.83 350 0.356 614.

time: 06.

frequencies: 253 43 177 916 36 52 229 992.

normalized_frequencies: 0.93 773 0.15 938 0.65 604 0.339 511 0.13 343 0.19 274 0.84 878 0.367 680.

time: 13.

frequencies: 1 1 0 20 1 0 2 28.

normalized_frequencies: 0.18 868 0.18 868 0.0 0.377 358 0.18 868 0.0 0.37 736 0.528 302.

time: 15.

frequencies: 7 1 5 32 5 0 11 43.

Показать весь текст
Заполнить форму текущей работой