Вычисление коэффициента линейной корреляции Пирсона
Критерий корреляции Пирсона используется, если измерения нормально распределены и нам необходимо сделать вывод о линейной зависимости между этими переменными. Если такая связь существует, то данный критерий позволяет также сделать вывод о тесноте линейной связи и о статистической значимости. Поскольку использование коэффициента линейной корреляции Пирсона предполагает использование данных… Читать ещё >
Вычисление коэффициента линейной корреляции Пирсона (реферат, курсовая, диплом, контрольная)
Критерий корреляции Пирсона используется, если измерения нормально распределены и нам необходимо сделать вывод о линейной зависимости между этими переменными. Если такая связь существует, то данный критерий позволяет также сделать вывод о тесноте линейной связи и о статистической значимости.
Расчет коэффициента корреляции Пирсона производится по формуле.
где dx = хх — М (х), dy = ух — М (у) — величины отклонения от среднего арифметического М (х) и М (у); хх — значения, принимаемые в выборке Х у{ — значения, принимаемые в выборке Y.
Для оценки тесноты, или силы, корреляционной связи обычно используют таблицу Чеддока[1] (табл. 7.13), которая позволяет дифференцировать тесноту этой связи.
Таблица 7.13
Оценка тесноты коэффициента линейной корреляции Пирсона гху
Абсолютное значение гх | Теснота (сила) корреляционной связи. |
Менее 0,3. | Слабая. |
От 0,3 до 0,5. | Умеренная. |
От 0,5 до 0,7. | Заметная. |
От 0,7 до 0,9. | Высокая. |
Более 0,9. | Весьма высокая. |
Оценка статистической значимости коэффициента корреляции гху осуществляется на основе следующего ^-критерия:
Поскольку использование коэффициента линейной корреляции Пирсона предполагает использование данных, подчиненных нормальному закону распределения, то для примера вычисления используем данные о количестве прибытия клиентов банка до и после рекламных акций, приведенные в параграфе 7.2.
Пример 7.6.
Выясним, существует ли линейная связь между прибытием клиентов в банк до и после рекламных акций (табл. 7.14).
Распределение частоты прибытий клиентов банка в минуту во время ланча до и после рекламных акций.
Таблица 7.14
Прибытия (количество человек в 1 мин). | Частота (повторение ситуации за педелю) до рекламных акций. | Частота (повторение ситуации за неделю) после рекламных акций. |
Всего. |
Решение
Сформулируем гипотезы:
Я0: взаимосвязь между признаками статистически незначима;
Я: взаимосвязь между признаками статистически значима.
Итак, используя данные, полученные для-критерия Стьюдента, мы знаем, что М (х) = 2,9 и М (у) = 3,19. Вычислим dx., dy. (табл. 7.15).
Таблица 7.15
Распределение величин отклонения dxd.
лг «I.
Прибытия (количество человек в 1 мин). | dr д1. | *т |
— 2,90. | — 3,19. | |
— 1,90. | — 2,19. | |
— 0,90. | — 1,19. | |
0,10. | — 0,19. | |
1,10. | 0,82. | |
2,10. | 1,82. | |
3,10. | 2,82. | |
4,10. | 3,82. | |
5,10. | 4,82. | |
6,10. | 5,82. |
Каждое значение отклонения возведем в квадрат и найдем для каждой пары отклонений их произведение dx.dy. (табл. 7.16).
Таблица 7.16
Распределение квадратов и произведения величин отклонения dr.y d.
л1 ift
Л>н | dl | dxdyi | ||
— 2,90. | — 3,19. | 8,41. | 10,18. | 9,25. |
— 1,90. | — 2,19. | 3,61. | 4,80. | 4,16. |
— 0,90. | — 1,19. | 0,81. | 1,42. | 1,07. |
0,10. | — 0,19. | 0,01. | 0,04. | — 0,02. |
1,10. | 0,82. | 1,21. | 0,66. | 0,89. |
2,10. | 1,82. | 4,41. | 3,28. | 3,80. |
3,10. | 2,82. | 9,61. | 7,90. | 8,71. |
4,10. | 3,82. | 16,81. | 14,52. | 15,62. |
5,10. | 4,82. | 26,01. | 23,14. | 24,53. |
6,10. | 5,82. | 37,21. | 33,76. | 35,44. |
п п
Определим значения сумм квадратов отклонений: =108,1; =99,66.
i=l 1 i=1 1
п
Найдем значение суммы произведений отклонений: ^dx.dy. =103,46.
i=i.
Найдем значение коэффициента линейной корреляции Пирсона гхуу используя формулу (7.5):
Оценивая статистическую значимость коэффициента корреляции гху по формуле.
. 0,99л/200−2 АО«г
(7.6), получаем t =—, =- ~ 98,7э.
Vl-(0,99)2.
Интерпретация данного критерия предполагает, что:
- • если tr > ?крнт, корреляция достоверно отличается от 0, т. е. взаимосвязь между признаками статистически значима;
- • если tr < ?крит, корреляция недостоверно отличается от 0, т. е. взаимосвязь между признаками отсутствует.
Для определения ?крнтпри определенном уровне значимости используются специальные таблицы (см. приложение, табл. П.13).
Если выбрать уровень значимости 0,001, то ?крнт = 0,231. Следовательно, tr > ?крит, данная корреляционная связь является статистически значимой (р < 0,001), гипотеза #0 не подтвердилась.
Таким образом, значение коэффициента корреляции Пирсона составило 0,99, что соответствует о весьма высокой тесноте связи между прибытием клиентов в банк до и после рекламных акций.
Условия использования коэффициента линейной корреляции Пирсона следующие.
- 1. Сопоставляемые показатели измерены в количественной шкале.
- 2. Сравниваются только две случайные величины. В случае анализа взаимосвязи трех и более величин используется метод факторного анализа, который не является предметом рассмотрения данного издания.
- 3. Полученные измерения показателей нормально распределены. В противном случае используется коэффициент ранговой корреляции Спирмена (см. ниже).
- [1] Роберт Чеддок (Robert Emmet Chaddock, 1879—1940) — американский статистик.