КОРРЕЛЯЦИЯ И РЕГРЕССИЯ
Всем хорошо известна функциональная зависимость между числовыми множествами (рядами). Напомним её определение применительно к числовым рядам.
Между числовыми рядами Х и Y существует функциональная зависимость, если каждому значению величины Х ставится в соответствие единственное, строго определённое значение величины Y: y=f(x).
Функциональная зависимость может задаваться описательно, таблично, графически, аналитически.
Между тем, математический аппарат может быть использован для описания зависимостей, связанных между собой не только функционально, но и статистически, то есть, имеющих тенденцию зависимости, но без её строгой детерминации. Мы ограничимся здесь частным случаем статистической зависимости – корреляционной зависимостью.
Корреляционной называется зависимость между величинами Х и Y, если изменение одной величины влечёт за собой изменение математического ожидания другой величины.
Пример . Пары величин, связанные корреляционной зависимостью:
1. Масса и рост тела человека.
2. Количество внесённых удобрений и урожайность.
3. Верхнее и нижнее артериальное давление.
4. Влажность воздуха и атмосферное давление.
Естественно, что не каждая статистическая зависимость является корреляционной.
Корреляционную зависимость можно описать с помощью уравнения вида:
М(Yx)=f(x), которое называется уравнением регрессии Y на Х
Здесь М(Yx) – условное математическое ожидание величины Y, соответствующее данному значению Х; х – отдельное значение величины Х; f(x) – некоторая функция, наиболее точно описывающая влияние значений ряда X на значения ряда Y. Уравнение регрессии показывает, на сколько будет изменяться математическое ожидание ряда Y при изменении значения варианты ряда X на единицу.
Обратную корреляционную зависимость можно описать уравнением регрессии Х на Y (существует не всегда): M(Хy)=j(y)
Графики функций регрессии f(x) и j(y) называются линиями регрессии. В зависимости от вида уравнения они могут быть линейными, степенными, показательными и так далее.
Если функции f(x) и j(y) линейны, то уравнения регрессии можно представить в виде: М(Yx)=Ax+B и М(Хy)=Сy+D
Линиями регрессии при этом являются прямые линии.
При достаточно большом числе значений величин Х и Y их математические ожидания можно заменить соответствующими средними арифметическими значениями:
Наличие корреляционной зависимости между изучаемыми параметрами X и Y определяется вычислением коэффициента парной корреляции rxy:
– корреляционный момент, а σx, σy – средние квадратические отклонения рядов X и Y.
Основные свойства коэффициента корреляции:
1.Коэффициент корреляции двух независимых величин равен нулю (то есть, если rxy=0, то корреляционная зависимость между рядами X и Y отсутствует).
2. Коэффициент корреляции двух величин, связанных линейной функцией, равен ±1 («+», если прямая (возрастающая), а «-», если обратная (убывающая) зависимость).
3. Абсолютная величина коэффициента корреляции не превышает единицы: -1£rxy£1
4. Корреляционную зависимость различают по величине коэффициента корреляции:
- rxy>0 – корреляция прямая, то есть увеличение значений признака Х влечёт за собой увеличение значений признака Y;
- rxy<0 – корреляция обратная;
- 0£½rxy½£0,4 – слабая;
- 0,4<½rxy½£0,7 – средняя;
- 0,7<½rxy½£1 – тесная.
На практике обычно имеют дело с ограниченным объёмом выборок изучаемых величин Х и Y, получаемых в результате независимых испытаний:
(х1; у1); (х2; у2); (х3; у3); …; (хn; yn).
1. Первым этапом статистической обработки результатов с целью определения наличия и вида корреляционной зависимости является составление корреляционной таблицы.
Корреляционная таблица содержит всю информацию, полученную в результате выборочных наблюдений величин Х и Y.
Для малых выборок (n<30) одинакового объёма расчётная корреляционная таблица может иметь следующий вид:
2. Далее, по исходной таблице вычисляем промежуточные величины (средние арифметические значения, средние квадратические отклонения случайных величин и их корреляционный момент), необходимые для исследования вида зависимости и нахождения функций регрессии.
Проверяя гипотезу существования связи между рядами Х и Y, определяем значение выборочного коэффициента линейной корреляции:
4.По знаку и величине коэффициента корреляции оцениваем наличие, тесноту и характер корреляционной связи.
5. Для оценки достоверности коэффициента корреляции определяют его погрешность:
Для того, чтобы убедиться, что коэффициент корреляции, вычисленный по данным выборочного исследования, будет соответствовать размеру связи в генеральной совокупности, необходимо определить по таблице критических значений Стьюдента (табл.1) значение критерия tКРИТ для числа степеней свободы f=n-2 и выбранной доверительной вероятности (выбранного уровня значимости α).
Тогда:
- если tЭКСП³tКРИТ, то при принятой вероятности делают вывод о значимости коэффициента корреляции;
- если tЭКСП<tКРИТ, то такой вывод сделать нельзя.
Найденный коэффициент корреляции указывает лишь на направление и тесноту связи между двумя переменными величинами, но не даёт возможности судить о том, как количественно меняются величины одного признака по мере изменения величины другого признака. Ответ на этот вопрос даёт применение метода регрессии.
Найденный коэффициент корреляции указывает лишь на направление и тесноту связи между двумя переменными величинами, но не даёт возможности судить о том, как количественно меняются величины одного признака по мере изменения величины другого признака. Ответ на этот вопрос даёт применение метода регрессии.
Регрессия – это функция, позволяющая по величине одного коррелирующего признака определить средние величины другого признака.
С помощью регрессии решается задача: как количественно меняется одна величина при изменении другой величины на единицу.
Функция регрессии может иметь любой вид (линейная, степенная, показательная) и методы регрессионного анализа позволяют отыскать внешний вид этой функции.
Подробнее познакомимся с линейной регрессией.
Между коэффициентом корреляции rxy, числовыми характеристиками выборок и коэффициентами уравнения линейной регрессии существует определённая связь.
Имея частные решения уравнений линейной регрессии, можно построить их графики: (рис. 1).
Линии регрессии пересекаются в точке (X,Y) , при этом tga=A.
Ориентировочно о силе корреляционной зависимости можно судить по корреляционному полю (рис. 2).
Корреляционное поле представляет собой множество точек с координатами (хi; yi):
Чем больше разброс точек (рис. 2а), тем слабее зависимость, и наоборот, если точки группируются вдоль некоторой линии (рис. 2б), то зависимость тесная и можно приближённо судить не только о силе, но и даже о виде функции регрессии.