Корреляция и регрессия. Решения задач: линейная регрессия и коэффициент корреляции
Линия регрессии является графическим отражением взаимосвязи между явлениями. Очень наглядно можно построить линию регрессии в программе Excel.
Для этого необходимо:
1.Открыть программу Excel
2.Создать столбцы с данными. В нашем примере мы будем строить линию регрессии, или взаимосвязи, между агрессивностью и неуверенностью в себе у детей-первоклассников. В эксперименте участвовали 30 детей, данные представлены в таблице эксель:
1 столбик — № испытуемого
2 столбик — агрессивность в баллах
3 столбик — неуверенность в себе в баллах
3.Затем необходимо выделить оба столбика (без названия столбика), нажать вкладку вставка , выбрать точечная , а из предложенных макетов выбрать самый первый точечная с маркерами .
4.Итак у нас получилась заготовка для линии регрессии — так называемая — диаграмма рассеяния . Для перехода к линии регрессии нужно щёлкнуть на получившийся рисунок, нажать вкладку конструктор, найти на панели макеты диаграмм и выбрать Ма кет9 , на нем ещё написано f(x)
5.Итак, у нас получилась линия регрессии. На графике также указано её уравнение и квадрат коэффициента корреляции
6.Осталось добавить название графика, название осей. Также по желанию можно убрать легенду, уменьшить количество горизонтальных линий сетки (вкладка макет , затем сетка ). Основные изменения и настройки производятся во вкладке Макет
Линия регрессии построена в MS Excel. Теперь её можно добавить в текст работы.
Иногда так бывает: задачу можно решить чуть ли не арифметически, а на ум прежде всего приходят всякие интегралы Лебега и функции Бесселя. Вот начинаешь обучать нейронную сеть, потом добавляешь еще парочку скрытых слоев, экспериментируешь с количеством нейронов, функциями активации, потом вспоминаешь о SVM и Random Forest и начинаешь все сначала. И все же, несмотря на прямо таки изобилие занимательных статистических методов обучения, линейная регрессия остается одним из популярных инструментов. И для этого есть свои предпосылки, не последнее месте среди которых занимает интуитивность в интерпретации модели.
Немного формул
В простейшем случае линейную модель можно представить так:Y i = a 0 + a 1 x i + ε i
Где a 0 - математическое ожидание зависимой переменной y i , когда переменная x i равна нулю; a 1 - ожидаемое изменение зависимой переменной y i при изменении x i на единицу (этот коэффициент подбирают таким образом, чтобы величина ½Σ(y i -ŷ i) 2 была минимальна - это так называемая «функция невязки»); ε i - случайная ошибка.
При этом коэффициенты a 1 и a 0 можно выразить через матан коэффициент корреляции Пирсона , стандартные отклонения и средние значения переменных x и y:
 1 = cor(y, x)σ y /σ x
 0 = ȳ - â 1 x̄
Диагностика и ошибки модели
Чтобы модель была корректной, необходимо выполнение условий Гаусса-Маркова , т.е. ошибки должны быть гомоскедастичны с нулевым математическим ожиданием. График остатков e i = y i - ŷ i помогает определить, насколько адекватна построенная модель (e i можно считать оценкой ε i).Посмотрим на график остатков в случае простой линейной зависимости y 1 ~ x (здесь и далее все примеры приводятся на языке R ):
Скрытый текст
set.seed(1)
n <- 100
x <- runif(n)
y1 <- x + rnorm(n, sd=.1)
fit1 <- lm(y1 ~ x)
par(mfrow=c(1, 2))
plot(x, y1, pch=21, col="black", bg="lightblue", cex=.9)
abline(fit1)
plot(x, resid(fit1), pch=21, col="black", bg="lightblue", cex=.9)
abline(h=0)
Остатки более-менее равномерно распределены относительно горизонтальной оси, что говорит об «отсутствие систематической связи между значениями случайного члена в любых двух наблюдениях». А теперь исследуем такой же график, но построенный для линейной модели, которая на самом деле не является линейной:
Скрытый текст
y2 <- log(x) + rnorm(n, sd=.1)
fit2 <- lm(y2 ~ x)
plot(x, y2, pch=21, col="black", bg="lightblue", cex=.9)
abline(fit2)
plot(x, resid(fit2), pch=21, col="black", bg="lightblue", cex=.9)
abline(h=0)
По графику y 2 ~ x вроде бы можно предположить линейную зависимость, но у остатков есть паттерн, а значит, чистая линейная регрессия тут не пройдет . А вот что на самом деле означает гетероскедастичность :
Скрытый текст
y3 <- x + rnorm(n, sd=.001*x)
fit3 <- lm(y3 ~ x)
plot(x, y3, pch=21, col="black", bg="lightblue", cex=.9)
abline(fit3)
plot(x, resid(fit3), pch=21, col="black", bg="lightblue", cex=.9)
abline(h=0)
Линейная модель с такими «раздувающимися» остатками не корректна. Еще иногда бывает полезно построить график квантилей остатков против квантилей, которые можно было бы ожидать при условии, что остатки нормально распределены:
Скрытый текст
qqnorm(resid(fit1))
qqline(resid(fit1))
qqnorm(resid(fit2))
qqline(resid(fit2))
На втором графике четко видно, что предположение о нормальности остатков можно отвергнуть (что опять таки говорит о некорректности модели). А еще бывают такие ситуации:
Скрытый текст
x4 <- c(9, x)
y4 <- c(3, x + rnorm(n, sd=.1))
fit4 <- lm(y4 ~ x4)
par(mfrow=c(1, 1))
plot(x4, y4, pch=21, col="black", bg="lightblue", cex=.9)
abline(fit4)
Это так называемый «выброс» , который может сильно исказить результаты и привести к ошибочным выводам. В R есть средства для его обнаружения - с помощью стандартизованой меры dfbetas и hat values :
> round(dfbetas(fit4), 3) (Intercept) x4 1 15.987 -26.342 2 -0.131 0.062 3 -0.049 0.017 4 0.083 0.000 5 0.023 0.037 6 -0.245 0.131 7 0.055 0.084 8 0.027 0.055 .....
> round(hatvalues(fit4), 3) 1 2 3 4 5 6 7 8 9 10... 0.810 0.012 0.011 0.010 0.013 0.014 0.013 0.014 0.010 0.010...
Как видно, первый член вектора x4 оказывает заметно большее влияние на параметры регрессионной модели, нежели остальные, являясь, таким образом, выбросом.
Выбор модели при множественной регрессии
Естественно, что при множественной регрессии возникает вопрос: стоит ли учитывать все переменные? С одной стороны, казалось бы, что стоит, т.к. любая переменная потенциально несет полезную информацию. Кроме того, увеличивая количество переменных, мы увеличиваем и R 2 (кстати, именно по этой причине эту меру нельзя считать надежной при оценке качества модели). С другой стороны, стоить помнить о таких вещах, как AIC и BIC , которые вводят штрафы за сложность модели. Абсолютное значение информационного критерия само по себе не имеет смысла, поэтому надо сравнивать эти значения у нескольких моделей: в нашем случае - с разным количеством переменных. Модель с минимальным значением информационного критерия будет наилучшей (хотя тут есть о чем поспорить).Рассмотрим датасет UScrime из библиотеки MASS:
library(MASS) data(UScrime) stepAIC(lm(y~., data=UScrime))
Модель с наименьшим значением AIC имеет следующие параметры:
Call: lm(formula = y ~ M + Ed + Po1 + M.F + U1 + U2 + Ineq + Prob, data = UScrime) Coefficients: (Intercept) M Ed Po1 M.F U1 U2 Ineq Prob -6426.101 9.332 18.012 10.265 2.234 -6.087 18.735 6.133 -3796.032
Таким образом, оптимальная модель с учетом AIC будет такой:
fit_aic <- lm(y ~ M + Ed + Po1 + M.F + U1 + U2 + Ineq + Prob, data=UScrime) summary(fit_aic)
... Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -6426.101 1194.611 -5.379 4.04e-06 *** M 9.332 3.350 2.786 0.00828 ** Ed 18.012 5.275 3.414 0.00153 ** Po1 10.265 1.552 6.613 8.26e-08 *** M.F 2.234 1.360 1.642 0.10874 U1 -6.087 3.339 -1.823 0.07622 . U2 18.735 7.248 2.585 0.01371 * Ineq 6.133 1.396 4.394 8.63e-05 *** Prob -3796.032 1490.646 -2.547 0.01505 * Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Если внимательно присмотреться, то окажется, что у переменных M.F и U1 довольно высокое значение p-value, что как бы намекает нам, что эти переменные не так уж и важны. Но p-value - довольно неоднозначная мера при оценки важности той или иной переменной для статистической модели. Наглядно этот факт демонстрирует пример:
data <- read.table("http://www4.stat.ncsu.edu/~stefanski/NSF_Supported/Hidden_Images/orly_owl_files/orly_owl_Lin_9p_5_flat.txt") fit <- lm(V1~. -1, data=data) summary(fit)$coef
Estimate Std. Error t value Pr(>|t|) V2 1.1912939 0.1401286 8.501431 3.325404e-17 V3 0.9354776 0.1271192 7.359057 2.568432e-13 V4 0.9311644 0.1240912 7.503873 8.816818e-14 V5 1.1644978 0.1385375 8.405652 7.370156e-17 V6 1.0613459 0.1317248 8.057300 1.242584e-15 V7 1.0092041 0.1287784 7.836752 7.021785e-15 V8 0.9307010 0.1219609 7.631143 3.391212e-14 V9 0.8624487 0.1198499 7.196073 8.362082e-13 V10 0.9763194 0.0879140 11.105393 6.027585e-28
p-values у каждой переменной - практически нуль, и можно предположить, что все переменные важны для этой линейной модели. Но на самом деле, если присмотреться к остаткам, выходит как-то так:
Скрытый текст
plot(predict(fit), resid(fit), pch=".")
И все же, альтернативный подход основывается на дисперсионном анализе , в котором значения p-value играют ключевую роль. Сравним модель без переменной M.F с моделью, построенной с учетом только AIС:
fit_aic0 <- update(fit_aic, ~ . - M.F) anova(fit_aic0, fit_aic)
Analysis of Variance Table Model 1: y ~ M + Ed + Po1 + U1 + U2 + Ineq + Prob Model 2: y ~ M + Ed + Po1 + M.F + U1 + U2 + Ineq + Prob Res.Df RSS Df Sum of Sq F Pr(>F) 1 39 1556227 2 38 1453068 1 103159 2.6978 0.1087
Учитывая P-значение, равное 0.1087, при уровне значимости α=0.05 мы можем сделать вывод, что нет статистически значимого свидетельства в пользу альтернативной гипотезы, т.е. в пользу модели с дополнительной переменной M.F.
х - называется предиктором - независимой или объясняющей переменной.
Для данной величины х, Y — значение переменной у (называемой зависимой, выходной переменной, или переменной отклика), которое расположено на линии оценки. Это есть значение, которое мы ожидаем для у (в среднем), если мы знаем величину х, и называется она «предсказанное значение у» (рис. 5).
а - свободный член (пересечение) линии оценки; это значение Y, когда х = 0.
b - угловой коэффициент или градиент оценённой линии; он представляет собой величину, на которую Y увеличивается в среднем, если мы увеличиваем х на одну единицу (рис. 5). Коэффициент b называют коэффициентом регрессии.
Например: при увеличении температуры тела человека на 1 о С, частота пульса увеличивается в среднем на 10 ударов в минуту.
Рисунок 5. Линия линейной регрессии, показывающая коэффициент а и угловой коэффициент b (величину возрастания Y при увеличении х на одну единицу)
Математически решение уравнения линейной регрессии сводится к вычислению параметров а и b таким образом, чтобы точки исходных данных корреляционного поля как можно ближе лежали к прямой регрессии .
Статистическое использование слова «регрессия» исходит из явления, известного как регрессия к среднему, приписываемого Френсису Гальтону (1889). Он показал, что, хотя высокие отцы имеют тенденцию иметь высоких сыновей, средний рост сыновей меньше, чем у их высоких отцов. Средний рост сыновей «регрессировал» или «двигался вспять» к среднему росту всех отцов в популяции. Таким образом, в среднем высокие отцы имеют более низких (но всё-таки высоких) сыновей, а низкие отцы имеют сыновей более высоких (но всё-таки довольно низких).
Мы наблюдаем регрессию к среднему при скрининге и клинических исследованиях, когда подгруппа пациентов может быть выбрана для лечения потому, что их уровни определённой переменной, скажем, холестерина, крайне высоки (или низки). Если это измерение через некоторое время повторяется, средняя величина второго считывания для подгруппы обычно меньше, чем при первом считывании, имея тенденцию (т.е. регрессируя) к среднему, подобранному по возрасту и полу в популяции, независимо от лечения, которое они могут получить. Пациенты, набранные в клиническое исследование на основе высокого уровня холестерина при их первом осмотре, таким образом, вероятно, покажут в среднем падение уровня холестерина при втором осмотре, даже если в этот период они не лечились.
Часто метод регрессионного анализа применяется для разработки нормативных шкал и стандартов физического развития.
Насколько хорошо линия регрессии согласуется с данными, можно судить, рассчитав коэффициент R (обычно выраженный в процентах и называемый коэффициентом детерминации), который равняется квадрату коэффициента корреляции (r 2). Он представляет собой долю или процент дисперсии у, который можно объяснить связью с х, т.е. долю вариации признака-результата, сложившуюся под влиянием независимого признака. Может принимать значения в диапазоне от 0 до 1, или соответственно от 0 до 100%. Разность (100% - R) представляет собой процент дисперсии у, который нельзя объяснить этим взаимодействием.
Пример
Соотношение между ростом (измеренным в см) и систолическим артериальным давлением (САД, измеренным в мм рт. ст.) у детей. Мы провели анализ парной линейной регрессии зависимости САД от роста (рис. 6). Имеется существенное линейное соотношение между ростом и САД.
Рисунок 6. Двумерный график, показывающий соотношение между систолическим артериальным давлением и ростом. Изображена оценённая линия регрессии, систолическое артериальное давление.
Уравнение линии оценённой регрессии имеет следующий вид:
САД = 46,28 + 0,48 х рост.
В этом примере свободный член не представляет интереса (рост, равный нулю, явно вне диапазона величин, наблюдаемых в исследовании). Однако мы можем интерпретировать угловой коэффициент; предсказано, что у этих детей САД увеличивается в среднем на 0,48 мм рт.ст. при увеличении роста на один сантиметр
Мы можем применить уравнение регрессии для предсказания САД, которое мы ожидаем у ребёнка при данном росте. Например, ребёнок ростом 115 см имеет предсказанное САД, равное 46,28 + (0,48 х 115) = 101,48 мм рт. ст., ребёнок ростом 130 имеет предсказанное САД, 46,28 + (0,48 х 130) = 108,68 мм рт. ст.
При расчете коэффициента корреляции, установлено, что он равен 0,55, что указывает на прямую корреляционную связь средней силы. В этом случае коэффициент детерминации r 2 = 0,55 2 = 0,3 . Таким образом, можно сказать, что доля влияния роста на уровень артериального давления у детей не превышает 30%, соответственно на долю других факторов приходится 70% влияния.
Линейная (простая) регрессия ограничивается рассмотрением связи между зависимой переменной и только одной независимой переменной. Если в связи присутствует более одной независимой переменной, тогда нам необходимо обратиться к множественной регрессии. Уравнение для такой регрессии выглядит так:
y = a + bx 1 +b 2 x 2 +.... + b n х n
Можно интересоваться результатом влияния нескольких независимых переменных х 1 , х 2 , .., х n на переменную отклика у. Если мы полагаем, что эти х могут быть взаимозависимы, то не должны смотреть по отдельности на эффект изменения значения одного х на у, но должны одновременно принимать во внимание величины всех других х.
Пример
Поскольку между ростом и массой тела ребёнка существует сильная зависимость, можно поинтересоваться, изменяется ли также соотно-шение между ростом и систолическим артериальным давлением, если принять во внимание также и массу тела ребёнка и его пол. Множественная линейная регрессия позволяет изучить совместный эффект этих нескольких независимых переменных на у.
Уравнение множественной регрессии в этом случае может иметь такой вид:
САД = 79,44 - (0,03 х рост) + (1,18 х вес) + (4,23 х пол)*
* - (для признака пол используют значения 0 - мальчик, 1 - девочка)
Согласно этому уравнению, девочка, рост которой 115 см и масса тела 37 кг, будет иметь прогнозируемое САД:
САД = 79,44 - (0,03 х 115) + (1,18 х 37) + (4,23 х 1) = 123,88 мм.рт.ст.
Логистическая регрессия очень похожа на линейную; её применяют, когда есть интересующий нас бинарный исход (т.е. наличие/отсутствие симптома или субъекта, который имеет/не имеет заболевания) и ряд предикторов. Из уравнения логистической регрессии можно определить, какие предикторы влияют на исход, и, используя значения предикторов пациента, оценить вероятность того, что он/она будет иметь определённый исход. Например: возникнут или нет осложнения, будет лечение эффективным или не будет.
Начинают создания бинарной переменной, чтобы представить эти два исхода (например, «имеет болезнь» = 1, «не имеет болезни» = 0). Однако мы не можем применить эти два значения как зависимую переменную в анализе линейной регрессии, поскольку предположение нормальности нарушено, и мы не можем интерпретировать предсказанные величины, которые не равны нулю или единице.
Фактически, вместо этого мы берём вероятность того, что субъект классифицируется в ближайшую категорию (т.е. «имеет болезнь») зависимой переменной, и чтобы преодолеть математические трудности, применяют логистическое, преобразование, в уравнении регрессии — натуральный логарифм отношения вероятности «болезни» (p) к вероятности «нет болезни» (1-p).
Интегративный процесс, называемый методом максимального правдоподобия, а не обычная регрессия (так как мы не можем применить процедуру линейной регрессии) создаёт из данных выборки оценку уравнения логистической регрессии
logit (p) = a + bx 1 +b 2 x 2 +.... + b n х n
logit (р) — оценка значения истинной вероятности того, что пациент с индивидуальным набором значений для х 1 ... х n имеет заболевание;
а — оценка константы (свободный член, пересечение);
b 1 , b 2 ,... ,b n — оценки коэффициентов логистической регрессии.
1. Вопросы по теме занятия:
1. Дайте определение функциональной и корреляционной связи.
2. Приведите примеры прямой и обратной корреляционной связи.
3. Укажите размеры коэффициентов корреляции при слабой, средней и сильной связи между признаками.
4. В каких случаях применяется ранговый метод вычисления коэффициента корреляции?
5. В каких случаях применяется расчет коэффициента корреляции Пирсона?
6. Каковы основные этапы вычисления коэффициента корреляции ранговым методом?
7. Дайте определение «регрессии». В чем сущность метода регрессии?
8. Охарактеризуйте формулу уравнения простой линейной регрессии.
9. Дайте определение коэффициента регрессии.
10. Какой можно сделать вывод, если коэффициент регрессии веса по росту равен 0,26кг/см?
11. Для чего используется формула уравнения регрессии?
12. Что такое коэффициент детерминации?
13. В каких случаях используется уравнение множественной регрессии.
14. Для чего применяется метод логистической регрессии?
Задача.
По предприятиям легкой промышленности региона получена информация, характеризующая зависимость объема выпуска продукции (Y, млн. руб.) от объема капиталовложений (Y, млн. руб.).
Таблица 1.
Зависимость объема выпуска продукции от объема капиталовложений.
X | ||||||||||
Y |
Требуется :
1. Найти параметры уравнения линейной регрессии , дать экономическую интерпретацию коэффициента регрессии.
2. Вычислить остатки; найти остаточную сумму квадратов; оценить дисперсию остатков ; построить график остатков.
3. Проверить выполнение предпосылок МНК.
4. Осуществить проверку значимости параметров уравнения регрессии с помощью t-критерия Стьюдента (α = 0,05).
5. Вычислить коэффициент детерминации, проверить значимость уравнения регрессии с помощью F - критерия Фишера (α = 0,05), найти среднюю относительную ошибку аппроксимации . Сделать вывод о качестве модели.
6. Осуществить прогнозирование среднего значения показателя Y при уровне значимости α = 0,1, если прогнозное значения фактора Х составит 80% от его максимального значения.
7. Представить графически фактические и модельные значения Y точки прогноза.
8. Составить уравнения нелинейной регрессии и построить их графики:
Гиперболической;
Степенной;
Показательной.
9. Для указанных моделей найти коэффициенты детерминации и средние относительные ошибки аппроксимации. Сравнить модели по этим характеристикам и сделать вывод.
Найдем параметры уравнения линейной регрессии и дадим экономическую интерпретацию коэффициента регрессии.
Уравнение линейной регрессии имеет вид: ,
Вычисления для нахождения параметров a и b приведены в таблице 2.
Таблица 2.
Расчет значений для нахождения параметров уравнения линейной регрессии.
Уравнение регрессии имеет вид: y = 13,8951 + 2,4016*x.
С увеличением объема капиталовложений (X) на 1 млн. руб. объем выпускаемой продукции (Y) увеличится в среднем на 2,4016 млн. руб. Таким образом, наблюдается положительная корреляция признаков, что свидетельствует об эффективности работы предприятий и выгодности капиталовложений в их деятельность.
2. Вычислим остатки; найдем остаточную сумму квадратов; оценим дисперсию остатков и построим график остатков.
Остатки вычисляются по формуле: e i = y i - y прогн.
Остаточная сумма квадратов отклонений: = 207,74.
Дисперсия остатков: 25.97.
Расчеты приведены в таблице 3.
Таблица 3.
№ | Y | X | Y=a+b*x i | e i = y i - y прогн. | e i 2 |
100,35 | 3,65 | 13,306 | |||
81,14 | -4,14 | 17,131 | |||
117,16 | -0,16 | 0,0269 | |||
138,78 | -1,78 | 3,1649 | |||
136,38 | 6,62 | 43,859 | |||
143,58 | 0,42 | 0,1744 | |||
73,93 | 8,07 | 65,061 | |||
102,75 | -1,75 | 3,0765 | |||
136,38 | -4,38 | 19,161 | |||
83,54 | -6,54 | 42,78 | |||
Сумма | 0,00 | 207,74 | |||
Среднее | 111,4 | 40,6 |
График остатков имеет вид:
Рис.1. График остатков
3. Проверим выполнение предпосылок МНК, который включает элементы:
- проверка равенства математического ожидания случайной составляющей нулю;
- случайный характер остатков;
- проверка независимости;
- соответствие ряда остатков нормальному закону распределения.
Проверка равенства математического ожидания уровней ряда остатков нулю.
Осуществляется в ходе проверки соответствующей нулевой гипотезы H 0: . С этой целью строится t-статистика , где .
, таким образом, гипотеза принимается.
Случайный характер остатков.
Проверим случайность уровней ряда остатков с помощью критерия поворотных точек:
Количество поворотных точек определяем по таблице остатков:
№ | e i = y i - y прогн. | Точки поворота | e i 2 | (e i - e i -1) 2 |
3,65 | 13,31 | |||
-4,14 | * | 17,13 | 60,63 | |
-0,16 | * | 0,03 | 15,80 | |
-1,78 | * | 3,16 | 2,61 | |
6,62 | * | 43,86 | 70,59 | |
0,42 | * | 0,17 | 38,50 | |
8,07 | * | 65,06 | 58,50 | |
-1,75 | * | 3,08 | 96,43 | |
-4,38 | 19,16 | 6,88 | ||
-6,54 | 42,78 | 4,68 | ||
Сумма | 0,00 | 207,74 | 354,62 | |
Среднее |
= 6 > , следовательно, свойство случайности остатков выполняется.
Независимость остатков проверяется с помощью критерия Дарбина - Уотсона :
=4 - 1,707 = 2,293.
Так как попало в интервал от d 2 до 2, то по данному критерию можно сделать вывод о выполнении свойства независимости. Это означает, что в ряде динамики не имеется автокорреляции, следовательно, модель по этому критерию адекватна.
Соответствие ряда остатков нормальному закону распределения определяется с помощью R/S-критерия с критическими уровнями (2,7-3,7);
Рассчитаем значение RS:
RS = (e max - e min)/ S,
где e max - максимальное значение уровней ряда остатков E(t) = 8,07;
e min - минимальное значение уровней ряда остатков E(t) = -6,54.
S - среднеквадратическое отклонение, = 4,8044.
RS = (e max - e min)/ S= (8,07 + 6,54)/4,8044 = 3,04.
Так как 2,7 < 3,04 < 3,7, и полученное значение RS попало в за-данный интервал, значит, выполняется свойство нормальности распределения.
Таким образом, рассмотрев различные критерии выполнения предпосылок МНК, приходим к выводу, что предпосылки МНК выполняются.
4. Осуществим проверку значимости параметров уравнения регрессии с помощью t-критерия Стьюдента α = 0,05.
Проверка значимости отдельных коэффициентов регрессии связана с определением расчетных значений t-критерия (t-статистики) для соответствующих коэффициентов регрессии:
Затем расчетные значения сравниваются с табличными t табл = 2,3060. Табличное значение критерия определяется при (n- 2) степенях свободы (n - число наблюдений) и соответствующем уровне значимости a (0,05)
Если расчетное значение t-критерия с (n- 2) степенями сво-боды превосходит его табличное значение при заданном уровне зна-чимости, коэффициент регрессии считается значимым.
В нашем случае коэффициенты регрессии a 0 - незначимый, а 1 - значимый коэффициенты.
Парная линейная регрессия
ПРАКТИКУМ
Парная линейная регрессия: Практикум. –
Изучение эконометрики предполагает приобретение студентами опыта построения эконометрических моделей, принятия решений о спецификации и идентификации модели, выбора метода оценки параметров модели, оценки ее качества, интерпретации результатов, получения прогнозных оценок и пр. Практикум поможет студентам приобрести практические навыки в этих вопросах.
Утверждено редакционно-издательским советом
Составитель: М.Б. Перова, д.э.н., профессор
Общие положения
Эконометрическое исследование начинается с теории, устанавливающей связь между явлениями. Из всего круга факторов, влияющих на результативный признак, выделяются наиболее существенные факторы. После того, как было выявлено наличие взаимосвязи между изучаемыми признаками, определяется точный вид этой зависимости с помощью регрессионного анализа.
Регрессионный анализ заключается в определении аналитического выражения (в определении функции), в котором изменение одной величины (результативного признака) обусловлено влиянием независимой величины (факторного признака). Количественно оценить данную взаимосвязь можно с помощью построения уравнения регрессии или регрессионной функции.
Базисной регрессионной моделью является модель парной (однофакторной) регрессии. Парная регрессия – уравнение связи двух переменных у и х :
где – зависимая переменная (результативный признак);
–независимая, объясняющая переменная (факторный признак).
В зависимости от характера изменения у с изменением х различают линейные и нелинейные регрессии.
Линейная
регрессия
Данная регрессионная функция называется полиномом первой степени и используется для описания равномерно развивающихся во времени процессов.
Наличие случайного члена (ошибки регрессии) связано с воздействием на зависимую переменную других неучтенных в уравнении факторов, с возможной нелинейностью модели, ошибками измерения, следовательно, появлениеслучайной ошибки уравнения регрессии может быть обусловлено следующими объективными причинами :
1) нерепрезентативность выборки. В модель парной регрессии включается фактор, не способный полностью объяснить вариацию результативного признака, который может быть подвержен влиянию многих других факторов (пропущенных переменных) в гораздо большей степени. Наприем, заработная плата может зависеть, кроме квалификации, от уровня образования, стажа работы, пола и пр.;
2) существует вероятность того, что переменные, участвующие в модели, могут быть измерены с ошибкой. Например, данные по расходам семьи на питание составляются на основании записей участников опросов, которые, как предполагается, тщательно фиксируют свои ежедневные расходы. Разумеется, при этом возможны ошибки.
На основе выборочного наблюдения оценивается выборочное уравнение регрессии (линия регрессии ):
,
где
– оценки
параметров уравнения регрессии (
).
Аналитическая форма зависимости между изучаемой парой признаков (регрессионная функция) определяется с помощью следующих методов :
На основе теоретического и логического анализа природы изучаемых явлений, их социально-экономической сущности. Например, если изучается зависимость между доходами населения и размером вкладов населения в банки, то очевидно, что связь прямая.
Графический метод , когда характер связи оценивается визуально.
Эту зависимость можно наглядно увидеть, если построить график, отложив на оси абсцисс значения признака х , а на оси ординат – значения признака у . Нанеся на график точки, соответствующие значениям х и у , получим корреляционное поле :
а) если точки беспорядочно разбросаны по всему полю – это говорит об отсутствии зависимости между этими признаками;
б) если точки концентрируются вокруг оси, идущей от нижнего левого угла в верхний правый – то имеется прямая зависимость между признаками;
в) если точки концентрируются вокруг оси, идущей от верхнего левого угла в нижний правый – то обратная зависимость между признаками.
Если на корреляционном поле соединим точки отрезками прямой, то получим ломаную линию с некоторой тенденцией к росту. Это будет эмпирическая линия связи или эмпирическая линия регрессии . По ее виду можно судить не только о наличии, но и о форме зависимости между изучаемыми признаками.
Построение уравнения парной регрессии
Построение уравнения регрессии сводится к оценке ее параметров. Эти оценки параметров могут быть найдены различными способами. Одним их них является метод наименьших квадратов (МНК). Суть метода состоит в следующем. Каждому значению соответствует эмпирическое (наблюдаемое) значение. Построив уравнение регрессии, например уравнение прямой линии, каждому значениюбудет соответствовать теоретическое (расчетное) значение. Наблюдаемые значенияне лежат в точности на линии регрессии, т.е. не совпадают с. Разность между фактическим и расчетным значениями зависимой переменной называетсяостатком :
МНК позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака у от теоретических , т.е. сумма квадратов остатков, минимальна:
Для линейных уравнений и нелинейных, приводимых к линейным, решается следующая система относительно а и b :
где n – численность выборки.
Решив систему уравнений, получим значения а и b , что позволяет записать уравнение регрессии (регрессионное уравнение):
где – объясняющая (независимая) переменная;
–объясняемая (зависимая) переменная;
Линия регрессии проходит через точку (,) и выполняются равенства:
Можно воспользоваться готовыми формулами, которые вытекают из этой системы уравнений:
где – среднее значение зависимого признака;
–среднее значение независимого признака;
–среднее арифметическое значение произведения зависимого и независимого признаков;
–дисперсия независимого признака;
–ковариация между зависимым и независимым признаками.
Выборочной ковариацией двух переменных х , у называется средняя величина произведения отклонений этих переменных от своих средних
Параметр b при х имеет большое практическое значение и носит название коэффициента регрессии. Коэффициент регрессии показывает, на сколько единиц в среднем изменяется величина у х на 1 единицу своего измерения.
Знак параметра b в уравнении парной регрессии указывает на направление связи:
если
,
то связь между изучаемыми показателями
прямая, т.е. с увеличением факторного
признаках
увеличивается и результативный признак
у
,
и наоборот;
если
,
то связь между изучаемыми показателями
обратная, т.е. с увеличением факторного
признаках
результативный признак у
уменьшается, и наоборот.
Значение параметра
а
в уравнении парной регрессии в ряде
случаев можно трактовать как начальное
значение результативного признака у
.
Такая трактовка параметра а
возможна только в том случае, если
значение
имеет смысл.
После построения уравнения регрессии, наблюдаемые значения y можно представить как:
Остатки , как и ошибки, являются случайными величинами, однако они, в отличие от ошибок, наблюдаемы. Остаток есть та часть зависимой переменнойy , которую невозможно объяснить с помощью уравнения регрессии.
На основании уравнения регрессии могут быть вычислены теоретические значения у х для любых значений х .
В
экономическом анализе часто используется
понятие эластичности функции. Эластичность
функции
рассчитывается как относительное
изменениеy
к относительному изменению x
.
Эластичность показывает, на сколько
процентов изменяется функция
при
изменении независимой переменной на
1%.
Поскольку
эластичность линейной функции
не является постоянной величиной, а
зависит отх
,
то обычно рассчитывается коэффициент
эластичности как средний показатель
эластичности.
Коэффициент эластичности показывает, на сколько процентов в среднем по совокупности изменится величина результативного признака у при изменении факторного признака х на 1% от своего среднего значения:
где
– средние
значения переменныхх
и у
в выборке.
Оценка качества построенной модели регрессии
Качество модели регрессии – адекватность построенной модели исходным (наблюдаемым) данным.
Чтобы измерить тесноту связи, т.е. измерить, насколько она близка к функциональной, нужно определить дисперсию, измеряющую отклонения у от у х и характеризующую остаточную вариацию, обусловленную прочими факторами. Они лежат в основе показателей, характеризующих качество модели регрессии.
Качество парной регрессии определяется с помощью коэффициентов, характеризующих
1) тесноту связи – индекса корреляции, парного линейного коэффициента корреляции;
2) ошибку аппроксимации;
3) качество уравнения регрессии и отдельных его параметров – средние квадратические ошибки уравнения регрессии в целом и отдельных его параметров.
Для уравнений регрессии любого вида определяется индекс корреляции , который характеризует только тесноту корреляционной зависимости, т.е. степень ее приближения к функциональной связи:
,
где – факторная (теоретическая) дисперсия;
–общая дисперсия.
Индекс корреляции
принимает значения
,
при этом,
если
если
– то
связь между признакамих
и у
является функциональной, Чем ближе
к 1, тем более тесной считается связь
между изучаемыми признаками. Если
,
то связь можно считать тесной
Дисперсии, необходимые для вычисления показателей тесноты связи вычисляются:
Общая дисперсия , измеряющая общую вариацию за счет действия всех факторов:
Факторная (теоретическая) дисперсия, измеряющая вариацию результативного признака у за счет действия факторного признака х :
Остаточная дисперсия , характеризующая вариацию признака у за счет всех факторов, кроме х (т.е. при исключенном х ):
Тогда по правилу
сложения дисперсий:
Качество парной линейной регрессии может быть определено также с помощью парного линейного коэффициента корреляции :
,
где
– ковариация
переменныхх
и у
;
–среднеквадратическое отклонение независимого признака;
–среднеквадратическое отклонение зависимого признака.
Линейный коэффициент корреляции характеризует тесноту и направление связи между изучаемыми признаками. Он измеряется в пределах [-1; +1]:
если
– то
связь между признаками прямая;
если
– то
связь между признаками обратная;
если
– то
связь между признаками отсутствует;
если
или
– то
связь между признаками является
функциональной, т.е. характеризуется
полным соответствием междух
и у
.
Чем ближе
к 1, тем более тесной считается связь
между изучаемыми признаками.
Если индекс корреляции (парный линейный коэффициент корреляции) возвести в квадрат, то получим коэффициент детерминации.
Коэффициент детерминации – представляет собой долю факторной дисперсии в общей и показывает, на сколько процентов вариация результативного признака у объясняется вариацией факторного признака х :
Он характеризует не всю вариацию у от факторного признака х , а лишь ту ее часть, которая соответствует линейному уравнению регрессии, т.е. показывает удельный вес вариации результативного признака, линейно связанной с вариацией факторного признака.
Величина
– доля
вариации результативного признака,
которую модель регрессии учесть не
смогла.
Рассеяние точек корреляционного поля может быть очень велико, и вычисленное уравнение регрессии может давать большую погрешность в оценке анализируемого показателя.
Средняя ошибка аппроксимации показывает среднее отклонение расчетных значений от фактических:
Максимально допустимое значение 12–15%.
Мерой разброса зависимой переменной вокруг линии регрессии служит стандартная ошибка.Для всей совокупности наблюдаемых значений рассчитывается стандартная (среднеквадратическая) ошибка уравнения регрессии , которая представляет собой среднее квадратическое отклонение фактических значений у относительно теоретических значений, рассчитанных по уравнению регрессии у х .
,
где
– число
степеней свободы;
m – число параметров уравнения регрессии (для уравнения прямой m =2).
Оценить величину средней квадратической ошибки можно сопоставив ее
а) со средним значение результативного признака у ;
б) со средним квадратическим отклонением признака у :
если
,
то использование данного уравнения
регрессии является целесообразным.
Отдельно оцениваются стандартные (среднеквадратические) ошибки параметров уравнения и индекса корреляции :
;
;
.
х – среднее квадратическое отклонение х .
Проверка значимости уравнения регрессии и показателей тесноты связи
Чтобы построенную модель можно было использовать для дальнейших экономических расчетов, проверки качества построенной модели недостаточно. Необходимо также проверить значимость (существенность) полученных с помощью метода наименьших квадратов оценок уравнения регрессии и показателя тесноты связи, т.е. необходимо проверить их на соответствие истинным параметрам взаимосвязи.
Это связано с тем, что исчисленные по ограниченной совокупности показатели сохраняют элемент случайности, свойственный индивидуальным значениям признака. Поэтому они являются лишь оценками определенной статистической закономерности. Необходима оценка степени точности и значимости (надежности, существенности) параметров регрессии. Под значимостью понимают вероятность того, что значение проверяемого параметра не равно нулю, не включает в себя величины противоположных знаков.
Проверка значимости – проверка предположения того, что параметры отличаются от нуля.
Оценка значимости парного уравнения регрессии сводится к проверке гипотез о значимости уравнения регрессии в целом и отдельных его параметров (a , b ), парного коэффициента детерминации или индекса корреляции.
В этом случае могут быть выдвинуты следующие основные гипотезы H 0 :
1)
– коэффициенты регрессии являются
незначимыми и уравнение регрессии также
является незначимым;
2)
– парный
коэффициент детерминации незначим и
уравнение регрессии также является
незначимым.
Альтернативной (или обратной) выступают следующие гипотезы:
1)
– коэффициенты
регрессии значимо отличаются от нуля,
и построенное уравнение регрессии
является значимым;
2)
– парный
коэффициент детерминации значимо
отличаются от нуля и построенное
уравнение регрессии является значимым.
Проверка гипотезы о значимости уравнения парной регрессии
Для проверки гипотезы о статистической незначимости уравнения регрессии в целом и коэффициента детерминации используется F -критерий (критерий Фишера ):
или
где k 1 = m –1 ; k 2 = n – m – число степеней свободы;
n – число единиц совокупности;
m – число параметров уравнения регрессии;
–факторная дисперсия;
–остаточная дисперсия.
Гипотеза проверяется следующим образом:
1) если фактическое
(наблюдаемое) значение F
-критерия
больше критического (табличного) значения
данного критерия
,
то с вероятностью
основная гипотеза о незначимости
уравнения регрессии или парного
коэффициента детерминации отвергается,
и уравнение регрессии признается
значимым;
2) если фактическое
(наблюдаемое) значение F-критерия
меньше критического значения данного
критерия
,
то с вероятностью (
)
основная гипотеза о незначимости
уравнения регрессии или парного
коэффициента детерминации принимается,
и построенное уравнение регрессии
признается незначимым.
Критическое
значение F
-критерия
находится по соответствующим таблицам
в зависимости от уровня значимости
и числа степеней свободы
.
Число степеней
свободы
–
показатель, который определяется как
разность между объемом выборки (n
)
и числом оцениваемых параметров по
данной выборке (m
).
Для модели парной
регрессии
число степеней свободы рассчитывается
как
,
так как по выборке оцениваются два
параметра (
).
Уровень значимости
– величина,
определяемая
,
где – доверительная вероятность попадания оцениваемого параметра в доверительный интервал. Обычно принимается 0,95. Таким образом– это вероятность того, что оцениваемый параметр не попадет в доверительный интервал, равная 0,05 (5%) .
Тогда в случае
оценки значимости
уравнения парной
регрессии
критическое значение F-критерия
вычисляется как
:
.
Проверка гипотезы о значимости параметров уравнения парной регрессии и индекса корреляции
При проверке
значимости параметров уравнения
(предположения того, что параметры
отличаются от нуля) выдвигается основная
гипотеза о незначимости полученных
оценок (
.
В качестве альтернативной (обратной)
выдвигается гипотеза о значимости
параметров уравнения (
).
Для проверки
выдвинутых гипотез используется
t
-критерий
(t
-статистика)
Стьюдента
.
Наблюдаемое значение t
-критерия
сравнивается со значением
t
-критерия,
определяемого по таблице распределения
Стьюдента (критическим значением).
Критическое значение t
-критерия
зависит от двух параметров: уровня
значимостии числа степеней свободы
.
Выдвинутые гипотезы проверяются следующим образом:
1) если модуль
наблюдаемого значения t
-критерия
больше критического значения t
-критерия,
т.е.
,
то с вероятностью
основную гипотезу о незначимости
параметров регрессии отвергают, т.е.
параметры регрессии не равны 0;
2) если модуль
наблюдаемого значения t
-критерия
меньше или равен критическому значению
t
-критерия,
т.е.
,
то с вероятностью
основная гипотеза о незначимости
параметров регрессии принимается, т.е.
параметры регрессии почти не отличаются
от 0 или равны 0.
Оценка значимости коэффициентов регрессии с помощью критерия Стьюдента проводится путем сопоставления их оценок с величиной стандартной ошибки:
;
Для оценки статистической значимости индекса (линейного коэффициента) корреляции применяется также t -критерий Стьюдента.