Оценка параметров линейной регрессии. Основы линейной регрессии
- параметры уравнения линейной регрессии y=a+bx , линейный коэффициент корреляции с проверкой его значимости;
- тесноту связи с помощью показателей корреляции и детерминации, МНК-оценку, статическую надежность регрессионного моделирования с помощью F-критерия Фишера и с помощью t-критерия Стьюдента , доверительный интервал прогноза для уровня значимости α
Уравнение парной регрессии относится к уравнению регрессии первого порядка . Если эконометрическая модель содержит только одну объясняющую переменную, то она имеет название парной регрессии. Уравнение регрессии второго порядка и уравнение регрессии третьего порядка относятся к нелинейным уравнениям регрессии .
Пример
. Осуществите выбор зависимой (объясняемой) и объясняющей переменной для построения парной регрессионной модели. Дайте . Определите теоретическое уравнение парной регрессии. Оцените адекватность построенной модели (интерпретируйте R-квадрат, показатели t-статистики, F-статистики).
Решение
будем проводить на основе процесса эконометрического моделирования
.
1-й этап (постановочный) – определение конечных целей моделирования, набора участвующих в модели факторов и показателей, их роли.
Спецификация модели - определение цели исследования и выбор экономических переменных модели.
Ситуационная (практическая) задача. По 10 предприятиям региона изучается зависимость выработки продукции на одного работника y (тыс. руб.) от удельного веса рабочих высокой квалификации в общей численности рабочих x (в %).
2-й этап (априорный) – предмодельный анализ экономической сущности изучаемого явления, формирование и формализация априорной информации и исходных допущений, в частности относящейся к природе и генезису исходных статистических данных и случайных остаточных составляющих в виде ряда гипотез.
Уже на этом этапе можно говорить о явной зависимости уровня квалификации рабочего и его выработкой, ведь чем опытней работник, тем выше его производительность. Но как эту зависимость оценить?
Парная регрессия
представляет собой регрессию между двумя переменными – y и x , т. е. модель вида:
Где y – зависимая переменная (результативный признак); x – независимая, или объясняющая, переменная (признак-фактор). Знак «^» означает, что между переменными x и y нет строгой функциональной зависимости, поэтому практически в каждом отдельном случае величина y складывается из двух слагаемых:
Где y – фактическое значение результативного признака; y x – теоретическое значение результативного признака, найденное исходя из уравнения регрессии; ε – случайная величина, характеризующая отклонения реального значения результативного признака от теоретического, найденного по уравнению регрессии.
Графически покажем регрессионную зависимость между выработкой продукции на одного работника и удельного веса рабочих высокой квалификации.
3-й этап (параметризация) – собственно моделирование, т.е. выбор общего вида модели, в том числе состава и формы входящих в неё связей между переменными. Выбор вида функциональной зависимости в уравнении регрессии называется параметризацией модели. Выбираем уравнение парной регрессии , т.е. на конечный результат y будет влиять только один фактор.
4-й этап (информационный) – сбор необходимой статистической информации, т.е. регистрация значений участвующих в модели факторов и показателей. Выборка состоит из 10 предприятий отрасли.
5-й этап (идентификация модели) – оценивание неизвестных параметров модели по имеющимся статистическим данным.
Чтобы определить параметры модели, используем МНК - метод наименьших квадратов . Система нормальных уравнений будет выглядеть следующим образом:
a n + b∑x = ∑y
a∑x + b∑x 2 = ∑y x
Для расчета параметров регрессии построим расчетную таблицу (табл. 1).
x | y | x 2 | y 2 | x y |
10 | 6 | 100 | 36 | 60 |
12 | 6 | 144 | 36 | 72 |
15 | 7 | 225 | 49 | 105 |
17 | 7 | 289 | 49 | 119 |
18 | 7 | 324 | 49 | 126 |
19 | 8 | 361 | 64 | 152 |
19 | 8 | 361 | 64 | 152 |
20 | 9 | 400 | 81 | 180 |
20 | 9 | 400 | 81 | 180 |
21 | 10 | 441 | 100 | 210 |
171 | 77 | 3045 | 609 | 1356 |
Данные берем из таблицы 1 (последняя строка), в итоге имеем:
10a + 171 b = 77
171 a + 3045 b = 1356
Эту СЛАУ решаем методом Крамера или методом обратной матрицы .
Получаем эмпирические коэффициенты регрессии: b = 0.3251, a = 2.1414
Эмпирическое уравнение регрессии имеет вид:
y = 0.3251 x + 2.1414
6-й этап (верификация модели) – сопоставление реальных и модельных данных, проверка адекватности модели, оценка точности модельных данных.
Анализ проводим с помощью
х - называется предиктором - независимой или объясняющей переменной.
Для данной величины х, Y — значение переменной у (называемой зависимой, выходной переменной, или переменной отклика), которое расположено на линии оценки. Это есть значение, которое мы ожидаем для у (в среднем), если мы знаем величину х, и называется она «предсказанное значение у» (рис. 5).
а - свободный член (пересечение) линии оценки; это значение Y, когда х = 0.
b - угловой коэффициент или градиент оценённой линии; он представляет собой величину, на которую Y увеличивается в среднем, если мы увеличиваем х на одну единицу (рис. 5). Коэффициент b называют коэффициентом регрессии.
Например: при увеличении температуры тела человека на 1 о С, частота пульса увеличивается в среднем на 10 ударов в минуту.
Рисунок 5. Линия линейной регрессии, показывающая коэффициент а и угловой коэффициент b (величину возрастания Y при увеличении х на одну единицу)
Математически решение уравнения линейной регрессии сводится к вычислению параметров а и b таким образом, чтобы точки исходных данных корреляционного поля как можно ближе лежали к прямой регрессии .
Статистическое использование слова «регрессия» исходит из явления, известного как регрессия к среднему, приписываемого Френсису Гальтону (1889). Он показал, что, хотя высокие отцы имеют тенденцию иметь высоких сыновей, средний рост сыновей меньше, чем у их высоких отцов. Средний рост сыновей «регрессировал» или «двигался вспять» к среднему росту всех отцов в популяции. Таким образом, в среднем высокие отцы имеют более низких (но всё-таки высоких) сыновей, а низкие отцы имеют сыновей более высоких (но всё-таки довольно низких).
Мы наблюдаем регрессию к среднему при скрининге и клинических исследованиях, когда подгруппа пациентов может быть выбрана для лечения потому, что их уровни определённой переменной, скажем, холестерина, крайне высоки (или низки). Если это измерение через некоторое время повторяется, средняя величина второго считывания для подгруппы обычно меньше, чем при первом считывании, имея тенденцию (т.е. регрессируя) к среднему, подобранному по возрасту и полу в популяции, независимо от лечения, которое они могут получить. Пациенты, набранные в клиническое исследование на основе высокого уровня холестерина при их первом осмотре, таким образом, вероятно, покажут в среднем падение уровня холестерина при втором осмотре, даже если в этот период они не лечились.
Часто метод регрессионного анализа применяется для разработки нормативных шкал и стандартов физического развития.
Насколько хорошо линия регрессии согласуется с данными, можно судить, рассчитав коэффициент R (обычно выраженный в процентах и называемый коэффициентом детерминации), который равняется квадрату коэффициента корреляции (r 2). Он представляет собой долю или процент дисперсии у, который можно объяснить связью с х, т.е. долю вариации признака-результата, сложившуюся под влиянием независимого признака. Может принимать значения в диапазоне от 0 до 1, или соответственно от 0 до 100%. Разность (100% - R) представляет собой процент дисперсии у, который нельзя объяснить этим взаимодействием.
Пример
Соотношение между ростом (измеренным в см) и систолическим артериальным давлением (САД, измеренным в мм рт. ст.) у детей. Мы провели анализ парной линейной регрессии зависимости САД от роста (рис. 6). Имеется существенное линейное соотношение между ростом и САД.
Рисунок 6. Двумерный график, показывающий соотношение между систолическим артериальным давлением и ростом. Изображена оценённая линия регрессии, систолическое артериальное давление.
Уравнение линии оценённой регрессии имеет следующий вид:
САД = 46,28 + 0,48 х рост.
В этом примере свободный член не представляет интереса (рост, равный нулю, явно вне диапазона величин, наблюдаемых в исследовании). Однако мы можем интерпретировать угловой коэффициент; предсказано, что у этих детей САД увеличивается в среднем на 0,48 мм рт.ст. при увеличении роста на один сантиметр
Мы можем применить уравнение регрессии для предсказания САД, которое мы ожидаем у ребёнка при данном росте. Например, ребёнок ростом 115 см имеет предсказанное САД, равное 46,28 + (0,48 х 115) = 101,48 мм рт. ст., ребёнок ростом 130 имеет предсказанное САД, 46,28 + (0,48 х 130) = 108,68 мм рт. ст.
При расчете коэффициента корреляции, установлено, что он равен 0,55, что указывает на прямую корреляционную связь средней силы. В этом случае коэффициент детерминации r 2 = 0,55 2 = 0,3 . Таким образом, можно сказать, что доля влияния роста на уровень артериального давления у детей не превышает 30%, соответственно на долю других факторов приходится 70% влияния.
Линейная (простая) регрессия ограничивается рассмотрением связи между зависимой переменной и только одной независимой переменной. Если в связи присутствует более одной независимой переменной, тогда нам необходимо обратиться к множественной регрессии. Уравнение для такой регрессии выглядит так:
y = a + bx 1 +b 2 x 2 +.... + b n х n
Можно интересоваться результатом влияния нескольких независимых переменных х 1 , х 2 , .., х n на переменную отклика у. Если мы полагаем, что эти х могут быть взаимозависимы, то не должны смотреть по отдельности на эффект изменения значения одного х на у, но должны одновременно принимать во внимание величины всех других х.
Пример
Поскольку между ростом и массой тела ребёнка существует сильная зависимость, можно поинтересоваться, изменяется ли также соотно-шение между ростом и систолическим артериальным давлением, если принять во внимание также и массу тела ребёнка и его пол. Множественная линейная регрессия позволяет изучить совместный эффект этих нескольких независимых переменных на у.
Уравнение множественной регрессии в этом случае может иметь такой вид:
САД = 79,44 - (0,03 х рост) + (1,18 х вес) + (4,23 х пол)*
* - (для признака пол используют значения 0 - мальчик, 1 - девочка)
Согласно этому уравнению, девочка, рост которой 115 см и масса тела 37 кг, будет иметь прогнозируемое САД:
САД = 79,44 - (0,03 х 115) + (1,18 х 37) + (4,23 х 1) = 123,88 мм.рт.ст.
Логистическая регрессия очень похожа на линейную; её применяют, когда есть интересующий нас бинарный исход (т.е. наличие/отсутствие симптома или субъекта, который имеет/не имеет заболевания) и ряд предикторов. Из уравнения логистической регрессии можно определить, какие предикторы влияют на исход, и, используя значения предикторов пациента, оценить вероятность того, что он/она будет иметь определённый исход. Например: возникнут или нет осложнения, будет лечение эффективным или не будет.
Начинают создания бинарной переменной, чтобы представить эти два исхода (например, «имеет болезнь» = 1, «не имеет болезни» = 0). Однако мы не можем применить эти два значения как зависимую переменную в анализе линейной регрессии, поскольку предположение нормальности нарушено, и мы не можем интерпретировать предсказанные величины, которые не равны нулю или единице.
Фактически, вместо этого мы берём вероятность того, что субъект классифицируется в ближайшую категорию (т.е. «имеет болезнь») зависимой переменной, и чтобы преодолеть математические трудности, применяют логистическое, преобразование, в уравнении регрессии — натуральный логарифм отношения вероятности «болезни» (p) к вероятности «нет болезни» (1-p).
Интегративный процесс, называемый методом максимального правдоподобия, а не обычная регрессия (так как мы не можем применить процедуру линейной регрессии) создаёт из данных выборки оценку уравнения логистической регрессии
logit (p) = a + bx 1 +b 2 x 2 +.... + b n х n
logit (р) — оценка значения истинной вероятности того, что пациент с индивидуальным набором значений для х 1 ... х n имеет заболевание;
а — оценка константы (свободный член, пересечение);
b 1 , b 2 ,... ,b n — оценки коэффициентов логистической регрессии.
1. Вопросы по теме занятия:
1. Дайте определение функциональной и корреляционной связи.
2. Приведите примеры прямой и обратной корреляционной связи.
3. Укажите размеры коэффициентов корреляции при слабой, средней и сильной связи между признаками.
4. В каких случаях применяется ранговый метод вычисления коэффициента корреляции?
5. В каких случаях применяется расчет коэффициента корреляции Пирсона?
6. Каковы основные этапы вычисления коэффициента корреляции ранговым методом?
7. Дайте определение «регрессии». В чем сущность метода регрессии?
8. Охарактеризуйте формулу уравнения простой линейной регрессии.
9. Дайте определение коэффициента регрессии.
10. Какой можно сделать вывод, если коэффициент регрессии веса по росту равен 0,26кг/см?
11. Для чего используется формула уравнения регрессии?
12. Что такое коэффициент детерминации?
13. В каких случаях используется уравнение множественной регрессии.
14. Для чего применяется метод логистической регрессии?
Задача.
По предприятиям легкой промышленности региона получена информация, характеризующая зависимость объема выпуска продукции (Y, млн. руб.) от объема капиталовложений (Y, млн. руб.).
Таблица 1.
Зависимость объема выпуска продукции от объема капиталовложений.
X | ||||||||||
Y |
Требуется :
1. Найти параметры уравнения линейной регрессии , дать экономическую интерпретацию коэффициента регрессии.
2. Вычислить остатки; найти остаточную сумму квадратов; оценить дисперсию остатков ; построить график остатков.
3. Проверить выполнение предпосылок МНК.
4. Осуществить проверку значимости параметров уравнения регрессии с помощью t-критерия Стьюдента (α = 0,05).
5. Вычислить коэффициент детерминации, проверить значимость уравнения регрессии с помощью F - критерия Фишера (α = 0,05), найти среднюю относительную ошибку аппроксимации . Сделать вывод о качестве модели.
6. Осуществить прогнозирование среднего значения показателя Y при уровне значимости α = 0,1, если прогнозное значения фактора Х составит 80% от его максимального значения.
7. Представить графически фактические и модельные значения Y точки прогноза.
8. Составить уравнения нелинейной регрессии и построить их графики:
Гиперболической;
Степенной;
Показательной.
9. Для указанных моделей найти коэффициенты детерминации и средние относительные ошибки аппроксимации. Сравнить модели по этим характеристикам и сделать вывод.
Найдем параметры уравнения линейной регрессии и дадим экономическую интерпретацию коэффициента регрессии.
Уравнение линейной регрессии имеет вид: ,
Вычисления для нахождения параметров a и b приведены в таблице 2.
Таблица 2.
Расчет значений для нахождения параметров уравнения линейной регрессии.
Уравнение регрессии имеет вид: y = 13,8951 + 2,4016*x.
С увеличением объема капиталовложений (X) на 1 млн. руб. объем выпускаемой продукции (Y) увеличится в среднем на 2,4016 млн. руб. Таким образом, наблюдается положительная корреляция признаков, что свидетельствует об эффективности работы предприятий и выгодности капиталовложений в их деятельность.
2. Вычислим остатки; найдем остаточную сумму квадратов; оценим дисперсию остатков и построим график остатков.
Остатки вычисляются по формуле: e i = y i - y прогн.
Остаточная сумма квадратов отклонений: = 207,74.
Дисперсия остатков: 25.97.
Расчеты приведены в таблице 3.
Таблица 3.
№ | Y | X | Y=a+b*x i | e i = y i - y прогн. | e i 2 |
100,35 | 3,65 | 13,306 | |||
81,14 | -4,14 | 17,131 | |||
117,16 | -0,16 | 0,0269 | |||
138,78 | -1,78 | 3,1649 | |||
136,38 | 6,62 | 43,859 | |||
143,58 | 0,42 | 0,1744 | |||
73,93 | 8,07 | 65,061 | |||
102,75 | -1,75 | 3,0765 | |||
136,38 | -4,38 | 19,161 | |||
83,54 | -6,54 | 42,78 | |||
Сумма | 0,00 | 207,74 | |||
Среднее | 111,4 | 40,6 |
График остатков имеет вид:
Рис.1. График остатков
3. Проверим выполнение предпосылок МНК, который включает элементы:
- проверка равенства математического ожидания случайной составляющей нулю;
- случайный характер остатков;
- проверка независимости;
- соответствие ряда остатков нормальному закону распределения.
Проверка равенства математического ожидания уровней ряда остатков нулю.
Осуществляется в ходе проверки соответствующей нулевой гипотезы H 0: . С этой целью строится t-статистика , где .
, таким образом, гипотеза принимается.
Случайный характер остатков.
Проверим случайность уровней ряда остатков с помощью критерия поворотных точек:
Количество поворотных точек определяем по таблице остатков:
№ | e i = y i - y прогн. | Точки поворота | e i 2 | (e i - e i -1) 2 |
3,65 | 13,31 | |||
-4,14 | * | 17,13 | 60,63 | |
-0,16 | * | 0,03 | 15,80 | |
-1,78 | * | 3,16 | 2,61 | |
6,62 | * | 43,86 | 70,59 | |
0,42 | * | 0,17 | 38,50 | |
8,07 | * | 65,06 | 58,50 | |
-1,75 | * | 3,08 | 96,43 | |
-4,38 | 19,16 | 6,88 | ||
-6,54 | 42,78 | 4,68 | ||
Сумма | 0,00 | 207,74 | 354,62 | |
Среднее |
= 6 > , следовательно, свойство случайности остатков выполняется.
Независимость остатков проверяется с помощью критерия Дарбина - Уотсона :
=4 - 1,707 = 2,293.
Так как попало в интервал от d 2 до 2, то по данному критерию можно сделать вывод о выполнении свойства независимости. Это означает, что в ряде динамики не имеется автокорреляции, следовательно, модель по этому критерию адекватна.
Соответствие ряда остатков нормальному закону распределения определяется с помощью R/S-критерия с критическими уровнями (2,7-3,7);
Рассчитаем значение RS:
RS = (e max - e min)/ S,
где e max - максимальное значение уровней ряда остатков E(t) = 8,07;
e min - минимальное значение уровней ряда остатков E(t) = -6,54.
S - среднеквадратическое отклонение, = 4,8044.
RS = (e max - e min)/ S= (8,07 + 6,54)/4,8044 = 3,04.
Так как 2,7 < 3,04 < 3,7, и полученное значение RS попало в за-данный интервал, значит, выполняется свойство нормальности распределения.
Таким образом, рассмотрев различные критерии выполнения предпосылок МНК, приходим к выводу, что предпосылки МНК выполняются.
4. Осуществим проверку значимости параметров уравнения регрессии с помощью t-критерия Стьюдента α = 0,05.
Проверка значимости отдельных коэффициентов регрессии связана с определением расчетных значений t-критерия (t-статистики) для соответствующих коэффициентов регрессии:
Затем расчетные значения сравниваются с табличными t табл = 2,3060. Табличное значение критерия определяется при (n- 2) степенях свободы (n - число наблюдений) и соответствующем уровне значимости a (0,05)
Если расчетное значение t-критерия с (n- 2) степенями сво-боды превосходит его табличное значение при заданном уровне зна-чимости, коэффициент регрессии считается значимым.
В нашем случае коэффициенты регрессии a 0 - незначимый, а 1 - значимый коэффициенты.
При наличии корреляционной связи между факторными и результативными признаками врачам нередко приходится устанавливать, на какую величину может измениться значение одного признака при изменении другого на общепринятую или установленную самим исследователем единицу измерения.
Например, как изменится масса тела школьников 1-го класса (девочек или мальчиков), если рост их увеличится на 1 см. В этих целях применяется метод регрессионного анализа.
Наиболее часто метод регрессионного анализа применяется для разработки нормативных шкал и стандартов физического развития.
- Определение регрессии
. Регрессия - функция, позволяющая по средней величине одного признака определить
среднюю величину другого признака, корреляционно связанного с первым.
С этой целью применяется коэффициент регрессии и целый ряд других параметров. Например, можно рассчитать число простудных заболеваний в среднем при определенных значениях среднемесячной температуры воздуха в осенне-зимний период.
- Определение коэффициента регрессии . Коэффициент регрессии - абсолютная величина, на которую в среднем изменяется величина одного признака при изменении другого связанного с ним признака на установленную единицу измерения.
- Формула коэффициента регрессии
. R у/х = r ху x (σ у / σ x)
где R у/х - коэффициент регрессии;
r ху - коэффициент корреляции между признаками х и у;
(σ у и σ x) - среднеквадратические отклонения признаков x и у.В нашем примере ;
σ х = 4,6 (среднеквадратическое отклонение температуры воздуха в осенне-зимний период;
σ у = 8,65 (среднеквадратическое отклонение числа инфекционно-простудных заболеваний).
Таким образом, R у/х - коэффициент регрессии.
R у/х = -0,96 х (4,6 / 8,65) = 1,8, т.е. при снижении среднемесячной температуры воздуха (x) на 1 градус среднее число инфекционно-простудных заболеваний (у) в осенне-зимний период будет изменяться на 1,8 случаев. - Уравнение регрессии
. у = М у + R y/x (х - М x)
где у - средняя величина признака, которую следует определять при изменении средней величины другого признака (х);
х - известная средняя величина другого признака;
R y/x - коэффициент регрессии;
М х, М у - известные средние величины признаков x и у.Например, среднее число инфекционно-простудных заболеваний (у) можно определить без специальных измерений при любом среднем значении среднемесячной температуры воздуха (х). Так, если х = - 9°, R у/х = 1,8 заболеваний, М х = -7°, М у = 20 заболеваний, то у = 20 + 1,8 х (9-7) = 20 + 3,6 = 23,6 заболеваний.
Данное уравнение применяется в случае прямолинейной связи между двумя признаками (х и у). - Назначение уравнения регрессии . Уравнение регрессии используется для построения линии регрессии. Последняя позволяет без специальных измерений определить любую среднюю величину (у) одного признака, если меняется величина (х) другого признака. По этим данным строится график - линия регрессии , по которой можно определить среднее число простудных заболеваний при любом значении среднемесячной температуры в пределах между расчетными значениями числа простудных заболеваний.
- Сигма регрессии (формула)
.
где σ Rу/х - сигма (среднеквадратическое отклонение) регрессии;
σ у - среднеквадратическое отклонение признака у;
r ху - коэффициент корреляции между признаками х и у.Так, если σ у - среднеквадратическое отклонение числа простудных заболеваний = 8,65; r ху - коэффициент корреляции между числом простудных заболеваний (у) и среднемесячной температурой воздуха в осенне-зимний период (х) равен - 0,96, то
- Назначение сигмы регрессии
. Дает характеристику меры разнообразия результативного признака (у).
Например, характеризует разнообразие числа простудных заболеваний при определенном значении среднемесячной температуры воздуха в осеннне-зимний период. Так, среднее число простудных заболеваний при температуре воздуха х 1 = -6° может колебаться в пределах от 15,78 заболеваний до 20,62 заболеваний.
При х 2 = -9° среднее число простудных заболеваний может колебаться в пределах от 21,18 заболеваний до 26,02 заболеваний и т.д.Сигма регрессии используется при построении шкалы регрессии, которая отражает отклонение величин результативного признака от среднего его значения, отложенного на линии регрессии.
- Данные, необходимые для расчета и графического изображения шкалы регрессии
- коэффициент регрессии - R у/х;
- уравнение регрессии - у = М у + R у/х (х-М x);
- сигма регрессии - σ Rx/y
- Последовательность расчетов и графического изображения шкалы регрессии
.
- определить коэффициент регрессии по формуле (см. п. 3). Например, следует определить, насколько в среднем будет меняться масса тела (в определенном возрасте в зависимости от пола), если средний рост изменится на 1 см.
- по формуле уравнения регрессии (см п. 4) определить, какой будет в среднем, например, масса тела (у, у 2 ,
у 3 ...)* для определеного значения роста (х, х 2 , х 3 ...).
________________
* Величину "у" следует рассчитывать не менее чем для трех известных значений "х".При этом средние значения массы тела и роста (М х, и М у) для определенного возраста и пола известны
- вычислить сигму регрессии, зная соответствующие величины σ у и r ху и подставляя их значения в формулу (см. п. 6).
- на основании известных значений х 1 , х 2 , х 3 и соответствующих им средних значений
у 1 , у 2 у 3 , а также наименьших (у - σ rу/х)и наибольших (у + σ rу/х)
значений (у) построить шкалу регрессии.
Для графического изображения шкалы регрессии на графике сначала отмечаются значения х, х 2 , х 3 (ось ординат), т.е. строится линия регрессии, например зависимости массы тела (у) от роста (х).
Затем в соответствующих точках у 1 , y 2 , y 3 отмечаются числовые значения сигмы регрессии, т.е. на графике находят наименьшее и наибольшее значения у 1 , y 2 , y 3 .
- Практическое использование шкалы регрессии
. Разрабатываются нормативные шкалы и стандарты, в частности по
физическому развитию. По стандартной шкале можно дать индивидуальную оценку развития детей.
При этом физическое развитие оценивается как гармоничное, если, например, при определенном росте масса тела ребенка находится в
пределах одной сигмы регрессии к средней расчетной единице массы тела - (у) для данного роста (x)
(у ± 1 σ Ry/x).
Физическое развитие считается дисгармоничным по массе тела, если масса тела ребенка для определенного роста находится в пределах второй сигмы регрессии: (у ± 2 σ Ry/x)
Физическое развитие будет резко дисгармоничным как за счет избыточной, так и за счет недостаточной массы тела, если масса тела для определенного роста находится в пределах третьей сигмы регрессии (у ± 3 σ Ry/x).
По результатам статистического исследования физического развития мальчиков 5 лет известно, что их средний рост (х) равен 109 см, а средняя масса тела (у) равна 19 кг. Коэффициент корреляции между ростом и массой тела составляет +0,9, средние квадратические отклонения представлены в таблице.
Требуется:
- рассчитать коэффициент регрессии;
- по уравнению регрессии определить, какой будет ожидаемая масса тела мальчиков 5 лет при росте, равном х1 = 100 см, х2 = 110 см, х3= 120 см;
- рассчитать сигму регрессии, построить шкалу регрессии, результаты ее решения представить графически;
- сделать соответствующие выводы.
Условие задачи и результаты ее решения представлены в сводной таблице.
Таблица 1
Условия задачи | Pезультаты решения задачи | ||||||||
уравнение регрессии | сигма регрессии | шкала регрессии (ожидаемая масса тела (в кг)) | |||||||
М | σ | r ху | R у/x | х | У | σ R x/y | y - σ Rу/х | y + σ Rу/х | |
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
Рост (х) | 109 см | ± 4,4см | +0,9 | 0,16 | 100см | 17,56 кг | ± 0,35 кг | 17,21 кг | 17,91 кг |
Масса тела (y) | 19 кг | ± 0,8 кг | 110 см | 19,16 кг | 18,81 кг | 19,51 кг | |||
120 см | 20,76 кг | 20,41 кг | 21,11 кг |
Решение .
Вывод.
Таким образом, шкала регрессии в пределах расчетных величин массы тела позволяет определить ее при любом другом
значении роста или оценить индивидуальное развитие ребенка. Для этого следует восстановить перпендикуляр к линии регрессии.
- Власов В.В. Эпидемиология. - М.: ГЭОТАР-МЕД, 2004. - 464 с.
- Лисицын Ю.П. Общественное здоровье и здравоохранение. Учебник для вузов. - М.: ГЭОТАР-МЕД, 2007. - 512 с.
- Медик В.А., Юрьев В.К. Курс лекций по общественному здоровью и здравоохранению: Часть 1. Общественное здоровье. - М.: Медицина, 2003. - 368 с.
- Миняев В.А., Вишняков Н.И. и др. Социальная медицина и организация здравоохранения (Руководство в 2 томах). - СПб, 1998. -528 с.
- Кучеренко В.З., Агарков Н.М. и др.Социальная гигиена и организация здравоохранения (Учебное пособие) - Москва, 2000. - 432 с.
- С. Гланц. Медико-биологическая статистика. Пер с англ. - М., Практика, 1998. - 459 с.
Этот метод применяют для наглядного изображения формы связи между изучаемыми экономическими показателями. Для этого в прямоугольной системе координат строят график, по оси ординат откладывают индивидуальные значения результативного признака Y, а по оси абсцисс - индивидуальные значения факторного признака X.
Совокупность точек результативного и факторного признаков называется полем корреляции .
На основании поля корреляции можно выдвинуть гипотезу (для генеральной совокупности) о том, что связь между всеми возможными значениями X и Y носит линейный характер.
Линейное уравнение регрессии
имеет вид y = bx + a + ε
Здесь ε - случайная ошибка (отклонение, возмущение).
Причины существования случайной ошибки:
1. Невключение в регрессионную модель значимых объясняющих переменных;
2. Агрегирование переменных. Например, функция суммарного потребления – это попытка общего выражения совокупности решений отдельных индивидов о расходах. Это лишь аппроксимация отдельных соотношений, которые имеют разные параметры.
3. Неправильное описание структуры модели;
4. Неправильная функциональная спецификация;
5. Ошибки измерения.
Так как отклонения ε i для каждого конкретного наблюдения i – случайны и их значения в выборке неизвестны, то:
1) по наблюдениям x i и y i можно получить только оценки параметров α и β
2) Оценками параметров α и β регрессионной модели являются соответственно величины а и b, которые носят случайный характер, т.к. соответствуют случайной выборке;
Тогда оценочное уравнение регрессии (построенное по выборочным данным) будет иметь вид y = bx + a + ε, где e i – наблюдаемые значения (оценки) ошибок ε i , а и b соответственно оценки параметров α и β регрессионной модели, которые следует найти.
Для оценки параметров α и β - используют МНК (метод наименьших квадратов).
Система нормальных уравнений.
Для наших данных система уравнений имеет вид:
10a + 356b = 49
356a + 2135b = 9485
Из первого уравнения выражаем а и подставим во второе уравнение
Получаем b = 68.16, a = 11.17
Уравнение регрессии
:
y = 68.16 x - 11.17
1. Параметры уравнения регрессии.
Выборочные средние.
Выборочные дисперсии.
Среднеквадратическое отклонение
1.1. Коэффициент корреляции
Рассчитываем показатель тесноты связи. Таким показателем является выборочный линейный коэффициент корреляции, который рассчитывается по формуле:
Линейный коэффициент корреляции принимает значения от –1 до +1.
Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока :
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
В нашем примере связь между признаком Y фактором X весьма высокая и прямая.
1.2. Уравнение регрессии
(оценка уравнения регрессии).
Линейное уравнение регрессии имеет вид y = 68.16 x -11.17
Коэффициентам уравнения линейной регрессии можно придать экономический смысл. Коэффициент уравнения регрессии
показывает, на сколько ед. изменится результат при изменении фактора на 1 ед.
Коэффициент b = 68.16 показывает среднее изменение результативного показателя (в единицах измерения у) с повышением или понижением величины фактора х на единицу его измерения. В данном примере с увеличением на 1 единицу y повышается в среднем на 68.16.
Коэффициент a = -11.17 формально показывает прогнозируемый уровень у, но только в том случае, если х=0 находится близко с выборочными значениями.
Но если х=0 находится далеко от выборочных значений x , то буквальная интерпретация может привести к неверным результатам, и даже если линия регрессии довольно точно описывает значения наблюдаемой выборки, нет гарантий, что также будет при экстраполяции влево или вправо.
Подставив в уравнение регрессии соответствующие значения x , можно определить выровненные (предсказанные) значения результативного показателя y(x) для каждого наблюдения.
Связь между у и x определяет знак коэффициента регрессии b (если > 0 – прямая связь, иначе - обратная). В нашем примере связь прямая.
1.3. Коэффициент эластичности.
Коэффициенты регрессии (в примере b) нежелательно использовать для непосредственной оценки влияния факторов на результативный признак в том случае, если существует различие единиц измерения результативного показателя у и факторного признака х.
Для этих целей вычисляются коэффициенты эластичности и бета - коэффициенты. Коэффициент эластичности находится по формуле:
Он показывает, на сколько процентов в среднем изменяется результативный признак у при изменении факторного признака х на 1%. Он не учитывает степень колеблемости факторов.
В нашем примере коэффициент эластичности больше 1. Следовательно, при изменении Х на 1%, Y изменится более чем на 1%. Другими словами - Х существенно влияет на Y.
Бета – коэффициент
показывает, на какую часть величины своего среднего квадратичного отклонения изменится в среднем значение результативного признака при изменении факторного признака на величину его среднеквадратического отклонения при фиксированном на постоянном уровне значении остальных независимых переменных:
Т.е. увеличение x на величину среднеквадратического отклонения этого показателя приведет к увеличению среднего Y на 0.9796 среднеквадратичного отклонения этого показателя.
1.4. Ошибка аппроксимации.
Оценим качество уравнения регрессии с помощью ошибки абсолютной аппроксимации.
Поскольку ошибка больше 15%, то данное уравнение не желательно использовать в качестве регрессии.
1.6. Коэффициент детерминации.
Квадрат (множественного) коэффициента корреляции называется коэффициентом детерминации, который показывает долю вариации результативного признака, объясненную вариацией факторного признака.
Чаще всего, давая интерпретацию коэффициента детерминации, его выражают в процентах.
R 2 = 0.98 2 = 0.9596
т.е. в 95.96 % случаев изменения x приводят к изменению у. Другими словами - точность подбора уравнения регрессии - высокая. Остальные 4.04 % изменения Y объясняются факторами, не учтенными в модели.
x | y | x 2 | y 2 | x y | y(x) | (y i -y cp) 2 | (y-y(x)) 2 | (x i -x cp) 2 | |y - y x |:y |
0.371 | 15.6 | 0.1376 | 243.36 | 5.79 | 14.11 | 780.89 | 2.21 | 0.1864 | 0.0953 |
0.399 | 19.9 | 0.1592 | 396.01 | 7.94 | 16.02 | 559.06 | 15.04 | 0.163 | 0.1949 |
0.502 | 22.7 | 0.252 | 515.29 | 11.4 | 23.04 | 434.49 | 0.1176 | 0.0905 | 0.0151 |
0.572 | 34.2 | 0.3272 | 1169.64 | 19.56 | 27.81 | 87.32 | 40.78 | 0.0533 | 0.1867 |
0.607 | 44.5 | .3684 | 1980.25 | 27.01 | 30.2 | 0.9131 | 204.49 | 0.0383 | 0.3214 |
0.655 | 26.8 | 0.429 | 718.24 | 17.55 | 33.47 | 280.38 | 44.51 | 0.0218 | 0.2489 |
0.763 | 35.7 | 0.5822 | 1274.49 | 27.24 | 40.83 | 61.54 | 26.35 | 0.0016 | 0.1438 |
0.873 | 30.6 | 0.7621 | 936.36 | 26.71 | 48.33 | 167.56 | 314.39 | 0.0049 | 0.5794 |
2.48 | 161.9 | 6.17 | 26211.61 | 402 | 158.07 | 14008.04 | 14.66 | 2.82 | 0.0236 |
7.23 | 391.9 | 9.18 | 33445.25 | 545.2 | 391.9 | 16380.18 | 662.54 | 3.38 | 1.81 |
2. Оценка параметров уравнения регрессии.
2.1. Значимость коэффициента корреляции.
По таблице Стьюдента с уровнем значимости α=0.05 и степенями свободы k=7 находим t крит:
t крит = (7;0.05) = 1.895
где m = 1 - количество объясняющих переменных.
Если t набл > t критич, то полученное значение коэффициента корреляции признается значимым (нулевая гипотеза, утверждающая равенство нулю коэффициента корреляции, отвергается).
Поскольку t набл > t крит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значим
В парной линейной регрессии t 2 r = t 2 b и тогда проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии.
2.3. Анализ точности определения оценок коэффициентов регрессии.
Несмещенной оценкой дисперсии возмущений является величина:
S 2 y = 94.6484 - необъясненная дисперсия (мера разброса зависимой переменной вокруг линии регрессии).
S y = 9.7287 - стандартная ошибка оценки (стандартная ошибка регрессии).
S a - стандартное отклонение случайной величины a.
S b - стандартное отклонение случайной величины b.
2.4. Доверительные интервалы для зависимой переменной.
Экономическое прогнозирование на основе построенной модели предполагает, что сохраняются ранее существовавшие взаимосвязи переменных и на период упреждения.
Для прогнозирования зависимой переменной результативного признака необходимо знать прогнозные значения всех входящих в модель факторов.
Прогнозные значения факторов подставляют в модель и получают точечные прогнозные оценки изучаемого показателя.
(a + bx p ± ε)
где
Рассчитаем границы интервала, в котором будет сосредоточено 95% возможных значений Y при неограниченно большом числе наблюдений и X p = 1
(-11.17 + 68.16*1 ± 6.4554)
(50.53;63.44)
Индивидуальные доверительные интервалы для
Y
при данном значении
X
.
(a + bx i ± ε)
где
x i | y = -11.17 + 68.16x i | ε i | y min | y max |
0.371 | 14.11 | 19.91 | -5.8 | 34.02 |
0.399 | 16.02 | 19.85 | -3.83 | 35.87 |
0.502 | 23.04 | 19.67 | 3.38 | 42.71 |
0.572 | 27.81 | 19.57 | 8.24 | 47.38 |
0.607 | 30.2 | 19.53 | 10.67 | 49.73 |
0.655 | 33.47 | 19.49 | 13.98 | 52.96 |
0.763 | 40.83 | 19.44 | 21.4 | 60.27 |
0.873 | 48.33 | 19.45 | 28.88 | 67.78 |
2.48 | 158.07 | 25.72 | 132.36 | 183.79 |
С вероятностью 95% можно гарантировать, что значения Y при неограниченно большом числе наблюдений не выйдет за пределы найденных интервалов.
2.5. Проверка гипотез относительно коэффициентов линейного уравнения регрессии.
1) t-статистика. Критерий Стьюдента.
Проверим гипотезу H 0 о равенстве отдельных коэффициентов регрессии нулю (при альтернативе H 1 не равно) на уровне значимости α=0.05.
t крит = (7;0.05) = 1.895
Поскольку 12.8866 > 1.895, то статистическая значимость коэффициента регрессии b подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).
Поскольку 2.0914 > 1.895, то статистическая значимость коэффициента регрессии a подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).
Доверительный интервал для коэффициентов уравнения регрессии.
Определим доверительные интервалы коэффициентов регрессии, которые с надежность 95% будут следующими:
(b - t крит S b ; b + t крит S b)
(68.1618 - 1.895 5.2894; 68.1618 + 1.895 5.2894)
(58.1385;78.1852)
С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.
(a - t a)
(-11.1744 - 1.895 5.3429; -11.1744 + 1.895 5.3429)
(-21.2992;-1.0496)
С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.
2) F-статистики. Критерий Фишера.
Проверка значимости модели регрессии проводится с использованием F-критерия Фишера, расчетное значение которого находится как отношение дисперсии исходного ряда наблюдений изучаемого показателя и несмещенной оценки дисперсии остаточной последовательности для данной модели.
Если расчетное значение с lang=EN-US>n-m-1) степенями свободы больше табличного при заданном уровне значимости, то модель считается значимой.
где m – число факторов в модели.
Оценка статистической значимости парной линейной регрессии производится по следующему алгоритму:
1. Выдвигается нулевая гипотеза о том, что уравнение в целом статистически незначимо: H 0:
R 2 =0 на уровне значимости α.
2. Далее определяют фактическое значение F-критерия:
где m=1 для парной регрессии.
3. Табличное значение определяется по таблицам распределения Фишера для заданного уровня значимости, принимая во внимание, что число степеней свободы для общей суммы квадратов (большей дисперсии) равно 1 и число степеней свободы остаточной суммы квадратов (меньшей дисперсии) при линейной регрессии равно n-2.
4. Если фактическое значение F-критерия меньше табличного, то говорят, что нет основания отклонять нулевую гипотезу.
В противном случае, нулевая гипотеза отклоняется и с вероятностью (1-α) принимается альтернативная гипотеза о статистической значимости уравнения в целом.
Табличное значение критерия со степенями свободы k1=1 и k2=7, Fkp = 5.59
Поскольку фактическое значение F > Fkp, то коэффициент детерминации статистически значим (Найденная оценка уравнения регрессии статистически надежна).
Проверка на наличие автокорреляции остатков
.
Важной предпосылкой построения качественной регрессионной модели по МНК является независимость значений случайных отклонений от значений отклонений во всех других наблюдениях. Это гарантирует отсутствие коррелированности между любыми отклонениями и, в частности, между соседними отклонениями.
Автокорреляция (последовательная корреляция)
определяется как корреляция между наблюдаемыми показателями, упорядоченными во времени (временные ряды) или в пространстве (перекрестные ряды). Автокорреляция остатков (отклонений) обычно встречается в регрессионном анализе при использовании данных временных рядов и очень редко при использовании перекрестных данных.
В экономических задачах значительно чаще встречается положительная автокорреляция
, нежели отрицательная автокорреляция
. В большинстве случаев положительная автокорреляция вызывается направленным постоянным воздействием некоторых неучтенных в модели факторов.
Отрицательная автокорреляция
фактически означает, что за положительным отклонением следует отрицательное и наоборот. Такая ситуация может иметь место, если ту же зависимость между спросом на прохладительные напитки и доходами рассматривать по сезонным данным (зима-лето).
Среди основных причин, вызывающих автокорреляцию
, можно выделить следующие:
1. Ошибки спецификации. Неучет в модели какой-либо важной объясняющей переменной либо неправильный выбор формы зависимости обычно приводят к системным отклонениям точек наблюдения от линии регрессии, что может обусловить автокорреляцию.
2. Инерция. Многие экономические показатели (инфляция, безработица, ВНП и т.д.) обладают определенной цикличностью, связанной с волнообразностью деловой активности. Поэтому изменение показателей происходит не мгновенно, а обладает определенной инертностью.
3. Эффект паутины. Во многих производственных и других сферах экономические показатели реагируют на изменение экономических условий с запаздыванием (временным лагом).
4. Сглаживание данных. Зачастую данные по некоторому продолжительному временному периоду получают усреднением данных по составляющим его интервалам. Это может привести к определенному сглаживанию колебаний, которые имелись внутри рассматриваемого периода, что в свою очередь может служить причиной автокорреляции.
Последствия автокорреляции схожи с последствиями гетероскедастичности : выводы по t- и F-статистикам, определяющие значимость коэффициента регрессии и коэффициента детерминации, возможно, будут неверными.
Обнаружение автокорреляции
1. Графический метод
Есть ряд вариантов графического определения автокорреляции. Один из них увязывает отклонения e i с моментами их получения i.
При этом по оси абсцисс откладывают либо время получения статистических данных, либо порядковый номер наблюдения, а по оси ординат – отклонения e i (либо оценки отклонений).
Естественно предположить, что если имеется определенная связь между отклонениями, то автокорреляция имеет место. Отсутствие зависимости скоре всего будет свидетельствовать об отсутствии автокорреляции.
Автокорреляция становится более наглядной, если построить график зависимости e i от e i-1 .
Критерий Дарбина-Уотсона
.
Этот критерий является наиболее известным для обнаружения автокорреляции.
При статистическом анализе уравнения регрессии на начальном этапе часто проверяют выполнимость одной предпосылки: условия статистической независимости отклонений между собой.
При этом проверяется некоррелированность соседних величин e i .
y | y(x) | e i = y-y(x) | e 2 | (e i - e i-1) 2 |
15.6 | 14.11 | 1.49 | 2.21 | 0 |
19.9 | 16.02 | 3.88 | 15.04 | 5.72 |
22.7 | 23.04 | -0.3429 | 0.1176 | 17.81 |
34.2 | 27.81 | 6.39 | 40.78 | 45.28 |
44.5 | 30.2 | 14.3 | 204.49 | 62.64 |
26.8 | 33.47 | -6.67 | 44.51 | 439.82 |
35.7 | 40.83 | -5.13 | 26.35 | 2.37 |
30.6 | 48.33 | -17.73 | 314.39 | 158.7 |
161.9 | 158.07 | 3.83 | 14.66 | 464.81 |
662.54 | 1197.14 |
Для анализа коррелированности отклонений используют статистику Дарбина-Уотсона:
Критические значения d 1 и d 2 определяются на основе специальных таблиц для требуемого уровня значимости α, числа наблюдений n = 9 и количества объясняющих переменных m=1.
Автокорреляция отсутствует, если выполняется следующее условие:
d 1 < DW и d 2 < DW < 4 - d 2 .
Не обращаясь к таблицам, можно пользоваться приблизительным правилом и считать, что автокорреляция остатков отсутствует, если 1.5 < DW < 2.5. Для более надежного вывода целесообразно обращаться к табличным значениям.