Estimation des paramètres de régression linéaire. Bases de la régression linéaire

Objet de la prestation. Utiliser le service dans mode en ligne on peut trouver :

paramètres d'équation régression linéaire y=a+bx , coefficient linéaire corrélations avec les tests de sa signification ;
proximité de la connexion à l'aide d'indicateurs de corrélation et de détermination, estimation OLS, fiabilité statique de la modélisation de régression à l'aide du test F de Fisher et du test t de Student, intervalle de confiance de la prévision pour le niveau de signification α

L'équation de régression par paires fait référence à équation de régression du premier ordre. Si un modèle économétrique ne contient qu’une seule variable explicative, on parle alors de régression par paires. Équation de régression du second ordre Et équation de régression du troisième ordre se référer aux équations de régression non linéaire.

Exemple. Sélectionnez la variable dépendante (expliquée) et explicative pour créer un modèle de régression apparié. Donnez-le. Déterminez l’équation théorique de la régression par paires. Évaluer l'adéquation du modèle construit (interpréter le R-carré, les statistiques t, les statistiques F).
Solution nous réaliserons sur la base processus de modélisation économétrique.
1ère étape (énoncé) – détermination des objectifs finaux de la modélisation, de l'ensemble des facteurs et indicateurs participant au modèle et de leur rôle.
Spécification du modèle - définition de l'objectif de l'étude et sélection des variables économiques du modèle.
Tâche situationnelle (pratique). Pour 10 entreprises de la région, la dépendance de la production par employé y (en milliers de roubles) sur densité spécifique travailleurs hautement qualifiés dans le nombre total de travailleurs x (en %).
Étape 2 (a priori) – analyse pré-modèle de l'essence économique du phénomène étudié, formation et formalisation d'informations a priori et d'hypothèses initiales, notamment liées à la nature et à la genèse des données statistiques initiales et des composantes résiduelles aléatoires dans sous la forme d'un certain nombre d'hypothèses.
Déjà à ce stade, on peut parler d’une nette dépendance entre le niveau de compétence du travailleur et son rendement, car plus le travailleur est expérimenté, plus sa productivité est élevée. Mais comment évaluer cette dépendance ?
Régression couplée représente une régression entre deux variables - y et x, c'est à dire un modèle de la forme :

Où y est la variable dépendante (attribut résultat) ; x – variable indépendante ou explicative (facteur caractéristique). Le signe « ^ » signifie qu'il n'y a pas de relation fonctionnelle stricte entre les variables x et y, donc dans presque tous les cas individuels, la valeur y est la somme de deux termes :

Où y est la valeur réelle de l'attribut résultant ; y x – valeur théorique de la caractéristique effective, trouvée sur la base de l'équation de régression ; ε – variable aléatoire caractérisant les écarts valeur réelle attribut effectif de l'attribut théorique, trouvé à l'aide de l'équation de régression.
Nous montrerons graphiquement la relation de régression entre la production par travailleur et la part de travailleurs hautement qualifiés.

Étape 3 (paramétrage) – modélisation proprement dite, c'est-à-dire choix vue générale modèle, y compris la composition et la forme des relations entre les variables qui y sont incluses. Le choix du type de dépendance fonctionnelle dans l'équation de régression est appelé paramétrage du modèle. Choisir équation de régression par paires, c'est-à-dire le résultat final y sera influencé par un seul facteur.
Étape 4 (informations) – collecte des informations statistiques nécessaires, c'est-à-dire enregistrement des valeurs des facteurs et indicateurs participant au modèle. L'échantillon se compose de 10 entreprises du secteur.
Étape 5 (identification du modèle) – estimation des paramètres inconnus du modèle à l'aide des données statistiques disponibles.
Pour déterminer les paramètres du modèle, nous utilisons Méthode MCO moindres carrés . Le système d'équations normales ressemblera à ceci :
a n + b∑x = ∑y
a∑x + b∑x 2 = ∑yx
Pour calculer les paramètres de régression, nous construisons table de calcul(Tableau 1).

x	oui	x2	et 2	xy
10	6	100	36	60
12	6	144	36	72
15	7	225	49	105
17	7	289	49	119
18	7	324	49	126
19	8	361	64	152
19	8	361	64	152
20	9	400	81	180
20	9	400	81	180
21	10	441	100	210
171	77	3045	609	1356

Nous prenons les données du tableau 1 (dernière ligne), et nous avons comme résultat :
10a + 171b = 77
171 une + 3045 b = 1356
Nous résolvons ce SLAE en utilisant la méthode de Cramer ou la méthode de la matrice inverse.
On obtient des coefficients de régression empiriques : b = 0,3251, a = 2,1414
L'équation de régression empirique est la suivante :
y = 0,3251 x + 2,1414
Étape 6 (vérification du modèle) – comparaison des données réelles et des données du modèle, vérification de l'adéquation du modèle, évaluation de l'exactitude des données du modèle.
Nous effectuons l'analyse à l'aide

x est appelé un prédicteur - une variable indépendante ou explicative.

Pour une quantité x donnée, Y est la valeur de la variable y (appelée variable dépendante, de sortie ou de réponse) qui se trouve sur la ligne d'évaluation. Il s’agit de la valeur que nous attendons pour y (en moyenne) si nous connaissons la valeur de x, et est appelée « valeur prédite de y » (Fig. 5).

a est le terme libre (intersection) de la droite d'évaluation ; c'est la valeur de Y lorsque x = 0.

b est la pente ou pente de la ligne estimée ; il représente le montant dont Y augmente en moyenne si nous augmentons x d'une unité (Figure 5). Le coefficient b est appelé coefficient de régression.

Par exemple : lorsque la température corporelle d’une personne augmente de 1 °C, le pouls augmente en moyenne de 10 battements par minute.

Figure 5. Ligne de régression linéaire montrant le coefficient UN et la pente b(montant de l'augmentation Oui avec une augmentation X par unité)

Mathématiquement, résoudre l'équation de régression linéaire revient à calculer les paramètres a et b de telle sorte que les points des données initiales du champ de corrélation se rapprocher le plus possible de la régression directe .

L'usage statistique du mot régression vient du phénomène dit de régression vers la moyenne, attribué à Francis Galton (1889). Il a montré que même si les pères de grande taille ont tendance à avoir des fils de grande taille, la taille moyenne des fils est plus petite que celle de leurs pères de grande taille. La taille moyenne des fils a « régressé » ou « reculé » vers la taille moyenne de tous les pères de la population. Ainsi, en moyenne, les pères de grande taille ont des fils plus petits (mais quand même assez grands), et les pères de petite taille ont des fils plus grands (mais quand même assez petits).

Nous constatons une régression vers la moyenne dans le dépistage et les essais cliniques, où un sous-groupe de patients peut être sélectionné pour un traitement parce que leurs niveaux d'une certaine variable, par exemple le cholestérol, sont extrêmement élevés (ou faibles). Si cette mesure est répétée au fil du temps, la moyenne de la deuxième lecture pour le sous-groupe est généralement inférieure à la première lecture, tendant (c'est-à-dire régressant) vers la moyenne de la population de même âge et sexe, quel que soit le traitement qu'ils ont pu recevoir. Patients recrutés dans un essai clinique basé sur haut niveau Leur taux de cholestérol lors de leur premier examen est donc susceptible de présenter une baisse moyenne de leur taux de cholestérol lors de leur deuxième examen, même s'ils n'ont pas été traités pendant cette période.

Souvent, la méthode d'analyse de régression est utilisée pour élaborer des échelles normatives et des normes de développement physique.

L’adéquation d’une droite de régression aux données peut être jugée en calculant le coefficient R (généralement exprimé en pourcentage et appelé coefficient de détermination), qui est égal au carré du coefficient de corrélation (r2). Il représente la proportion ou le pourcentage de variance de y qui peut être expliqué par sa relation avec x, c'est-à-dire la part de variation dans l'attribut de résultat qui s'est développée sous l'influence d'un attribut indépendant. Peut prendre des valeurs comprises entre 0 et 1 ou entre 0 et 100 %. La différence (100 % - R) représente le pourcentage de variance de y qui ne peut être expliqué par cette interaction.

Exemple

La relation entre la taille (mesurée en cm) et la pression artérielle systolique (PAS, mesurée en mmHg) chez les enfants. Nous avons effectué une analyse de régression linéaire appariée de la relation entre la PAS et la taille (Fig. 6). Il existe une relation linéaire significative entre la taille et la PAS.

Figure 6. Graphique bidimensionnel montrant la relation entre la pression artérielle systolique et la taille. La droite de régression estimée, la pression artérielle systolique, est représentée.

L’équation de la droite de régression estimée est la suivante :

SBP = 46,28 + 0,48 x hauteur.

Dans cet exemple, le terme à l’origine n’a pas d’intérêt (une croissance nulle est clairement en dehors de la plage de valeurs observée dans l’étude). Cependant, on peut interpréter la pente ; On prévoit que la PAS augmentera en moyenne de 0,48 mm Hg chez ces enfants. avec une augmentation de la hauteur d'un centimètre

Nous pouvons utiliser une équation de régression pour prédire la PAS que nous attendons d’un enfant pour une taille donnée. Par exemple, un enfant mesurant 115 cm a une PAS prévue de 46,28 + (0,48 x 115) = 101,48 mmHg. Art., un enfant mesurant 130 a une PAS prédite de 46,28 + (0,48 x 130) = 108,68 mm Hg. Art.

Lors du calcul du coefficient de corrélation, il a été constaté qu'il était égal à 0,55, ce qui indique une corrélation directe entre la résistance moyenne. Dans ce cas, le coefficient de détermination r 2 = 0,55 2 = 0,3. Ainsi, on peut dire que la part de l'influence de la taille sur le niveau de tension artérielle chez les enfants ne dépasse pas 30 % ; d'autres facteurs représentent donc 70 % de l'influence ;

La régression linéaire (simple) se limite à examiner la relation entre la variable dépendante et une seule variable indépendante. S’il existe plus d’une variable indépendante dans une relation, nous devons alors recourir à la régression multiple. L’équation d’une telle régression ressemble à ceci :

y = a + bx 1 +b 2 x 2 +.... + b n x n

On peut s'intéresser à l'effet de plusieurs variables indépendantes x 1, x 2, .., x n sur la variable de réponse y. Si nous pensons que ces x peuvent être interdépendants, nous ne devrions pas examiner séparément l'effet du changement de la valeur d'un x sur y, mais devrions simultanément prendre en compte l'ampleur de tous les autres x.

Exemple

Puisqu'il existe une forte relation entre la taille et le poids d'un enfant, on peut se demander si la relation entre la taille et la tension artérielle systolique change également lorsque le poids et le sexe de l'enfant sont également pris en compte. La régression linéaire multiple examine l'effet conjoint de ces multiples variables indépendantes sur y.

L’équation de régression multiple dans ce cas peut ressembler à ceci :

SBP = 79,44 - (0,03 x taille) + (1,18 x poids) + (4,23 x sexe)*

* - (pour l'attribut genre, les valeurs sont 0 - garçon, 1 - fille)

Selon cette équation, une fille mesurant 115 cm et pesant 37 kg aura une PAS prédite :

PAS = 79,44 - (0,03 x 115) + (1,18 x 37) + (4,23 x 1) = 123,88 mmHg.

La régression logistique est très similaire à la régression linéaire ; il est utilisé lorsqu'il existe un résultat binaire intéressant (c'est-à-dire la présence/absence d'un symptôme ou un sujet qui a/n'a pas une maladie) et un certain nombre de prédicteurs. À partir de l'équation de régression logistique, on peut déterminer quels prédicteurs influencent le résultat et, en utilisant les valeurs prédictives du patient, estimer la probabilité qu'il obtienne un résultat particulier. Par exemple : si des complications surviendront ou non, si le traitement sera efficace ou non.

Commencez à créer une variable binaire pour représenter les deux résultats (par exemple, « a la maladie » = 1, « n'a pas la maladie » = 0). Cependant, nous ne pouvons pas appliquer ces deux valeurs comme variable dépendante dans une analyse de régression linéaire car l'hypothèse de normalité est violée et nous ne pouvons pas interpréter des valeurs prédites qui ne sont pas égales à zéro ou à un.

En fait, nous prenons plutôt la probabilité qu'un sujet soit classé dans la catégorie la plus proche (c'est-à-dire « a la maladie ») de la variable dépendante, et pour surmonter les difficultés mathématiques, appliquons une transformation logistique à l'équation de régression - logarithme népérien le rapport entre la probabilité de « maladie » (p) et la probabilité de « pas de maladie » (1-p).

Un processus intégratif appelé maximum de vraisemblance, plutôt qu'une régression ordinaire (puisque nous ne pouvons pas appliquer la procédure de régression linéaire), crée une estimation de l'équation de régression logistique à partir des données de l'échantillon.

logit (p) = a + bx 1 +b 2 x 2 +.... + b n x n

logit (p) - une estimation de la probabilité réelle qu'un patient avec un ensemble individuel de valeurs pour x 1 ... x n ait une maladie ;

a est l'estimation de la constante (terme libre, intersection) ;

b 1, b 2,..., b n - estimations des coefficients de régression logistique.

1. Questions sur le sujet de la leçon :

1. Définir les connexions fonctionnelles et de corrélation.

2. Donnez des exemples de corrélations directes et inverses.

3. Indiquez les tailles des coefficients de corrélation pour les liens faibles, moyens et forts entre les caractéristiques.

4. Dans quels cas la méthode de classement est-elle utilisée pour calculer le coefficient de corrélation ?

5. Dans quels cas le calcul du coefficient de corrélation de Pearson est-il utilisé ?

6. Quelles sont les principales étapes du calcul du coefficient de corrélation par la méthode des rangs ?

7. Définissez la « régression ». Quelle est l’essence de la méthode de régression ?

8. Décrivez la formule d’une équation de régression linéaire simple.

9. Définissez un coefficient de régression.

10. Quelle conclusion peut-on tirer si le coefficient de régression du poids sur la taille est de 0,26 kg/cm ?

11. À quoi sert la formule de l’équation de régression ?

12. Quel est le coefficient de détermination ?

13. Dans quels cas l'équation de régression multiple est-elle utilisée ?

14. À quoi sert la méthode de régression logistique ?

Tâche.

Pour les entreprises de l'industrie légère de la région, des informations ont été obtenues caractérisant la dépendance du volume de production (Y, millions de roubles) sur le volume des investissements en capital (Y, millions de roubles).

Tableau 1.

Dépendance du volume de production sur le volume des investissements en capital.

X
Oui

Requis:

1. Trouvez les paramètres de l'équation de régression linéaire, donnez une interprétation économique du coefficient de régression.

2. Calculez les restes ; trouver la somme résiduelle des carrés ; estimer la variance des résidus ; tracer les résidus.

3. Vérifiez le respect des prérequis du MNC.

4. Vérifiez la signification des paramètres de l'équation de régression à l'aide du test t de Student (α = 0,05).

5. Calculez le coefficient de détermination, vérifiez la signification de l'équation de régression à l'aide du test F de Fisher (α = 0,05), trouvez l'erreur relative d'approximation moyenne. Tirez une conclusion sur la qualité du modèle.

6. Prédisez la valeur moyenne de l'indicateur Y au niveau de signification de α = 0,1, si la valeur prédite du facteur X est de 80 % de sa valeur maximale.

7. Présentez graphiquement les valeurs Y réelles et du modèle du point de prévision.

8. Créez des équations de régression non linéaire et tracez-les :

Hyperbolique;

Puissant;

Indicatif.

9. Pour les modèles indiqués, trouvez les coefficients de détermination et les erreurs relatives d'approximation moyennes. Comparez les modèles basés sur ces caractéristiques et tirez une conclusion.

Trouvons les paramètres de l'équation de régression linéaire et donnons une interprétation économique du coefficient de régression.

L'équation de régression linéaire est la suivante : ,

Les calculs pour trouver les paramètres a et b sont donnés dans le tableau 2.

Tableau 2.

Calcul de valeurs pour trouver les paramètres d'une équation de régression linéaire.

L'équation de régression ressemble à : y = 13,8951 + 2,4016*x.

Avec une augmentation du volume des investissements en capital (X) de 1 million de roubles. le volume de production (Y) augmentera en moyenne de 2,4016 millions de roubles. Ainsi, il existe une corrélation positive des signes qui indiquent l'efficacité des entreprises et la rentabilité des investissements dans leurs activités.

2. Calculez les restes ; trouver la somme résiduelle des carrés ; estimons la variance des résidus et tracez les résidus.

Les restes sont calculés à l'aide de la formule : e je = y je - y prog.

Somme résiduelle des carrés des écarts : = 207,74.

Dispersion des résidus : 25.97.

Les calculs sont présentés dans le tableau 3.

Tableau 3.

№	Oui	X	Y=a+b*xi	e je = y je - y progn.	e je 2
			100,35	3,65	13,306
			81,14	-4,14	17,131
			117,16	-0,16	0,0269
			138,78	-1,78	3,1649
			136,38	6,62	43,859
			143,58	0,42	0,1744
			73,93	8,07	65,061
			102,75	-1,75	3,0765
			136,38	-4,38	19,161
			83,54	-6,54	42,78
Somme				0,00	207,74
Moyenne	111,4	40,6

Le tableau du bilan ressemble à ceci :

Figure 1. Tableau de solde

3. Vérifions le respect des prérequis du MNC, qui comprennent les éléments :

- contrôle d'égalité espérance mathématique composante aléatoire zéro ;

- caractère aléatoire des restes ;

- contrôle d'indépendance;

- correspondance d'un certain nombre de résidus à la loi de distribution normale.

Vérification de l'égalité de l'espérance mathématique des niveaux d'une série de résidus à zéro.

Réalisé lors du test de l'hypothèse nulle correspondante H 0 : . À cette fin, des statistiques t sont construites, où .

, ainsi, l’hypothèse est acceptée.

Caractère aléatoire des résidus.

Vérifions le caractère aléatoire des niveaux d'un certain nombre de résidus à l'aide du critère du tournant :

Le nombre de points d'inflexion est déterminé à partir du tableau des résidus :

№	e je = y je - y progn.	Points tournants	e je 2	(e je - e je -1) 2
	3,65		13,31
	-4,14	*	17,13	60,63
	-0,16	*	0,03	15,80
	-1,78	*	3,16	2,61
	6,62	*	43,86	70,59
	0,42	*	0,17	38,50
	8,07	*	65,06	58,50
	-1,75	*	3,08	96,43
	-4,38		19,16	6,88
	-6,54		42,78	4,68
Somme	0,00		207,74	354,62
Moyenne

= 6 > , donc la propriété de caractère aléatoire des restes est satisfaite.

Indépendance du reste vérifié à l'aide du test de Durbin-Watson :

=4 - 1,707 = 2,293.

Puisqu'il est tombé dans l'intervalle de d 2 à 2, alors selon ce critère nous pouvons conclure que la propriété d'indépendance est satisfaite. Cela signifie qu'il n'y a pas d'autocorrélation dans la série dynamique, le modèle est donc adéquat selon ce critère.

Correspondance d'un certain nombre de résidus à la loi de distribution normale déterminé selon le critère R/S avec niveaux critiques (2,7-3,7) ;

Calculons la valeur RS :

RS = (e max - e min)/S,

où e max est la valeur maximale des niveaux d'un nombre de résidus E(t) = 8,07 ;

e min - valeur minimale niveaux d'un certain nombre de résidus E(t) = -6,54.

S - écart type, = 4,8044.

RS = (e max - e min)/ S = (8,07 + 6,54)/4,8044 = 3,04.

Depuis 2.7< 3,04 < 3,7, и полученное значение RS попало в за-данный интервал, значит, выполняется свойство нормальности распределения.

Ainsi, après avoir considéré divers critères réalisation des conditions préalables du MNC, nous arrivons à la conclusion que les prérequis du MNC sont remplis.

4. Vérifions la signification des paramètres de l’équation de régression à l’aide du test t de Student α = 0,05.

La vérification de la signification des coefficients de régression individuels est associée à la détermination des valeurs calculées test t (statistiques t) pour les coefficients de régression correspondants :

Ensuite, les valeurs calculées sont comparées à celles tabulées table= 2,3060. La valeur tabulaire du critère est déterminée à ( n- 2) degrés de liberté ( n- nombre d'observations) et le niveau de signification correspondant a (0,05)

Si la valeur calculée du test t avec (n- 2) les degrés de liberté dépassent la valeur du tableau à un niveau de signification donné, le coefficient de régression est considéré comme significatif.

Dans notre cas, les coefficients de régression a 0 sont non significatifs et 1 sont des coefficients significatifs.

S'il existe une corrélation entre les facteurs et les caractéristiques de performance, les médecins doivent souvent établir dans quelle mesure la valeur d'une caractéristique peut changer lorsque l'autre passe à une unité de mesure généralement acceptée ou établie par le chercheur lui-même.

Par exemple, comment le poids corporel des écoliers de 1re année (filles ou garçons) évoluera-t-il si leur taille augmente de 1 cm ? À ces fins, la méthode d'analyse de régression est utilisée ?

Le plus souvent, la méthode d'analyse de régression est utilisée pour élaborer des échelles normatives et des normes de développement physique.

Définition de la régression. La régression est une fonction qui vous permet de déterminer en fonction de la valeur moyenne d'une caractéristique valeur moyenne une autre caractéristique corrélée à la première.
A cet effet, un coefficient de régression est utilisé et toute une série d'autres paramètres. Par exemple, vous pouvez calculer le nombre de rhumes en moyenne à certaines valeurs de la température mensuelle moyenne de l'air pendant la période automne-hiver.
Détermination du coefficient de régression. Coefficient de régression - valeur absolue, par lequel en moyenne la valeur d'un attribut change lorsqu'un autre attribut associé change par l'unité de mesure établie.
Formule du coefficient de régression. R y/x = r xy x (σ y / σ x)
où R у/х - coefficient de régression ;
r xy - coefficient de corrélation entre les caractéristiques x et y ;
(σ y et σ x) - écarts types des caractéristiques x et y.
Dans notre exemple ;
σ x = 4,6 (écart type de la température de l'air en période automne-hiver ;
σ y = 8,65 (écart type du nombre de maladies infectieuses et du rhume).
Ainsi, R y/x est le coefficient de régression.
R у/х = -0,96 x (4,6 / 8,65) = 1,8, soit Lorsque la température mensuelle moyenne de l'air (x) diminue de 1 degré, le nombre moyen de maladies infectieuses et froides (y) pendant la période automne-hiver changera de 1,8 cas.
Équation de régression. y = M y + R y/x (x - M x)
où y est la valeur moyenne de la caractéristique, qui doit être déterminée lorsque la valeur moyenne d'une autre caractéristique change (x) ;
x est la valeur moyenne connue d'une autre caractéristique ;
R y/x - coefficient de régression ;
M x, M y - valeurs moyennes connues des caractéristiques x et y.
Par exemple, le nombre moyen de maladies infectieuses et froides (y) peut être déterminé sans mesures spéciales à n'importe quelle valeur moyenne de la température mensuelle moyenne de l'air (x). Ainsi, si x = - 9°, R y/x = 1,8 maladies, M x = -7°, M y = 20 maladies, alors y = 20 + 1,8 x (9-7) = 20 + 3,6 = 23,6 maladies.
Cette équation est appliquée dans le cas d'une relation linéaire entre deux caractéristiques (x et y).
Objectif de l'équation de régression. L'équation de régression est utilisée pour construire une droite de régression. Ce dernier permet, sans mesures particulières, de déterminer toute valeur moyenne (y) d'une caractéristique si la valeur (x) d'une autre caractéristique change. Sur la base de ces données, un graphique est construit - droite de régression, qui peut être utilisé pour déterminer le nombre moyen de rhumes à n'importe quelle valeur de la température mensuelle moyenne dans la plage comprise entre les valeurs calculées du nombre de rhumes.
Régression Sigma (formule).
où σ Rу/х - sigma (écart type) de régression ;
σ y - écart type de la caractéristique y ;
r xy - coefficient de corrélation entre les caractéristiques x et y.
Ainsi, si σ y est l'écart type du nombre de rhumes = 8,65 ; r xy - le coefficient de corrélation entre le nombre de rhumes (y) et la température mensuelle moyenne de l'air pendant la période automne-hiver (x) est égal à - 0,96, alors
Affectation du sigma de régression. Donne une description de la mesure de diversité de la caractéristique résultante (y).
Par exemple, il caractérise la diversité du nombre de rhumes à une certaine valeur de la température mensuelle moyenne de l'air en période automne-hiver. Ainsi, le nombre moyen de rhumes à température de l'air x 1 = -6° peut varier de 15,78 maladies à 20,62 maladies.
A x 2 = -9°, le nombre moyen de rhumes peut varier de 21,18 maladies à 26,02 maladies, etc.
Le sigma de régression est utilisé pour construire une échelle de régression, qui reflète l'écart des valeurs de la caractéristique résultante par rapport à sa valeur moyenne tracée sur la droite de régression.
Données requises pour calculer et tracer l'échelle de régression
- coefficient de régression - R у/х ;
- équation de régression - y = M y + R y/x (x-M x) ;
- sigma de régression - σ Rx/y
Séquence de calculs et représentation graphique de l'échelle de régression.
- déterminer le coefficient de régression à l'aide de la formule (voir paragraphe 3). Par exemple, il est nécessaire de déterminer combien de poids corporel changera en moyenne (à un certain âge selon le sexe) si la taille moyenne change de 1 cm.
- à l'aide de la formule de l'équation de régression (voir point 4), déterminez quel sera, par exemple, le poids corporel en moyenne (y, y 2, y 3 ...) * pour une certaine valeur de taille (x, x 2, x 3 . ..) .
  ________________
  * La valeur de « y » doit être calculée pour au moins trois valeurs connues de « x ».
  Dans le même temps, les valeurs moyennes du poids corporel et de la taille (M x et M y) pour un certain âge et sexe sont connues
- calculer le sigma de régression, connaissant les valeurs correspondantes de σ y et r xy et en substituant leurs valeurs dans la formule (voir paragraphe 6).
- sur la base des valeurs connues x 1, x 2, x 3 et des valeurs moyennes correspondantes y 1, y 2 y 3, ainsi que la plus petite (y - σ rу/х) et la plus grande (y + σ rу /х) les valeurs (y) construisent une échelle de régression.
  Pour représenter graphiquement l'échelle de régression, les valeurs x, x2, x3 (axe des ordonnées) sont d'abord marquées sur le graphique, c'est-à-dire une droite de régression est construite, par exemple, la dépendance du poids corporel (y) sur la taille (x).
  Puis, aux points correspondants 1, y 2, y 3, les valeurs numériques du sigma de régression sont notées, c'est-à-dire trouver le plus petit sur le graphique et valeur la plus élevée oui 1, oui 2, oui 3.
Utilisation pratiqueéchelles de régression. Des échelles et standards normatifs sont en cours d’élaboration, notamment pour le développement physique. À l'aide d'une échelle standard, vous pouvez donner une évaluation individuelle du développement des enfants. Dans ce cas, le développement physique est jugé harmonieux si, par exemple, à une certaine taille, le poids corporel de l'enfant se situe à un sigma de régression vers l'unité moyenne calculée de poids corporel - (y) pour une taille donnée (x) ( y ± 1 σ Ry/x).
Le développement physique est considéré comme disharmonieux en termes de poids corporel si le poids corporel de l’enfant pour une certaine taille se situe dans le deuxième sigma de régression : (y ± 2 σ Ry/x)
Le développement physique sera fortement disharmonieux en raison à la fois d'un poids corporel excessif et insuffisant si le poids corporel pour une certaine taille se situe dans le troisième sigma de régression (y ± 3 σ Ry/x).

D'après les résultats d'une étude statistique du développement physique des garçons de 5 ans, on sait que leur taille moyenne (x) est de 109 cm et leur poids corporel moyen (y) est de 19 kg. Le coefficient de corrélation entre la taille et le poids corporel est de +0,9, les écarts types sont présentés dans le tableau.

Requis:

calculer le coefficient de régression ;
à l'aide de l'équation de régression, déterminez quel sera le poids corporel attendu des garçons de 5 ans ayant une taille égale à x1 = 100 cm, x2 = 110 cm, x3 = 120 cm ;
calculer le sigma de régression, construire une échelle de régression et présenter graphiquement les résultats de sa solution ;
tirer les conclusions appropriées.

Les conditions du problème et les résultats de sa solution sont présentés dans le tableau récapitulatif.

Tableau 1

Conditions problématiques				Résultats de la résolution du problème
Conditions problématiques				équation de régression			sigma de régression	échelle de régression (poids corporel attendu (en kg))
	M	σ	r xy	Ry/x	X	U	σRx/y	y - σ Rу/х	y + σ Rу/х
1	2	3	4	5	6	7	8	9	10
Hauteur (x)	109 cm	± 4,4 cm	+0,9	0,16	100 cm	17,56 kg	± 0,35 kg	17,21 kg	17,91 kg
Masse corporelle (y)	19kg	± 0,8 kg			110cm	19,16 kg		18,81 kg	19,51 kg
Masse corporelle (y)	19kg	± 0,8 kg			120 cm	20,76 kg		20,41 kg	21,11 kg

Solution.

Conclusion. Ainsi, l'échelle de régression dans les limites des valeurs calculées du poids corporel permet de le déterminer à toute autre valeur de taille ou d'évaluer le développement individuel de l'enfant. Pour ce faire, restaurez la perpendiculaire à la droite de régression.

Vlassov V.V. Épidémiologie. - M. : GEOTAR-MED, 2004. - 464 p.
Lisitsyne Yu.P. Santé publique et soins de santé. Manuel pour les universités. - M. : GEOTAR-MED, 2007. - 512 p.
Medic V.A., Yuryev V.K. Cours magistral sur la santé publique et les soins de santé : Partie 1. Santé publique. - M. : Médecine, 2003. - 368 p.
Minyaev V.A., Vishnyakov N.I. et autres. Médecine sociale et organisation des soins (Manuel en 2 volumes). - Saint-Pétersbourg, 1998. -528 p.
Kucherenko V.Z., Agarkov N.M. et autres. Hygiène sociale et organisation des soins de santé ( Tutoriel) - Moscou, 2000. - 432 p.
S. Glanz. Statistiques médicales et biologiques. Traduction de l’anglais - M., Praktika, 1998. - 459 p.

Utiliser la méthode graphique.
Cette méthode est utilisée pour image visuelle formes de connexion entre les indicateurs économiques étudiés. Pour ce faire, un graphique est dessiné dans un système de coordonnées rectangulaires, les valeurs individuelles de la caractéristique résultante Y sont tracées le long de l'axe des ordonnées et les valeurs individuelles de la caractéristique factorielle X sont tracées le long de l'axe des abscisses.
L'ensemble des points des caractéristiques résultantes et factorielles est appelé champ de corrélation.
A partir du champ de corrélation, une hypothèse peut être émise (par exemple population) que la relation entre toutes les valeurs possibles de X et Y est linéaire.

Équation de régression linéaire a la forme y = bx + a + ε
Ici ε est une erreur aléatoire (déviation, perturbation).
Raisons de l'existence d'une erreur aléatoire :
1. Défaut d’inclure des variables explicatives significatives dans le modèle de régression ;
2. Agrégation de variables. Par exemple, la fonction de consommation totale est une tentative expression générale global des décisions individuelles en matière de dépenses. Il ne s’agit ici que d’une approximation de relations individuelles ayant des paramètres différents.
3. Description incorrecte de la structure du modèle ;
4. Spécification fonctionnelle incorrecte ;
5. Erreurs de mesure.
Puisque les écarts ε i pour chaque observation spécifique i sont aléatoires et que leurs valeurs dans l'échantillon sont inconnues, alors :
1) à partir des observations x i et y i, on ne peut obtenir que des estimations des paramètres α et β
2) Les estimations des paramètres α et β du modèle de régression sont respectivement les valeurs a et b, qui sont de nature aléatoire, car correspondre à un échantillon aléatoire ;
Ensuite, l'équation de régression d'estimation (construite à partir de données d'échantillon) aura la forme y = bx + a + ε, où e i sont les valeurs observées (estimations) des erreurs ε i , et a et b sont, respectivement, des estimations de les paramètres α et β du modèle de régression qu’il convient de retrouver.
Pour estimer les paramètres α et β, la méthode des moindres carrés (méthode des moindres carrés) est utilisée.
Système d'équations normales.

Pour nos données, le système d’équations a la forme :

10a + 356b = 49
356a + 2135b = 9485

À partir de la première équation, nous exprimons a et le substituons dans la deuxième équation
On obtient b = 68,16, a = 11,17

Équation de régression:
y = 68,16 x - 11,17

1. Paramètres de l'équation de régression.
Échantillon signifie.

Exemples d'écarts.

Écart type

1.1. Coefficient de corrélation
Nous calculons l'indicateur de proximité de la connexion. Cet indicateur est un exemple de coefficient de corrélation linéaire, calculé par la formule :

Le coefficient de corrélation linéaire prend des valeurs de –1 à +1.
Les liens entre les caractéristiques peuvent être faibles et forts (étroits). Leurs critères sont évalués selon l'échelle de Chaddock :
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
Dans notre exemple, le lien entre le trait Y et le facteur X est très élevé et direct.

1.2. Équation de régression(estimation de l'équation de régression).

L'équation de régression linéaire est y = 68,16 x -11,17
Les coefficients d’une équation de régression linéaire peuvent avoir une signification économique. Coefficient de l'équation de régression montre combien d'unités. le résultat changera lorsque le facteur changera de 1 unité.
Le coefficient b = 68,16 montre l'évolution moyenne de l'indicateur effectif (en unités de mesure y) avec une augmentation ou une diminution de la valeur du facteur x par unité de sa mesure. DANS dans cet exemple avec une augmentation de 1 unité, y augmente en moyenne de 68,16.
Le coefficient a = -11,17 montre formellement le niveau prédit de y, mais seulement si x = 0 est proche des valeurs de l'échantillon.
Mais si x = 0 est loin des valeurs d'échantillon de x , alors une interprétation littérale peut conduire à des résultats incorrects, et même si la droite de régression décrit assez précisément les valeurs d'échantillon observées, rien ne garantit que cela le sera également être le cas lors d’une extrapolation à gauche ou à droite.
En remplaçant les valeurs x appropriées dans l'équation de régression, nous pouvons déterminer les valeurs alignées (prévues) de l'indicateur de performance y(x) pour chaque observation.
La relation entre y et x détermine le signe du coefficient de régression b (si > 0 - relation directe, sinon - inverse). Dans notre exemple, la connexion est directe.

1.3. Coefficient d'élasticité.
Il n'est pas conseillé d'utiliser des coefficients de régression (dans l'exemple b) pour évaluer directement l'influence de facteurs sur une caractéristique résultante s'il existe une différence dans les unités de mesure de l'indicateur résultant y et de la caractéristique factorielle x.
À ces fins, des coefficients d'élasticité et des coefficients bêta sont calculés. Le coefficient d'élasticité est trouvé par la formule :

Il montre de quel pourcentage en moyenne l'attribut effectif y change lorsque l'attribut du facteur x change de 1 %. Il ne prend pas en compte le degré de fluctuation des facteurs.
Dans notre exemple, le coefficient d'élasticité est supérieur à 1. Ainsi, si X change de 1 %, Y changera de plus de 1 %. En d’autres termes, X affecte significativement Y.
Coefficient bêta montre par quelle partie de la valeur de sa moyenne écart carré la valeur moyenne de la caractéristique résultante changera lorsque la caractéristique factorielle changera de la valeur de son écart type avec la valeur des variables indépendantes restantes fixées à un niveau constant :

Ceux. une augmentation de x de l'écart type de cet indicateur entraînera une augmentation de la moyenne Y de 0,9796 écart type de cet indicateur.

1.4. Erreur d'approximation.
Évaluons la qualité de l'équation de régression en utilisant l'erreur d'approximation absolue.

Puisque l'erreur est supérieure à 15 %, alors équation donnée Il n’est pas conseillé de l’utiliser comme régression.

1.6. Coefficient de détermination.
Le carré du coefficient de corrélation (multiple) est appelé coefficient de détermination, qui montre la proportion de variation de l'attribut résultant expliquée par la variation de l'attribut facteur.
Le plus souvent, lors de l'interprétation du coefficient de détermination, celui-ci est exprimé en pourcentage.
R2 = 0,982 = 0,9596
ceux. dans 95,96 % des cas, les modifications de x entraînent des modifications de y. En d’autres termes, la précision de la sélection de l’équation de régression est élevée. Les 4,04 % restants de la variation de Y s’expliquent par des facteurs non pris en compte dans le modèle.

x	oui	x2	et 2	xy	y(x)	(y je -y cp) 2	(a-y(x)) 2	(x je -x cp) 2	\|y - yx \|:y
0.371	15.6	0.1376	243.36	5.79	14.11	780.89	2.21	0.1864	0.0953
0.399	19.9	0.1592	396.01	7.94	16.02	559.06	15.04	0.163	0.1949
0.502	22.7	0.252	515.29	11.4	23.04	434.49	0.1176	0.0905	0.0151
0.572	34.2	0.3272	1169.64	19.56	27.81	87.32	40.78	0.0533	0.1867
0.607	44.5	.3684	1980.25	27.01	30.2	0.9131	204.49	0.0383	0.3214
0.655	26.8	0.429	718.24	17.55	33.47	280.38	44.51	0.0218	0.2489
0.763	35.7	0.5822	1274.49	27.24	40.83	61.54	26.35	0.0016	0.1438
0.873	30.6	0.7621	936.36	26.71	48.33	167.56	314.39	0.0049	0.5794
2.48	161.9	6.17	26211.61	402	158.07	14008.04	14.66	2.82	0.0236
7.23	391.9	9.18	33445.25	545.2	391.9	16380.18	662.54	3.38	1.81

2. Estimation des paramètres de l'équation de régression.
2.1. Importance du coefficient de corrélation.

En utilisant le tableau de Student avec un niveau de signification α=0,05 et des degrés de liberté k=7, on trouve t crit :
t critique = (7;0,05) = 1,895
où m = 1 est le nombre de variables explicatives.
Si t observé > t critique, alors la valeur résultante du coefficient de corrélation est considérée comme significative (l'hypothèse nulle selon laquelle le coefficient de corrélation est égal à zéro est rejetée).
Puisque t obs > t crit, nous rejetons l’hypothèse selon laquelle le coefficient de corrélation est égal à 0. En d’autres termes, le coefficient de corrélation est statistiquement significatif
Dans la régression linéaire appariée t 2 r = t 2 b, puis tester les hypothèses sur la signification des coefficients de régression et de corrélation équivaut à tester l'hypothèse sur la signification équation linéaire régression.

2.3. Analyse de l'exactitude de la détermination des estimations des coefficients de régression.
Une estimation impartiale de la dispersion des perturbations est la valeur :

S 2 y = 94,6484 - variance inexpliquée (une mesure de la propagation de la variable dépendante autour de la droite de régression).
S y = 9,7287 - erreur type estimations (erreur type de régression).
S une - écart type variable aléatoire a.

S b - écart type de la variable aléatoire b.

2.4. Intervalles de confiance pour la variable dépendante.
Les prévisions économiques basées sur le modèle construit supposent que les relations préexistantes entre les variables sont maintenues pendant la période de référence.
Pour prédire la variable dépendante de l'attribut résultant, il est nécessaire de connaître les valeurs prédites de tous les facteurs inclus dans le modèle.
Les valeurs prévisionnelles des facteurs sont substituées dans le modèle et des estimations prévisionnelles ponctuelles de l'indicateur étudié sont obtenues.
(une + bx p ± ε)

Où
(50.53;63.44)

Calculons les limites de l'intervalle dans lequel 95% des valeurs possibles de Y seront concentrées avec un nombre illimité d'observations et X p = 1 (-11,17 + 68,16*1 ± 6,4554) Individuel intervalles de confianceOuiPourà une valeur donnée.
X
(une + bx je ± ε)

x je	y = -11,17 + 68,16x je	ε je	ymin	ymax
0.371	14.11	19.91	-5.8	34.02
0.399	16.02	19.85	-3.83	35.87
0.502	23.04	19.67	3.38	42.71
0.572	27.81	19.57	8.24	47.38
0.607	30.2	19.53	10.67	49.73
0.655	33.47	19.49	13.98	52.96
0.763	40.83	19.44	21.4	60.27
0.873	48.33	19.45	28.88	67.78
2.48	158.07	25.72	132.36	183.79

Avec une probabilité de 95 %, il est possible de garantir que la valeur Y pour un nombre illimité d'observations ne sortira pas des limites des intervalles trouvés.

2.5. Tester des hypothèses concernant les coefficients d'une équation de régression linéaire.
1) statistiques t. Test T de l'étudiant.
Vérifions l'hypothèse H 0 sur l'égalité des coefficients de régression individuels à zéro (si l'alternative n'est pas égale à H 1) au niveau de signification α=0,05.
t critique = (7;0,05) = 1,895

Puisque 12,8866 > 1,895, la signification statistique du coefficient de régression b est confirmée (nous rejetons l'hypothèse selon laquelle ce coefficient est égal à zéro).

Puisque 2,0914 > 1,895, la signification statistique du coefficient de régression a est confirmée (nous rejetons l'hypothèse selon laquelle ce coefficient est égal à zéro).

Intervalle de confiance pour les coefficients de l’équation de régression.
Déterminons les intervalles de confiance des coefficients de régression, qui avec une fiabilité de 95 % seront les suivants :
(b - t critique S b ; b + t critique S b)
(68.1618 - 1.895 5.2894; 68.1618 + 1.895 5.2894)
(58.1385;78.1852)
Avec une probabilité de 95 %, on peut affirmer que la valeur ce paramètre se situera dans l'intervalle trouvé.
(une - ta)
(-11.1744 - 1.895 5.3429; -11.1744 + 1.895 5.3429)
(-21.2992;-1.0496)
Avec une probabilité de 95 %, on peut affirmer que la valeur de ce paramètre se situera dans l'intervalle trouvé.

2) Statistiques F. Critère de Fisher.
Le test de la signification d'un modèle de régression est effectué à l'aide du test F de Fisher, dont la valeur calculée est le rapport entre la variance de la série originale d'observations de l'indicateur étudié et l'estimation non biaisée de la variance de la séquence résiduelle. pour ce modèle.
Si la valeur calculée avec lang=EN-US>n-m-1) degrés de liberté est supérieure à la valeur tabulée à un niveau de signification donné, alors le modèle est considéré comme significatif.

où m est le nombre de facteurs dans le modèle.
La signification statistique de la régression linéaire appariée est évaluée à l'aide de l'algorithme suivant :
1. Une hypothèse nulle est émise selon laquelle l'équation dans son ensemble est statistiquement non significative : H 0 : R 2 =0 au niveau de signification α.
2. Ensuite, déterminez la valeur réelle du critère F :

où m=1 pour la régression par paires.
3. La valeur tabulée est déterminée à partir des tableaux de distribution de Fisher pour un niveau de signification donné, en tenant compte du fait que le nombre de degrés de liberté pour la somme totale des carrés (variance plus grande) est de 1 et le nombre de degrés de liberté pour le résidu la somme des carrés (variance plus petite) dans la régression linéaire est n-2 .
4. Si la valeur réelle du test F est inférieure à la valeur du tableau, alors ils disent qu'il n'y a aucune raison de rejeter l'hypothèse nulle.
Sinon, l’hypothèse nulle est rejetée et avec probabilité (1-α) l’hypothèse alternative concernant signification statistique les équations en général.
Valeur tabulaire du critère avec degrés de liberté k1=1 et k2=7, Fkp = 5,59
Puisque la valeur réelle de F > Fkp, le coefficient de détermination est statistiquement significatif (l'estimation trouvée de l'équation de régression est statistiquement fiable).

Vérification de l'autocorrélation des résidus.
Une condition préalable importante pour construire un modèle de régression qualitative à l'aide des MCO est l'indépendance des valeurs des écarts aléatoires par rapport aux valeurs des écarts dans toutes les autres observations. Cela garantit qu'il n'y a aucune corrélation entre d'éventuels écarts et, en particulier, entre des écarts adjacents.
Autocorrélation (corrélation série) est définie comme la corrélation entre les indicateurs observés ordonnés dans le temps (séries temporelles) ou dans l’espace (séries croisées). L'autocorrélation des résidus (variances) est courante dans l'analyse de régression lors de l'utilisation de données de séries chronologiques et très rare lors de l'utilisation de données transversales.
Dans les problèmes économiques, c'est beaucoup plus courant autocorrélation positive, plutôt que autocorrélation négative. Dans la plupart des cas, une autocorrélation positive est causée par l’influence directionnelle constante de certains facteurs non pris en compte dans le modèle.
Autocorrélation négative signifie en fait qu’un écart positif est suivi d’un écart négatif et vice versa. Cette situation peut se produire si la même relation entre la demande de boissons gazeuses et le revenu est considérée selon les données saisonnières (hiver-été).
Parmi principales raisons provoquant l'autocorrélation, on distingue :
1. Erreurs de spécification. La non-prise en compte d'une variable explicative importante dans le modèle ou un choix incorrect de la forme de dépendance conduit généralement à des écarts systémiques des points d'observation par rapport à la droite de régression, ce qui peut conduire à une autocorrélation.
2. Inertie. Beaucoup indicateurs économiques(inflation, chômage, PNB, etc.) ont un certain caractère cyclique lié à l'ondulation de l'activité des entreprises. Par conséquent, le changement des indicateurs ne se produit pas instantanément, mais présente une certaine inertie.
3. Effet toile d'araignée. Dans de nombreux domaines manufacturiers et autres, les indicateurs économiques réagissent aux changements conditions économiques avec retard (décalage).
4. Lissage des données. Souvent, les données sur une certaine période longue sont obtenues en faisant la moyenne des données sur les intervalles qui les constituent. Cela peut conduire à un certain lissage des fluctuations survenues au cours de la période considérée, ce qui peut provoquer une autocorrélation.
Les conséquences de l'autocorrélation sont similaires aux conséquences de l'hétéroscédasticité : les conclusions des statistiques t et F qui déterminent la signification du coefficient de régression et du coefficient de détermination sont probablement incorrectes.

Détection d'autocorrélation

1. Méthode graphique
Il existe un certain nombre d'options pour définir graphiquement l'autocorrélation. L'un d'eux relie les écarts e i aux moments de leur réception i. Dans ce cas, l'axe des abscisses indique soit l'heure d'obtention des données statistiques, soit numéro de série observations, et le long de l'ordonnée - écarts e i (ou estimations des écarts).
Il est naturel de supposer que s’il existe un certain lien entre les écarts, une autocorrélation se produit. L’absence de dépendance indiquera très probablement l’absence d’autocorrélation.
L'autocorrélation devient plus claire si vous tracez la dépendance de e i sur e i-1.

Test de Durbin-Watson.
Ce critère est le plus connu pour détecter l’autocorrélation.
Lors de l'analyse statistique des équations de régression, au stade initial, la faisabilité d'une condition préalable est souvent vérifiée : les conditions d'indépendance statistique des écarts entre eux. Dans ce cas, la décorrélation des valeurs voisines e i est vérifiée.

oui	y(x)	e je = y-y(x)	e 2	(e je - e je-1) 2
15.6	14.11	1.49	2.21	0
19.9	16.02	3.88	15.04	5.72
22.7	23.04	-0.3429	0.1176	17.81
34.2	27.81	6.39	40.78	45.28
44.5	30.2	14.3	204.49	62.64
26.8	33.47	-6.67	44.51	439.82
35.7	40.83	-5.13	26.35	2.37
30.6	48.33	-17.73	314.39	158.7
161.9	158.07	3.83	14.66	464.81
			662.54	1197.14

Pour analyser la corrélation des écarts, les statistiques de Durbin-Watson sont utilisées :

Les valeurs critiques d 1 et d 2 sont déterminées sur la base de tableaux spéciaux pour le niveau de signification requis α, le nombre d'observations n = 9 et le nombre de variables explicatives m = 1.
Il n’y a pas d’autocorrélation si la condition suivante est remplie :
j 1< DW и d 2 < DW < 4 - d 2 .
Sans vous référer aux tableaux, vous pouvez utiliser une règle approximative et supposer qu'il n'y a pas d'autocorrélation des résidus si 1,5< DW < 2.5. Для более надежного вывода целесообразно обращаться к табличным значениям.

Estimation des paramètres de régression linéaire. Bases de la régression linéaire

Estimation des paramètres de régression linéaire. Bases de la régression linéaire

Article précédent

Entrée suivante

Nouveaux articles

Articles populaires