Régression dans Excel : équation, exemples. Régression linéaire
Pour évaluer la significativité et la signification du coefficient de corrélation, le test t de Student est utilisé.
L'erreur moyenne du coefficient de corrélation est trouvée à l'aide de la formule :
N
et sur la base de l'erreur, le critère t est calculé :
La valeur calculée du test t est comparée à la valeur tabulée trouvée dans le tableau de distribution de Student à un niveau de signification de 0,05 ou 0,01 et au nombre de degrés de liberté n-1. Si la valeur calculée du test t est supérieure à la valeur du tableau, alors le coefficient de corrélation est considéré comme significatif.
Dans le cas d'une relation curviligne, le test F est utilisé pour évaluer la signification de la relation de corrélation et de l'équation de régression. Il est calculé par la formule :
ou
où η est le rapport de corrélation ; n – nombre d'observations ; m – nombre de paramètres dans l’équation de régression.
La valeur F calculée est comparée à celle tabulée pour le niveau de signification accepté α (0,05 ou 0,01) et les nombres de degrés de liberté k 1 = m-1 et k 2 = n-m. Si la valeur F calculée dépasse le tableau, la relation est considérée comme significative.
La significativité du coefficient de régression est établie à l'aide du test t de Student, qui est calculé à l'aide de la formule :
où σ 2 et i sont la variance du coefficient de régression.
Il est calculé par la formule :
où k est le nombre de caractéristiques factorielles dans l’équation de régression.
Le coefficient de régression est considéré comme significatif si t a 1 ≥t cr.
t cr se retrouve dans le tableau des points critiques de la distribution de Student au niveau de signification accepté et au nombre de degrés de liberté k=n-1.
4.3. Analyse de corrélation et de régression dans Excel – le rendement des cultures céréalières, dans les cellules B1:B30, la valeur de la caractéristique résultante est le coût de la main-d'œuvre pour 1 quintal de grain. Dans le menu Outils, sélectionnez l'option Analyse des données. En faisant un clic gauche sur cet élément, nous ouvrirons l'outil de régression. Cliquez sur le bouton OK et la boîte de dialogue Régression apparaît à l'écran. Dans le champ Intervalle de saisie Y, saisissez les valeurs de la caractéristique résultante (en mettant en surbrillance les cellules B1 : B30), dans le champ Intervalle de saisie X, saisissez les valeurs de la caractéristique factorielle (en mettant en surbrillance les cellules A1 : A30). Marquez le niveau de probabilité de 95 % et sélectionnez Nouvelle feuille de calcul. Cliquez sur le bouton OK. Le tableau « CONCLUSION DES RÉSULTATS » apparaît sur la feuille de calcul, qui fournit les résultats du calcul des paramètres de l'équation de régression, du coefficient de corrélation et d'autres indicateurs qui permettent de déterminer l'importance du coefficient de corrélation et des paramètres de l'équation de régression.
CONCLUSION DES RÉSULTATS | ||||||||
Statistiques de régression | ||||||||
Pluriel R | ||||||||
Carré R | ||||||||
R carré normalisé | ||||||||
Erreur type | ||||||||
Observations | ||||||||
Analyse de variance | ||||||||
Signification F | ||||||||
Régression | ||||||||
Chances |
Erreur type |
statistique t |
Valeur P |
95 % inférieurs |
Meilleurs 95 % |
95,0 % inférieurs |
Meilleurs 95,0 % |
|
Intersection en Y | ||||||||
Variable X 1 |
Dans ce tableau, « Multiple R » est le coefficient de corrélation, « R-carré » est le coefficient de détermination. « Coefficients : Y-intersection » - terme libre de l'équation de régression 2,836242 ; « Variable X1 » – coefficient de régression -0,06654. Il existe également des valeurs du test F de Fisher 74,9876, du test t de Student 14,18042, " Erreur type 0,112121", qui sont nécessaires pour évaluer la signification du coefficient de corrélation, des paramètres de l'équation de régression et de l'ensemble de l'équation.
Sur la base des données du tableau, nous construirons une équation de régression : y x = 2,836-0,067x. Le coefficient de régression a 1 = -0,067 signifie qu'avec une augmentation du rendement en céréales de 1 c/ha, les coûts de main-d'œuvre par 1 c de céréales diminuent de 0,067 heure-homme.
Le coefficient de corrélation est r=0,85>0,7, la relation entre les caractéristiques étudiées dans cette population est donc étroite. Le coefficient de détermination r 2 =0,73 montre que 73 % de la variation du caractère effectif (coûts de main-d'œuvre par quintal de grain) est causée par l'action du trait facteur (rendement en grain).
Dans le tableau des points critiques de la distribution de Fisher-Snedecor, on retrouve la valeur critique du test F au niveau de signification 0,05 et le nombre de degrés de liberté k 1 =m-1=2-1=1 et k 2 =n-m=30-2=28, il est égal à 4,21. Puisque la valeur calculée du critère est supérieure à celle tabulée (F=74,9896>4,21), l'équation de régression est considérée comme significative.
Pour évaluer la signification du coefficient de corrélation, calculons le test t de Student :
DANS
Dans le tableau des points critiques de la distribution de Student, on retrouve la valeur critique du test t au niveau de signification 0,05 et le nombre de degrés de liberté n-1=30-1=29, il est égal à 2,0452. La valeur calculée étant supérieure à la valeur du tableau, le coefficient de corrélation est significatif.
Nous vérifierons la signification de l'équation de régression basée sur
Test F de Fisher :
La valeur du test F de Fisher se trouve dans le tableau Analyse de variance du protocole Excel. La valeur tabulée du test F avec une probabilité de confiance de α = 0,95 et le nombre de degrés de liberté égal à v1 = k = 2 et v2 = n – k – 1 = 50 – 2 – 1 = 47 est de 0,051.
Puisque Fcal > Ftable, l'équation de régression doit être considérée comme significative, c'est-à-dire qu'elle peut être utilisée à des fins d'analyse et de prévision.
L'importance des coefficients du modèle résultant peut être évaluée à l'aide des résultats du rapport Excel de trois manières.
Le coefficient de l'équation de régression est considéré comme significatif si :
1) la valeur observée de la statistique t de Student pour ce coefficient est supérieure à la valeur critique (tabulaire) des statistiques de Student (pour un niveau de signification donné, par exemple α = 0,05, et le nombre de degrés de liberté df = n – k – 1, où n est le nombre d'observations et k est le nombre de facteurs dans le modèle) ;
2) La valeur P de la statistique t de Student pour ce coefficient est inférieure au niveau de signification, par exemple α = 0,05 ;
3) l'intervalle de confiance pour ce coefficient, calculé avec une certaine probabilité de confiance (par exemple, 95 %), ne contient pas zéro en lui-même, c'est-à-dire que les limites inférieures de 95 % et supérieures de 95 % de l'intervalle de confiance ont les mêmes signes .
Importance des coefficients un1 Et un2 Vérifions en utilisant les deuxième et troisième méthodes :
Valeur P ( un1 ) = 0,00 < 0,01 < 0,05.
Valeur P ( un2 ) = 0,00 < 0,01 < 0,05.
Par conséquent, les coefficients un1 Et un2 significatif au seuil de 1 %, et encore plus au seuil de signification de 5 %. Les limites inférieure et supérieure à 95 % de l'intervalle de confiance ont les mêmes signes, donc les coefficients un1 Et un2 significatif.
Déterminer la variable explicative à partir de laquelle
La variance des perturbations aléatoires peut en dépendre.
Vérification du respect de la condition d'homoscédasticité
Résidus selon le test de Goldfeld-Quandt
Lorsqu’on teste l’hypothèse OLS selon laquelle les résidus sont homoscédastiques dans un modèle de régression multiple, il faut d’abord déterminer par rapport auquel des facteurs la dispersion des résidus est la plus perturbée. Cela peut être fait en examinant visuellement les tracés résiduels tracés pour chacun des facteurs inclus dans le modèle. La variable explicative dont dépend le plus la variance des perturbations aléatoires sera ordonnée par valeurs réelles croissantes lors de la vérification du test de Goldfeld-Quandt. Les graphiques peuvent être facilement obtenus dans le rapport, généré à l'aide de l'outil de régression du package d'analyse de données).
Graphiques des résidus pour chaque facteur du modèle à deux facteurs
Il ressort clairement des graphiques présentés que la dispersion des soldes est la plus perturbée en ce qui concerne le facteur créances à court terme.
Vérifions la présence d'homoscédasticité dans les résidus du modèle à deux facteurs basé sur le test de Goldfeld-Quandt.
Retirons du milieu de l'ensemble ordonné C = 1/4 · n = 1/4 · 50 = 12,5 (12) valeurs. En conséquence, nous obtenons deux populations avec respectivement des valeurs petites et grandes de X4.
Pour chaque ensemble, nous effectuons les calculs suivants :
Classons les variables Y et X2 par ordre croissant du facteur X4 (sous Excel, vous pouvez utiliser la commande Données – Trier Ascendant X4) :
Données triées par ordre croissant X4 : |
||
Somme |
111234876536,511 |
||||
966570797682,068 |
|||||
455748832843,413 |
|||||
232578961097,877 |
|||||
834043911651,192 |
|||||
193722998259,505 |
|||||
1246409153509,290 |
|||||
31419681912489,100 |
|||||
2172804245053,280 |
|||||
768665257272,099 |
|||||
2732445494273,330 |
|||||
163253156450,331 |
|||||
18379855056009,900 |
|||||
10336693841766,000 |
|||||
Somme |
69977593738424,600 |
Équations pour les populations
Y = -27275,746 + 0,126X2 + 1,817X4
Y = 61439,511 + 0,228X2 + 0,140X4
Les résultats de ce tableau ont été obtenus à l'aide de l'outil de régression pour chacune des populations résultantes tour à tour.
4. Trouvez le rapport des sommes de carrés résiduelles résultantes
(le numérateur doit avoir un montant plus grand) :
5. Nous concluons que les résidus sont homoscédastiques en utilisant le test F de Fisher avec un niveau de signification de α = 0,05 et deux degrés de liberté identiques k1 = k2 = == 17
où p est le nombre de paramètres de l'équation de régression :
Ftable (0,05 ; 17 ; 17) = 9,28.
Puisque Ftable > R, l'homoscédasticité des résidus de la régression à deux facteurs est confirmée.
Tests finaux en économétrie
1. La signification des paramètres de l'équation de régression est évaluée sur la base de :
A) t - Test d'étudiant ;
b) Test F de Fisher-Snedecor ;
c) erreur quadratique moyenne ;
d) erreur d'approximation moyenne.
2. Le coefficient de régression dans l'équation caractérisant la relation entre le volume de produits vendus (millions de roubles) et le bénéfice des entreprises de l'industrie automobile pour l'année (millions de roubles) signifie qu'avec une augmentation du volume de produits vendus par 1 millions de roubles le bénéfice augmente de :
d) 0,5 million. frotter.;
c) 500 mille. frotter.;
D) 1,5 million de roubles.
3. Le rapport de corrélation (indice de corrélation) mesure le degré d'étroitesse du lien entre X etOui:
a) uniquement avec une forme de dépendance non linéaire ;
B) pour toute forme de dépendance ;
c) uniquement pour la dépendance linéaire.
4. Selon le sens de la communication, il y a :
a) modéré ;
B) droit ;
c) droit.
5. Sur la base de 17 observations, une équation de régression a été construite :
.
Pour vérifier la signification de l’équation, nous avons calculévaleur observéet- statistiques : 3.9. Conclusion:
A) L'équation est significative pour un = 0,05;
b) L'équation est insignifiante à a = 0,01 ;
c) L'équation est insignifiante à a = 0,05.
6. Quelles sont les conséquences de la violation de l'hypothèse OLS « l'espérance mathématique des résidus de régression est nulle » ?
A) Estimations biaisées des coefficients de régression ;
b) Estimations efficaces mais incohérentes des coefficients de régression ;
c) Estimations inefficaces des coefficients de régression ;
d) Estimations incohérentes des coefficients de régression.
7. Lequel des énoncés suivants est vrai si les résidus sont hétéroscédastiques ?
A) Les conclusions basées sur les statistiques t et F ne sont pas fiables ;
d) Les estimations des paramètres de l'équation de régression sont biaisées.
8. Sur quoi est basé le test ? corrélation de rang Lancier?
A) Utilisation de t – statistiques ;
c) En cours d'utilisation ;
9. Sur quoi est basé le test de White ?
b) Utilisation des statistiques F ;
B) En cours d'utilisation ;
d) Sur l'analyse graphique des résidus.
10. Quelle méthode peut être utilisée pour éliminer l’autocorrélation ?
11. Comment s'appelle la violation de l'hypothèse de variance constante des résidus ?
a) Multicolinéarité ;
b) autocorrélation ;
B) Hétéroscédasticité ;
d) Homoscédasticité.
12. Des variables fictives sont saisies dans :
a) uniquement dans les modèles linéaires ;
b) uniquement en régression non linéaire multiple ;
c) uniquement dans les modèles non linéaires ;
D) modèles linéaires et non linéaires réduits à une forme linéaire.
13. Si dans la matrice des coefficients de corrélation de paires il y a
, alors cela indique :
A) À propos de la présence de multicolinéarité ;
b) Sur l'absence de multicolinéarité ;
c) À propos de la présence d'autocorrélation ;
d) À propos de l'absence d'hétéroscédasticité.
14. Quelle mesure ne peut pas être utilisée pour éliminer la multicolinéarité ?
a) Augmenter la taille de l'échantillon ;
D) Transformation de la composante aléatoire.
15. Si
et le rang de la matrice A est inférieur à (K-1) alors l'équation est :
a) suridentifié ;
B) non identifié ;
c) identifié avec précision.
16. L'équation de régression a la forme :
UN)
;
b)
;
V)
.
17.Quel est le problème de l'identification du modèle ?
A) obtenir des paramètres déterminés de manière unique du modèle spécifié par un système d'équations simultanées ;
b) sélection et mise en œuvre de méthodes d'estimation statistique de paramètres de modèle inconnus à l'aide de données statistiques initiales ;
c) vérifier l'adéquation du modèle.
18. Quelle méthode est utilisée pour estimer les paramètres d'une équation suridentifiée ?
B) DMNK, CMNK ;
19. Si une variable qualitative akvaleurs alternatives, les éléments suivants sont utilisés dans la modélisation :
A) (k-1) variable muette ;
b) kvariables fictives ;
c) (k+1) variable muette.
20. L'analyse de l'étroitesse et de la direction des liens entre deux caractéristiques est réalisée sur la base de :
A) coefficient de corrélation de paire ;
b) coefficient de détermination ;
c) coefficient de corrélation multiple.
21. Dans une équation linéaire x = UN 0 +un 1 Le coefficient de régression x montre :
a) proximité de la communication ;
b) la proportion de variance « Y » dépendant de « X » ;
C) de combien « Y » changera-t-il en moyenne lorsque « X » changera d'une unité ;
d) erreur du coefficient de corrélation.
22. Quel indicateur est utilisé pour déterminer la part de la variation due aux changements de la valeur du facteur étudié ?
a) coefficient de variation ;
b) coefficient de corrélation ;
B) coefficient de détermination ;
d) coefficient d'élasticité.
23. Le coefficient d'élasticité montre :
A) de combien de % la valeur de y changera-t-elle lorsque x changera de 1 % ;
b) de combien d'unités de mesure la valeur de y changera-t-elle lorsque x changera de 1 % ;
c) de quel % la valeur de y changera-t-elle lorsque x changera d'unité. sa dimension.
24. Quelles méthodes peuvent être utilisées pour détecter l'hétéroscédasticité?
A) Test Golfeld-Quandt ;
B) Test de corrélation de rang de Spearman ;
c) Test de Durbin-Watson.
25. Sur quoi est basé le test de Holfeld-Quandt ?
a) Utiliser les statistiques t ;
B) Utilisation de F – statistiques ;
c) En cours d'utilisation ;
d) Sur l'analyse graphique des résidus.
26. Quelles méthodes ne peuvent pas être utilisées pour éliminer l'autocorrélation des résidus ?
a) Méthode des moindres carrés généralisés ;
B) Méthode des moindres carrés pondérés ;
C) Méthode du maximum de vraisemblance ;
D) Méthode des moindres carrés en deux étapes.
27. Comment s'appelle la violation de l'hypothèse d'indépendance des résidus ?
a) Multicolinéarité ;
B) Autocorrélation ;
c) Hétéroscédasticité ;
d) Homoscédasticité.
28. Quelle méthode peut être utilisée pour éliminer l'hétéroscédasticité ?
A) Méthode des moindres carrés généralisés ;
b) Méthode des moindres carrés pondérés ;
c) Méthode du maximum de vraisemblance ;
d) Méthode des moindres carrés en deux étapes.
30. Si, selont-critère, la plupart des coefficients de régression sont statistiquement significatifs, et le modèle dans son ensembleF- le critère est non significatif, cela peut indiquer :
a) Multicolinéarité ;
B) À propos de l'autocorrélation des résidus ;
c) Sur l'hétéroscédasticité des résidus ;
d) Cette option est impossible.
31. Est-il possible de se débarrasser de la multicolinéarité en utilisant la transformation variable ?
a) Cette mesure n'est efficace que si la taille de l'échantillon est augmentée ;
32. Par quelle méthode peut-on trouver des estimations du paramètre de l'équation régression linéaire:
A) méthode des moindres carrés ;
b) analyse de corrélation et de régression ;
c) analyse de variance.
33. Une équation de régression linéaire multiple avec des variables muettes a été construite. Pour vérifier la signification des coefficients individuels, utilisez distribution:
a) Normale ;
b) Test de l'étudiant ;
c) L'aéroport Pearson ;
d) Fischer-Snedecor.
34. Si
et le rang de la matrice A est supérieur à (K-1) alors l'équation est :
A) suridentifié ;
b) non identifié ;
c) identifié avec précision.
35. Pour estimer les paramètres d'un système d'équations précisément identifié, on utilise :
a) DMNK, CMNK ;
b) DMNK, MNK, CMNK ;
36. Le critère Chow repose sur l’application de :
A) F - statistiques ;
b) t - statistiques ;
c) Critères de Durbin-Watson.
37. Les variables factices peuvent prendre les valeurs suivantes :
d) toutes les valeurs.
39. Sur la base de 20 observations, une équation de régression a été construite :
.
Pour vérifier la signification de l’équation, la valeur de la statistique a été calculée :4.2. Conclusions :
a) L'équation est significative à a=0,05 ;
b) L'équation est insignifiante à a=0,05 ;
c) L'équation est insignifiante à a=0,01.
40. Lequel des énoncés suivants n'est pas vrai lorsque les résidus sont hétéroscédastiques ?
a) Les conclusions basées sur les statistiques t et F ne sont pas fiables ;
b) L'hétéroscédasticité se manifeste par une faible valeur de la statistique de Durbin-Watson ;
c) Avec l'hétéroscédasticité, les estimations restent efficaces ;
d) Les estimations sont biaisées.
41. Le test de Chow est basé sur une comparaison :
A) les écarts ;
b) coefficients de détermination ;
c) les attentes mathématiques ;
d) moyenne.
42. Si dans le test Chow
alors on considère :
A) que le partitionnement en sous-intervalles est conseillé du point de vue de l'amélioration de la qualité du modèle ;
b) le modèle est statistiquement non significatif ;
c) le modèle est statistiquement significatif ;
d) qu'il ne sert à rien de diviser l'échantillon en parties.
43. Les variables factices sont des variables :
a) haute qualité ;
b) aléatoire ;
B) quantitatif ;
d) logique.
44. Laquelle des méthodes suivantes ne peut pas être utilisée pour détecter l'autocorrélation ?
a) Méthode des séries ;
b) essai de Durbin-Watson ;
c) Test de corrélation de rang de Spearman ;
D) Test de White.
45. La forme structurelle la plus simple du modèle est la suivante :
UN)
b)
V)
g)
.
46. Quelles mesures peuvent être utilisées pour se débarrasser de la multicolinéarité ?
a) Augmenter la taille de l'échantillon ;
b) Exclusion de variables fortement corrélées avec d'autres ;
c) Modification des spécifications du modèle ;
d) Transformation de la composante aléatoire.
47. Si
et le rang de la matrice A est (K-1) alors l'équation est :
a) suridentifié ;
b) non identifié ;
B) identifié avec précision ;
48. Le modèle est considéré comme identifié si :
a) parmi les équations du modèle, il y en a au moins une normale ;
B) chaque équation du système est identifiable ;
c) parmi les équations du modèle, il y en a au moins une non identifiée ;
d) parmi les équations du modèle, il y en a au moins une suridentifiée.
49. Quelle méthode est utilisée pour estimer les paramètres d'une équation non identifiée ?
a) DMNK, CMNK ;
b) DMNK, MNK ;
C) les paramètres d'une telle équation ne peuvent pas être estimés.
50. À la jonction de quels domaines de connaissances l'économétrie est-elle née :
A) théorie économique ; économique et statistiques mathématiques;
b) théorie économique, statistiques mathématiques et théorie des probabilités ;
c) statistiques économiques et mathématiques, théorie des probabilités.
51. Dans une équation de régression linéaire multiple, les intervalles de confiance pour les coefficients de régression sont construits à l'aide de la distribution :
a) Normale ;
B) Étudiant ;
c) L'aéroport Pearson ;
d) Fischer-Snedecor.
52. Sur la base de 16 observations, une équation de régression linéaire appariée a été construite. Pourtester la significativité du coefficient de régression calculét pour 6l =2.5.
a) Le coefficient est non significatif à a=0,05 ;
b) Le coefficient est significatif à a=0,05 ;
c) Le coefficient est significatif à a=0,01.
53. On sait qu'entre les quantitésXEtOuiexisteconnexion positive. Dans quelle mesurele coefficient de corrélation de paire est-il trouvé ?
a) de -1 à 0 ;
b) de 0 à 1 ;
B) de –1 à 1.
54. Le coefficient de corrélation multiple est de 0,9. Quel pourcentagela variance du trait résultant s'explique par l'influence de toussignes de facteurs ?
55. Laquelle des méthodes suivantes ne peut pas être utilisée pour détecter l'hétéroscédasticité?
A) Test Golfeld-Quandt ;
b) Test de corrélation de rang de Spearman ;
c) méthode des séries.
56. La forme réduite du modèle est la suivante :
a) un système de fonctions non linéaires de variables exogènes à partir de variables endogènes ;
B) un système de fonctions linéaires de variables endogènes à partir de variables exogènes ;
c) un système de fonctions linéaires de variables exogènes à partir de variables endogènes ;
d) un système d'équations normales.
57. Dans quelles limites évolue le coefficient de corrélation partielle calculé à l'aide de formules récursives ?
a) de - à + ;
b) de 0 à 1 ;
c) de 0 à + ;
D) de –1 à +1.
58. Dans quelles limites le coefficient de corrélation partielle calculé via le coefficient de détermination évolue-t-il ?
a) de - à + ;
B) de 0 à 1 ;
c) de 0 à + ;
d) de –1 à +1.
59. Variables exogènes :
a) variables dépendantes ;
B) variables indépendantes ;
61. En ajoutant un autre facteur explicatif à l'équation de régression, le coefficient de corrélation multiple est :
a) diminuera ;
b) augmentera ;
c) conservera son sens.
62. Une équation de régression hyperbolique a été construite :Oui= un+ b/ X. PourPour vérifier la signification de l'équation, la distribution est utilisée :
a) Normale ;
B) Étudiant ;
c) L'aéroport Pearson ;
d) Fischer-Snedecor.
63. Pour quels types de systèmes les paramètres des équations économétriques individuelles peuvent-ils être trouvés à l'aide de la méthode traditionnelle des moindres carrés ?
a) un système d'équations normales ;
B) un système d'équations indépendantes ;
C) un système d'équations récursives ;
D) un système d'équations interdépendantes.
64. Variables endogènes :
A) variables dépendantes ;
b) variables indépendantes ;
c) daté de dates antérieures.
65. Dans quelles limites le coefficient de détermination évolue-t-il ?
a) de 0 à + ;
b) de - à + ;
B) de 0 à +1 ;
d) de -l à +1.
66. Une équation de régression linéaire multiple a été construite. Pour vérifier la signification des coefficients individuels, nous utilisons distribution:
a) Normale ;
b) Test de l'étudiant ;
c) L'aéroport Pearson ;
D) Fischer-Snedecor.
67. En ajoutant un autre facteur explicatif à l'équation de régression, le coefficient de détermination :
a) diminuera ;
B) augmentera ;
c) conservera sa signification ;
d) ne diminuera pas.
68. L’essence de la méthode des moindres carrés est la suivante :
A) l'estimation est déterminée à partir de la condition de minimisation de la somme des écarts carrés des données d'échantillon par rapport à l'estimation déterminée ;
b) l'estimation est déterminée à partir de la condition de minimisation de la somme des écarts des données d'échantillon par rapport à l'estimation déterminée ;
c) l'estimation est déterminée à partir de la condition de minimisation de la somme des écarts carrés de la moyenne de l'échantillon par rapport à la variance de l'échantillon.
69. À quelle classe de régressions non linéaires appartient la parabole :
73. À quelle classe de régressions non linéaires appartient la courbe exponentielle :
74. À quelle classe de régressions non linéaires appartient une fonction de la forme ŷ ?
:
A) des régressions non linéaires par rapport aux variables incluses dans l'analyse, mais linéaires par rapport aux paramètres estimés ;
b) régressions non linéaires sur les paramètres estimés.
78. À quelle classe de régressions non linéaires appartient une fonction de la forme ŷ ?
:
a) des régressions non linéaires par rapport aux variables incluses dans l'analyse, mais linéaires par rapport aux paramètres estimés ;
B) régressions non linéaires sur les paramètres estimés.
79. Dans l'équation de régression sous la forme d'une hyperbole ŷ
si la valeurb
>0
, Que:
A) avec une augmentation de la caractéristique factorielle X valeurs d'attribut résultantes à diminuer lentement, et avec x→∞ valeur moyenne à sera égal UN;
b) alors la valeur du signe résultant à augmente avec une croissance lente à mesure que le trait facteur augmente X, et à x→∞
81. Le coefficient d'élasticité est déterminé par la formule
A) Fonction linéaire ;
b) Paraboles ;
c) Hyperboles ;
d) Courbe exponentielle ;
e) Puissance.
82. Le coefficient d'élasticité est déterminé par la formule
pour un modèle de régression sous la forme :
a) Fonction linéaire ;
B) Paraboles ;
c) Hyperboles ;
d) Courbe exponentielle ;
e) Puissance.
86. Équation
appelé:
A) tendance linéaire ;
b) tendance parabolique ;
c) tendance hyperbolique ;
d) tendance exponentielle.
89. Équation
appelé:
a) tendance linéaire ;
b) tendance parabolique ;
c) tendance hyperbolique ;
D) tendance exponentielle.
90. Types de systèmes appelé:
A) un système d'équations indépendantes ;
b) un système d'équations récursives ;
c) un système d'équations interdépendantes (jointes, simultanées).
93. L'économétrie peut être définie comme :
A) il s'agit d'une discipline scientifique indépendante qui combine un ensemble de résultats théoriques, de techniques, de méthodes et de modèles conçus pour, sur la base de la théorie économique, des statistiques économiques et des outils mathématiques et statistiques, donner une expression quantitative spécifique aux modèles généraux (qualitatifs) déterminé par la théorie économique;
B) la science des mesures économiques ;
B) analyse statistique des données économiques.
94. Les tâches de l'économétrie comprennent :
A) prévision des indicateurs économiques et socio-économiques caractérisant l'état et le développement du système analysé ;
B) simulation de scénarios possibles pour le développement socio-économique du système pour identifier comment les changements prévus dans certains paramètres contrôlables affecteront les caractéristiques de sortie ;
c) tester des hypothèses à l'aide de données statistiques.
95. Les relations se distinguent par leur nature :
A) fonctionnel et corrélationnel ;
b) fonctionnel, curviligne et rectiligne ;
c) corrélation et inverse ;
d) statistique et direct.
96. En lien direct avec une augmentation d'une caractéristique factorielle :
a) le signe effectif diminue ;
b) le signe résultant ne change pas ;
C) le signe effectif augmente.
97. Quelles méthodes sont utilisées pour identifier la présence, la nature et la direction des relations dans les statistiques ?
a) valeurs moyennes ;
B) comparaison de séries parallèles ;
C) méthode de regroupement analytique ;
d) valeurs relatives ;
D) méthode graphique.
98. Quelle méthode est utilisée pour identifier la forme d'influence d'un facteur sur un autre ?
a) analyse de corrélation ;
B) analyse de régression ;
c) analyse d'indice ;
d) analyse de variance.
99. Quelle méthode est utilisée pour quantifier la force de l'influence d'un facteur sur un autre :
A) analyse de corrélation ;
b) analyse de régression ;
c) méthode de moyennes ;
d) analyse de variance.
100. Quels indicateurs existent en termes de valeur allant de moins à plus un :
a) coefficient de détermination ;
b) relation de corrélation ;
B) coefficient de corrélation linéaire.
101. Le coefficient de régression pour un modèle à un facteur montre :
A) de combien d'unités la fonction change-t-elle lorsque l'argument change d'une unité ;
b) de quel pourcentage la fonction change-t-elle par changement d'unité dans l'argument.
102. Le coefficient d'élasticité montre :
a) de quel pourcentage la fonction change-t-elle avec un changement d'argument d'une unité de sa mesure ;
B) de quel pourcentage la fonction change-t-elle avec un changement d'argument de 1 % ;
c) combien d'unités de sa mesure la fonction change-t-elle avec un changement d'argument de 1 %.
105. La valeur de l'indice de corrélation égale à 0,087 indique :
A) sur leur faible dépendance ;
b) sur une relation solide ;
c) sur les erreurs de calcul.
107. La valeur du coefficient de corrélation de paire égale à 1,12 indique :
a) sur leur faible dépendance ;
b) sur une relation solide ;
C) sur les erreurs de calcul.
109. Lequel des nombres suivants peut être les valeurs du coefficient de corrélation de paire :
111. Lequel des nombres suivants peut être les valeurs du coefficient de corrélation multiple :
115. Marquez la forme correcte de l'équation de régression linéaire :
a) ŷ
;
par
;
c) ŷ
;
D) ŷ
.
Une fois l’équation de régression linéaire trouvée, la signification de l’équation dans son ensemble et de ses paramètres individuels est évaluée.
La signification de l'équation de régression dans son ensemble est évaluée à l'aide du test F de Fisher. Dans ce cas, une hypothèse nulle est avancée, le coefficient de régression est égal à zéro, c'est-à-dire b = 0, et donc le facteur x n'affecte pas le résultat y. Le calcul immédiat du test F est précédé d'une analyse de variance. La place centrale y est occupée par la décomposition de la somme totale des écarts carrés de la variable y par rapport à la valeur moyenne y en deux parties - « expliquée » et « inexpliquée » (Annexe 2).
La somme totale des écarts au carré des valeurs individuelles de la caractéristique résultante y par rapport à la valeur moyenne y est causée par l'influence de nombreuses raisons. Classiquement, l'ensemble des raisons peut être divisé en deux groupes :
- · étudié le facteur x
- · d'autres facteurs
Si le facteur n'influence pas le résultat, alors la ligne de régression sur le graphique est parallèle à l'axe xy y = y. Ensuite, toute la variance de la caractéristique résultante est due à l'influence d'autres facteurs et la somme totale des écarts au carré coïncide avec le résidu. Si d’autres facteurs n’influencent pas le résultat, alors y est fonctionnellement lié à x et la somme résiduelle des carrés est nulle. Dans ce cas, la somme des carrés des écarts expliqués par la régression est la même que la somme totale des carrés.
Étant donné que tous les points du champ de corrélation ne se trouvent pas sur la droite de régression, leur dispersion se produit toujours, à la fois en raison de l'influence du facteur x, c'est-à-dire de la régression de y sur x, et en raison de l'influence d'autres quantités (variation inexpliquée). L'adéquation d'une droite de régression pour la prédiction dépend de la part de la variation totale du trait y qui est expliquée par la variation expliquée. Évidemment, si la somme des carrés des écarts dus à la régression est supérieure à la somme des carrés résiduelle, alors l'équation de régression est statistiquement significative et le facteur x a un impact significatif sur le résultat y. Cela équivaut au fait que le coefficient de détermination r 2 xy se rapprochera de l'unité.
Toute somme d'écarts au carré est associée au nombre de degrés de liberté (df - degrés de liberté), c'est-à-dire au nombre de liberté de variation indépendante d'une caractéristique. Le nombre de degrés de liberté est lié au nombre d'unités de population n et au nombre de constantes qui en sont déterminées. Par rapport au problème étudié, le nombre de degrés de liberté doit montrer combien d'écarts indépendants sur n possibles [(y 1 -y), (y 2 -y),...,(y n -y)] sont nécessaire pour former une somme de carrés donnée. Ainsi, pour une somme totale des carrés ?(y-y) 2, (n-1) des écarts indépendants sont nécessaires.
Lors du calcul de la somme des carrés expliquée ou factorielle ?(y x -y) 2, les valeurs théoriques (calculées) de la caractéristique résultante y x sont utilisées, trouvées le long de la droite de régression : y x =a+b*x.
En régression linéaire, la somme des carrés des écarts dus à la régression linéaire sera : ?(y x -y) 2 =b 2 *?(x -x) 2.
Puisque, pour un volume donné d'observations en x et y, la somme des carrés factoriels en régression linéaire ne dépend que d'une seule constante du coefficient de régression b, alors cette somme des carrés a un degré de liberté. Nous arriverons à la même conclusion si l'on considère le côté contenu de la valeur calculée de l'attribut y, c'est-à-dire y x. La valeur y x est déterminée par l'équation de régression linéaire : y x =a+b*x. Le paramètre a peut être défini comme : a=y-b*x. En substituant l'expression du paramètre a dans le modèle linéaire, nous obtenons :
yx = y-b*x+b*x= y-b*(x-x).
Cela montre que pour un ensemble donné de variables y et x, la valeur calculée y x en régression linéaire est fonction d'un seul paramètre : le coefficient de régression. En conséquence, la somme factorielle des écarts au carré a un nombre de degrés de liberté égal à 1.
Il y a égalité entre le nombre de degrés de liberté des sommes des carrés totales, factorielles et résiduelles. Le nombre de degrés de liberté de la somme des carrés résiduelle en régression linéaire est n-2. Le nombre de degrés de liberté pour la somme totale des carrés est déterminé par le nombre d'unités, et puisque la moyenne calculée à partir des données d'échantillonnage est utilisée, nous perdons un degré de liberté, c'est-à-dire df total = n-1.
Il y a donc deux égalités :
?(y-y) 2 =?(y x -y) 2 +?(y-y x) 2,
En divisant chaque somme de carrés par le nombre correspondant de degrés de liberté, on obtient le carré moyen des écarts, ou, ce qui revient au même, la dispersion pour un degré de liberté D.
D total =?(a-y) 2 /(n-1);
D fait =?(y x -y) 2 /1 ;
D reste =?(y- y x) 2 /(n-1).
Définir la variance par degré de liberté amène les variances sous une forme comparable. En comparant les variances factorielles et résiduelles par degré de liberté, nous obtenons la valeur du rapport F (critère F) :
F= D fait / D repos, où
F - critère de test de l'hypothèse nulle H 0 : D fait = D reste.
Si l’hypothèse nulle est vraie, alors les méthodes factorielle et écart résiduel ne sont pas différents les uns des autres. Pour H 0, une réfutation est nécessaire pour que la dispersion factorielle dépasse plusieurs fois la dispersion résiduelle.
Le statisticien anglais Snedecor a élaboré des tableaux de valeurs critiques des rapports F à différents niveaux la signification de l’hypothèse nulle et le nombre perceptible de degrés de liberté.
La valeur tabulée du test F est la valeur maximale du rapport des variances qui peuvent se produire si elles divergent de manière aléatoire pour un niveau de probabilité donné de l'hypothèse nulle.
La valeur calculée du rapport F est considérée comme fiable (autre que un) si elle est supérieure à la valeur tabulée.
Dans ce cas, l'hypothèse nulle d'absence de lien entre les caractéristiques est rejetée et une conclusion est tirée sur la signification de ce lien : F fait > F table. H 0 est rejeté.
Si la valeur s'avère inférieure au fait du tableau F Le coefficient de détermination donne une évaluation de la qualité du modèle. Coefficient de détermination ( R. 2) est le carré du coefficient de corrélation multiple. Il montre quelle proportion de la variance de la caractéristique résultante s'explique par l'influence de variables indépendantes. Formule de calcul du coefficient de détermination : oui je-- des exemples de données, et f je-- valeurs de modèle correspondantes. C'est aussi la corrélation de Pearson au carré entre deux variables. Il exprime la quantité de variance partagée entre deux variables. Le coefficient prend les valeurs de l'intervalle. Plus la valeur est proche de 1, plus le modèle se rapproche des observations empiriques. Dans le cas d'un modèle de régression linéaire apparié, le coefficient de détermination est égal au carré du coefficient de corrélation, soit R. 2 = r 2 . Parfois, les indicateurs de l'étroitesse de la communication peuvent faire l'objet d'une évaluation qualitative (échelle de Chaddock) (Annexe 3). Une connexion fonctionnelle se produit lorsque la valeur est 1, et l'absence de connexion est 0. Pour les valeurs des indicateurs de proximité de connexion inférieures à 0,7, la valeur du coefficient de détermination sera toujours inférieure à 50 %. Cela signifie que la variation des caractéristiques des facteurs représente une part moindre par rapport aux autres facteurs non pris en compte dans le modèle qui influencent l'évolution de l'indicateur de performance. Les modèles de régression construits dans de telles conditions ont une faible signification pratique. Une fois que l'équation de régression a été construite et que sa précision a été évaluée à l'aide du coefficient de détermination, la question reste ouverte de savoir comment cette précision a été obtenue et, par conséquent, si cette équation est fiable. Le fait est que l’équation de régression n’a pas été construite sur la base de la population générale, qui est inconnue, mais sur un échantillon de celle-ci. Les points de la population générale tombent dans l'échantillon de manière aléatoire, donc, conformément à la théorie des probabilités, entre autres cas, il est possible qu'un échantillon d'une population générale « large » s'avère « étroit » (Fig. 15) . Riz. 15. Option possible pour que les points soient inclus dans un échantillon de la population générale. Dans ce cas: a) l'équation de régression construite à partir de l'échantillon peut différer considérablement de l'équation de régression pour la population générale, ce qui entraînera des erreurs de prévision ; b) le coefficient de détermination et d'autres caractéristiques de précision seront déraisonnablement élevés et induiront en erreur sur les qualités prédictives de l'équation. Dans le cas limite, l'option ne peut être exclue lorsque, à partir d'une population générale qui est un nuage dont l'axe principal est parallèle à l'axe horizontal (il n'y a pas de relation entre les variables), du fait d'une sélection aléatoire, un échantillon sera obtenu, dont l'axe principal sera incliné par rapport à l'axe. Ainsi, les tentatives visant à prédire les prochaines valeurs de la population générale sur la base des données d'un échantillon de celle-ci se heurtent non seulement à des erreurs dans l'évaluation de la force et de la direction de la relation entre les variables dépendantes et indépendantes, mais également au danger de trouver un lien entre des variables là où en fait il n'y en a pas. En l'absence d'informations sur tous les points de la population, la seule façon de réduire les erreurs dans le premier cas est d'utiliser une méthode d'estimation des coefficients de l'équation de régression qui garantit leur impartialité et leur efficacité. Et la probabilité que le deuxième cas se produise peut être considérablement réduite du fait qu'une propriété d'une population générale avec deux variables indépendantes l'une de l'autre est connue a priori - c'est précisément cette connexion qui y manque. Cette réduction est obtenue en vérifiant la signification statistique de l'équation de régression résultante. L'une des options de vérification les plus couramment utilisées est la suivante. Pour l'équation de régression résultante, une statistique est déterminée - une caractéristique de la précision de l'équation de régression, qui est le rapport de la partie de la variance de la variable dépendante expliquée par l'équation de régression à la partie inexpliquée (résiduelle) de la variance. L'équation pour déterminer les statistiques dans le cas d'une régression multivariée a la forme : où : - variance expliquée - partie de la variance de la variable dépendante Y expliquée par l'équation de régression ; La variance résiduelle est la partie de la variance de la variable dépendante Y qui n'est pas expliquée par l'équation de régression, sa présence est une conséquence de l'action de la composante aléatoire ; Nombre de points dans l'échantillon ; Nombre de variables dans l'équation de régression. Comme le montre la formule ci-dessus, les dispersions sont déterminées comme le quotient de la somme des carrés correspondante par le nombre de degrés de liberté. Le nombre de degrés de liberté est le nombre minimum requis de valeurs de la variable dépendante qui sont suffisantes pour obtenir la caractéristique souhaitée de l'échantillon et qui peuvent varier librement, en tenant compte du fait que pour cet échantillon toutes les autres valeurs utilisés pour calculer la caractéristique souhaitée sont connus. Pour obtenir la variance résiduelle, les coefficients de l'équation de régression sont nécessaires. Dans le cas d'une régression linéaire appariée, il existe donc deux coefficients, conformément à la formule (en prenant ) le nombre de degrés de liberté est égal à . Cela signifie que pour déterminer la variance résiduelle, il suffit de connaître les coefficients de l'équation de régression et uniquement les valeurs de la variable dépendante de l'échantillon. Les deux valeurs restantes peuvent être calculées sur la base de ces données et ne sont donc pas librement variables. Pour calculer la variance expliquée des valeurs de la variable dépendante, cela n'est pas du tout nécessaire, puisqu'elle peut être calculée en connaissant les coefficients de régression des variables indépendantes et la variance de la variable indépendante. Pour le vérifier, il suffit de rappeler l'expression précédente . Par conséquent, le nombre de degrés de liberté pour la variance résiduelle est égal au nombre de variables indépendantes dans l’équation de régression (pour la régression linéaire appariée). En conséquence, le critère - pour l'équation de régression linéaire appariée est déterminé par la formule : . En théorie des probabilités, il a été prouvé que le critère d'une équation de régression obtenue pour un échantillon d'une population générale dans laquelle il n'y a pas de relation entre les variables dépendantes et indépendantes a une distribution de Fisher, assez bien étudiée. Grâce à cela, pour toute valeur du -critère, il est possible de calculer la probabilité de son apparition et, inversement, de déterminer la valeur du -critère qu'il ne peut pas dépasser avec une probabilité donnée. Pour effectuer un test statistique de significativité de l'équation de régression, une hypothèse nulle est formulée sur l'absence de relation entre les variables (tous les coefficients des variables sont égaux à zéro) et le niveau de signification est sélectionné. Le niveau de signification est la probabilité acceptable de commettre une erreur de type I, c'est-à-dire de rejeter l'hypothèse nulle correcte à la suite d'un test. Dans ce cas, commettre une erreur de type I revient à admettre dans un échantillon qu’il existe une relation entre les variables de la population, alors qu’en réalité il n’y en a pas. Généralement, le niveau de signification est considéré comme étant de 5 % ou 1 %. Plus le niveau de signification est élevé (moins ), plus le niveau de fiabilité du test est élevé, égal à , c'est-à-dire plus grande est la chance d'éviter l'erreur consistant à reconnaître dans l'échantillon la présence d'un lien dans la population générale entre des variables réellement indépendantes. Mais à mesure que le niveau de signification augmente, le risque de commettre une erreur du deuxième type augmente : rejeter l’hypothèse nulle correcte, c’est-à-dire ne pas remarquer dans l’échantillon le lien réel entre les variables de la population générale. Par conséquent, en fonction de l'erreur qui a des conséquences négatives importantes, l'un ou l'autre niveau de signification est choisi. Pour le niveau de signification sélectionné, la distribution de Fisher détermine la valeur tabulaire de la probabilité de dépassement qui, dans un échantillon de puissance obtenu auprès de la population générale sans relation entre les variables, ne dépasse pas le niveau de signification. est comparée à la valeur réelle du critère pour l’équation de régression. Si la condition est remplie, alors la détection erronée d'une connexion avec une valeur de critère égale ou supérieure dans un échantillon d'une population générale avec des variables non liées se produira avec une probabilité inférieure au niveau de signification. Conformément à la règle « il n'y a pas d'événements très rares », nous arrivons à la conclusion que la relation entre les variables établies dans l'échantillon existe également dans la population générale à partir de laquelle elle a été obtenue. Si cela s’avère être le cas, alors l’équation de régression n’est pas statistiquement significative. En d’autres termes, il existe une possibilité réelle que l’échantillon ait établi une relation entre des variables qui n’existe pas en réalité. Une équation qui échoue au test de signification statistique est traitée de la même manière qu’un médicament périmé. Ti - ces médicaments ne sont pas nécessairement gâtés, mais comme il n'y a aucune confiance dans leur qualité, ils préfèrent ne pas les utiliser. Cette règle ne protège pas contre toutes les erreurs, mais elle permet d’éviter les plus graves, ce qui est également assez important. La deuxième option de vérification, plus pratique lors de l'utilisation de feuilles de calcul, consiste à comparer la probabilité d'occurrence de la valeur du critère résultant avec le niveau de signification. Si cette probabilité est inférieure au seuil de signification, alors l’équation est statistiquement significative, sinon elle ne l’est pas. Après avoir vérifié la signification statistique de l'équation de régression dans son ensemble, il est généralement utile, notamment pour les dépendances multivariées, de vérifier la signification statistique des coefficients de régression obtenus. L'idéologie de la vérification est la même que lors de la vérification de l'équation dans son ensemble, mais le test t de Student est utilisé comme critère, déterminé par les formules : Et où : , - valeurs du critère de Student pour les coefficients et, respectivement ; - variance résiduelle de l'équation de régression ; Nombre de points dans l'échantillon ; Nombre de variables dans l'échantillon, pour la régression linéaire par paires. Les valeurs réelles obtenues du test de Student sont comparées aux valeurs du tableau , obtenu à partir de la distribution Student. S'il s'avère que , alors le coefficient correspondant est statistiquement significatif, sinon non. La deuxième option pour vérifier la signification statistique des coefficients consiste à déterminer la probabilité d'occurrence du test de Student et à la comparer au niveau de signification. Pour les variables dont les coefficients se sont révélés statistiquement non significatifs, il existe une forte probabilité que leur influence sur la variable dépendante dans la population soit totalement absente. Par conséquent, il est soit nécessaire d'augmenter le nombre de points dans l'échantillon, alors peut-être que le coefficient deviendra statistiquement significatif et en même temps sa valeur sera clarifiée, soit d'en trouver d'autres comme variables indépendantes qui sont plus étroitement liées aux variables dépendantes. variable. Dans ce cas, la précision des prévisions augmentera dans les deux cas. En tant que méthode expresse pour évaluer la signification des coefficients de l'équation de régression, la règle suivante peut être utilisée : si le test t de Student est supérieur à 3, alors un tel coefficient s'avère, en règle générale, statistiquement significatif. En général, on estime que pour obtenir des équations de régression statistiquement significatives, il est nécessaire que la condition soit remplie. L'erreur type de prédiction de l'équation de régression résultante d'une valeur inconnue avec une valeur connue est estimée à l'aide de la formule : Ainsi, une prévision avec une probabilité de confiance de 68 % peut être présentée comme : Si un niveau de confiance différent est requis, alors pour le niveau de signification, il est nécessaire de trouver le critère de Student et l'intervalle de confiance pour la prévision avec le niveau de fiabilité sera égal à . Prédiction des dépendances multidimensionnelles et non linéaires Si la valeur prédite dépend de plusieurs variables indépendantes, alors dans ce cas il existe une régression multivariée de la forme : où : - les coefficients de régression décrivant l'influence des variables sur la valeur prédite. La méthodologie de détermination des coefficients de régression n'est pas différente de la régression linéaire par paires, en particulier lors de l'utilisation d'une feuille de calcul, car elle utilise la même fonction pour la régression linéaire par paires et multivariée. Dans ce cas, il est souhaitable qu'il n'y ait pas de relations entre les variables indépendantes, c'est-à-dire changer une variable n'a pas affecté les valeurs des autres variables. Mais cette exigence n’est pas obligatoire ; il est important qu’il n’y ait pas de dépendances linéaires fonctionnelles entre les variables. Les procédures décrites ci-dessus pour vérifier la signification statistique de l'équation de régression résultante et de ses coefficients individuels, l'évaluation de l'exactitude des prévisions restent les mêmes que dans le cas d'une régression linéaire appariée. Dans le même temps, l'utilisation de régressions multivariées au lieu de régressions par paires permet généralement, avec une sélection appropriée de variables, d'augmenter considérablement la précision de la description du comportement de la variable dépendante, et donc la précision de la prévision. De plus, les équations de régression linéaire multivariée permettent de décrire la dépendance non linéaire de la valeur prédite vis-à-vis de variables indépendantes. La procédure consistant à réduire une équation non linéaire à une forme linéaire est appelée linéarisation. En particulier, si cette dépendance est décrite par un polynôme de degré différent de 1, alors en remplaçant les variables de degrés différents de l'unité par de nouvelles variables du premier degré, on obtient un problème de régression linéaire multivariée au lieu d'un problème non linéaire. Ainsi, par exemple, si l'influence de la variable indépendante est décrite par une parabole de la forme alors le remplacement nous permet de transformer le problème non linéaire en un problème linéaire multidimensionnel de la forme Les problèmes non linéaires dans lesquels la non-linéarité apparaît du fait que la valeur prédite dépend du produit de variables indépendantes peuvent également être facilement transformés. Pour prendre en compte une telle influence, il faut introduire une nouvelle variable égale à ce produit. Dans les cas où la non-linéarité est décrite par des dépendances plus complexes, la linéarisation est possible grâce à la transformation des coordonnées. A cet effet les valeurs sont calculées et des graphiques de la dépendance des points initiaux dans diverses combinaisons de variables transformées sont construits. Cette combinaison de coordonnées transformées ou de coordonnées transformées et non transformées dans laquelle la dépendance est la plus proche d'une ligne droite provoque un changement de variables qui conduira à la transformation d'une dépendance non linéaire en une forme linéaire. Par exemple, une dépendance non linéaire de la forme se transforme en une forme linéaire Les coefficients de régression résultants pour l'équation transformée restent impartiaux et efficaces, mais il n'est pas possible de tester la signification statistique de l'équation et des coefficients. Vérifier la validité de l'utilisation de la méthode des moindres carrés L'utilisation de la méthode des moindres carrés garantit l'efficacité et l'impartialité des estimations des coefficients de l'équation de régression sous réserve des conditions suivantes (conditions de Gauss-Markov) : 3. les valeurs ne dépendent pas les unes des autres 4. les valeurs ne dépendent pas de variables indépendantes Le moyen le plus simple de vérifier si ces conditions sont remplies est de tracer les résidus en fonction de , puis en fonction de la ou des variables indépendantes. Si les points sur ces graphiques sont situés dans un couloir symétrique à l'axe des x et qu'aucun motif n'est visible dans l'emplacement des points, alors les conditions de Gauss-Markov sont remplies et il n'y a aucune possibilité d'améliorer la précision de la régression. équation. Si ce n’est pas le cas, alors il est possible d’améliorer considérablement la précision de l’équation et pour cela il faut se tourner vers la littérature spécialisée.