Coefficient de corrélation dans Excel. Lab_7 Analyse de corrélation
L'analyse de corrélation est une méthode de recherche statistique populaire utilisée pour identifier le degré de dépendance d'un indicateur par rapport à un autre. DANS Microsoft Excel Il existe un outil spécial conçu pour effectuer ce type d’analyse. Découvrons comment utiliser cette fonctionnalité.
L'essence de l'analyse de corrélation
Le but de l'analyse de corrélation est d'identifier la présence d'une relation entre divers facteurs. Autrement dit, il est déterminé si une diminution ou une augmentation d'un indicateur affecte le changement d'un autre.
Si la dépendance est établie, alors le coefficient de corrélation est déterminé. Contrairement à analyse de régression, c'est le seul indicateur calculé par cette méthode de recherche statistique. Le coefficient de corrélation varie de +1 à -1. S'il existe une corrélation positive, une augmentation d'un indicateur contribue à une augmentation du second. Avec une corrélation négative, une augmentation d'un indicateur entraîne une diminution d'un autre. Plus le module du coefficient de corrélation est grand, plus un changement notable dans un indicateur se reflète dans le changement du second. Lorsque le coefficient est égal à 0, il n’y a aucune dépendance totale entre eux.
Calcul du coefficient de corrélation
Essayons maintenant de calculer le coefficient de corrélation sur exemple spécifique. Nous avons un tableau dans lequel les frais de publicité et les volumes de ventes sont répertoriés mensuellement dans des colonnes distinctes. Nous devons déterminer dans quelle mesure le nombre de ventes dépend du montant espèces, qui a été dépensé en publicité.
Méthode 1 : définition de la corrélation à l'aide de l'assistant de fonction
Une façon d'effectuer une analyse de corrélation consiste à utiliser la fonction CORREL. La fonction elle-même a vue générale CORREL(tableau1, tableau2).
- Sélectionnez la cellule dans laquelle le résultat du calcul doit être affiché. Cliquez sur le bouton « Insérer une fonction », situé à gauche de la barre de formule.
- Dans la liste présentée dans la fenêtre Function Wizard, recherchez et sélectionnez la fonction CORREL. Cliquez sur le bouton « OK ».
- La fenêtre des arguments de la fonction s'ouvre. Dans le champ « Tableau1 », saisissez les coordonnées de la plage de cellules d'une des valeurs dont la dépendance doit être déterminée. Dans notre cas, ce seront les valeurs de la colonne « Valeur des ventes ». Afin de saisir l'adresse du tableau dans le champ, sélectionnez simplement toutes les cellules contenant des données dans la colonne ci-dessus.
Dans le champ « Array2 », vous devez saisir les coordonnées de la deuxième colonne. Pour nous, ce sont des frais de publicité. Exactement de la même manière que dans le cas précédent, on saisit les données dans le champ.
Cliquez sur le bouton « OK ».
Comme vous pouvez le constater, le coefficient de corrélation sous forme de nombre apparaît dans la cellule que nous avons précédemment sélectionnée. Dans ce cas, il est égal à 0,97, ce qui est très signe élevé dépendance d'une quantité par rapport à une autre.
Méthode 2 : calculer la corrélation à l'aide du package d'analyse
Alternativement, la corrélation peut être calculée à l’aide de l’un des outils fournis dans le package d’analyse. Mais nous devons d’abord activer cet outil.
- Allez dans l'onglet "Fichier".
- Dans la fenêtre qui s'ouvre, accédez à la section « Paramètres ».
- Ensuite, allez dans l'élément « Modules complémentaires ».
- En bas fenêtre suivante dans la section « Gestion », déplacez le commutateur sur la position « Compléments Excel » s'il se trouve dans une position différente. Cliquez sur le bouton « OK ».
- Dans la fenêtre des modules complémentaires, cochez la case à côté de l'élément « Package d'analyse ». Cliquez sur le bouton « OK ».
- Après cela, le package d'analyse est activé. Allez dans l'onglet « Données ». Comme vous pouvez le voir, un nouveau bloc d'outils apparaît sur le ruban - "Analyse". Cliquez sur le bouton « Analyse des données » qui s'y trouve.
- Une liste s'ouvre avec diverses options analyse des données. Sélectionnez l'élément « Corrélation ». Cliquez sur le bouton « OK ».
- Une fenêtre avec les paramètres d'analyse de corrélation s'ouvre. Contrairement à la méthode précédente, dans le champ « Intervalle de saisie », nous saisissons l'intervalle non pas de chaque colonne séparément, mais de toutes les colonnes qui participent à l'analyse. Dans notre cas, il s'agit des données des colonnes « Frais publicitaires » et « Valeur des ventes ».
Nous laissons le paramètre « Regroupement » inchangé – « Par colonnes », puisque nos groupes de données sont divisés en deux colonnes. S’ils étaient décomposés ligne par ligne, il faudrait alors déplacer le commutateur sur la position « Par ligne ».
Dans les paramètres de sortie par défaut, l'élément « Nouvelle feuille de calcul » est défini, c'est-à-dire que les données seront sorties sur une autre feuille. Vous pouvez modifier l'emplacement en déplaçant le commutateur. Il peut s'agir de la feuille actuelle (vous devrez alors préciser les coordonnées des cellules de sortie d'informations) ou d'un nouveau classeur (fichier).
Lorsque tous les paramètres sont définis, cliquez sur le bouton « OK ».
Puisque l'emplacement de sortie des résultats d'analyse a été laissé par défaut, nous passons à nouvelle feuille. Comme vous pouvez le constater, le coefficient de corrélation est indiqué ici. Naturellement, c'est la même chose que lors de l'utilisation de la première méthode - 0,97. En effet, les deux options effectuent les mêmes calculs, mais ils peuvent simplement être effectués de différentes manières.
Comme vous pouvez le constater, l'application Excel propose deux méthodes d'analyse de corrélation à la fois. Le résultat des calculs, si vous faites tout correctement, sera totalement identique. Mais chaque utilisateur peut choisir une option de calcul plus pratique pour lui.
Nous sommes heureux d'avoir pu vous aider à résoudre le problème.
Posez votre question dans les commentaires, en décrivant l'essence du problème en détail. Nos spécialistes s'efforceront de répondre dans les plus brefs délais.
Cet article vous a-t-il aidé ?
Analyse de régression et de corrélation – méthodes statistiques recherche. Ce sont les manières les plus courantes de montrer la dépendance d’un paramètre à une ou plusieurs variables indépendantes.
Ci-dessous sur des détails spécifiques exemples pratiques Regardons ces deux analyses très populaires parmi les économistes. Nous donnerons également un exemple d'obtention de résultats en les combinant.
Analyse de régression dans Excel
Montre l'influence de certaines valeurs (indépendantes, indépendantes) sur la variable dépendante. Par exemple, dans quelle mesure le nombre de personnes économiquement actives dépend-il du nombre d'entreprises, des salaires et d'autres paramètres. Ou encore : comment les investissements étrangers, les prix de l’énergie, etc. affectent-ils le niveau du PIB.
Le résultat de l'analyse permet de mettre en évidence les priorités. Et sur la base des principaux facteurs, prévoir, planifier l'évolution des domaines prioritaires et prendre des décisions de gestion.
La régression se produit :
- linéaire (y = a + bx) ;
- parabolique (y = a + bx + cx2) ;
- exponentiel (y = a * exp(bx));
- puissance (y = a*x^b) ;
- hyperbolique (y = b/x + a);
- logarithmique (y = b * 1n(x) + a);
- exponentielle (y = a * b^x).
Examinons un exemple de création d'un modèle de régression dans Excel et d'interprétation des résultats. Prenons le type de régression linéaire.
Tâche. Dans 6 entreprises, la moyenne mensuelle salaires et le nombre d'employés qui sont partis. Il est nécessaire de déterminer la dépendance du nombre de salariés qui quittent leur emploi par rapport au salaire moyen.
Modèle régression linéaire a la forme suivante :
Y = a0 + a1x1 +…+akhk.
Où a sont des coefficients de régression, x sont des variables d'influence, k est le nombre de facteurs.
Dans notre exemple, Y est l’indicateur de départ d’employés. Le facteur d'influence est le salaire (x).
Excel possède des fonctions intégrées qui peuvent vous aider à calculer les paramètres d'un modèle de régression linéaire. Mais le module complémentaire « Analysis Package » le fera plus rapidement.
Nous activons un outil analytique puissant :
- Cliquez sur le bouton "Office" et accédez à l'onglet "Options Excel". "Modules complémentaires".
- En bas, sous la liste déroulante, dans le champ « Gérer », il y aura une inscription « Compléments Excel » (s'il n'y est pas, cliquez sur la case à droite et sélectionnez). Et le bouton « Go ». Cliquez.
- Une liste des modules complémentaires disponibles s'ouvre. Sélectionnez « Package d’analyse » et cliquez sur OK.
Une fois activé, le module complémentaire sera disponible dans l'onglet Données.
Faisons maintenant l'analyse de régression elle-même.
- Ouvrez le menu de l'outil « Analyse des données ». Sélectionnez "Régression".
- Un menu s'ouvrira pour sélectionner les valeurs d'entrée et les options de sortie (où afficher le résultat). Dans les champs des données initiales, nous indiquons la plage du paramètre décrit (Y) et le facteur qui l'influence (X). Il n'est pas nécessaire de remplir le reste.
- Après avoir cliqué sur OK, le programme affichera les calculs sur une nouvelle feuille (vous pouvez sélectionner un intervalle à afficher sur la feuille actuelle ou attribuer la sortie à un nouveau classeur).
Tout d’abord, nous prêtons attention au R-carré et aux coefficients.
R-carré est le coefficient de détermination. Dans notre exemple – 0,755, ou 75,5 %. Cela signifie que les paramètres calculés du modèle expliquent 75,5% de la relation entre les paramètres étudiés. Plus le coefficient de détermination est élevé, plus modèle de meilleure qualité. Bon - supérieur à 0,8. Mauvais – moins de 0,5 (une telle analyse peut difficilement être considérée comme raisonnable). Dans notre exemple – « pas mal ».
Le coefficient 64,1428 montre ce que sera Y si toutes les variables du modèle considéré sont égales à 0. Autrement dit, la valeur du paramètre analysé est également influencée par d'autres facteurs non décrits dans le modèle.
Le coefficient -0,16285 montre le poids de la variable X sur Y. Autrement dit, le salaire mensuel moyen dans ce modèle affecte le nombre d'abandons avec un poids de -0,16285 (il s'agit d'un faible degré d'influence). Le signe « - » indique un impact négatif : plus le salaire est élevé, moins il y a de démissions. Ce qui est juste.
Analyse de corrélation dans Excel
L'analyse de corrélation permet de déterminer s'il existe une relation entre les indicateurs dans un ou deux échantillons. Par exemple, entre la durée de fonctionnement d'une machine et le coût des réparations, le prix du matériel et la durée de fonctionnement, la taille et le poids des enfants, etc.
S'il existe un lien, une augmentation d'un paramètre entraîne-t-elle une augmentation (corrélation positive) ou une diminution (négative) de l'autre. L'analyse de corrélation aide l'analyste à déterminer si la valeur d'un indicateur peut être utilisée pour prédire la valeur possible d'un autre.
Le coefficient de corrélation est noté r. Varie de +1 à -1. Classification des corrélations pour différents domaines sera différent. Lorsque le coefficient est égal à 0, il n’existe pas de relation linéaire entre les échantillons.
Voyons comment trouver le coefficient de corrélation à l'aide d'Excel.
Pour trouver des coefficients appariés, la fonction CORREL est utilisée.
Objectif : Déterminer s'il existe une relation entre le temps de fonctionnement tour et le coût de son entretien.
Placez le curseur dans n'importe quelle cellule et appuyez sur le bouton fx.
- Dans la catégorie « Statistique », sélectionnez la fonction CORREL.
- Argument « Tableau 1 » - la première plage de valeurs – temps de fonctionnement de la machine : A2 : A14.
- Argument « Tableau 2 » - deuxième plage de valeurs – coût de réparation : B2:B14. Cliquez sur OK.
Pour déterminer le type de connexion, vous devez regarder nombre absolu coefficient (chaque domaine d'activité a son propre barème).
Pour l'analyse de corrélation de plusieurs paramètres (plus de 2), il est plus pratique d'utiliser « Data Analysis » (le module complémentaire « Analysis Package »). Vous devez sélectionner la corrélation dans la liste et désigner le tableau. Tous.
Les coefficients résultants seront affichés dans la matrice de corrélation. Comme ça:
Analyse de corrélation et de régression
En pratique, ces deux techniques sont souvent utilisées ensemble.
- Nous construisons un champ de corrélation : « Insérer » - « Diagramme » - « Diagramme de dispersion » (permet de comparer des paires). La plage de valeurs correspond à toutes les données numériques du tableau.
- Faites un clic gauche sur n’importe quel point du diagramme. Alors c'est vrai. Dans le menu qui s'ouvre, sélectionnez « Ajouter une ligne de tendance ».
- Attribuez des paramètres à la ligne. Tapez – « Linéaire ». En bas – « Afficher l'équation sur le diagramme ».
- Cliquez sur « Fermer ».
Désormais, les données de l'analyse de régression sont devenues visibles.
1.Ouvrez Excel
2.Créez des colonnes de données. Dans notre exemple, nous considérerons la relation, ou la corrélation, entre l'agressivité et le doute de soi chez les élèves de première année. 30 enfants ont participé à l'expérience, les données sont présentées dans le tableau Excel :
1 colonne - numéro de sujet
Colonne 2 - agressivité en points
Colonne 3 - doute de soi en points
3.Ensuite, vous devez sélectionner une cellule vide à côté du tableau et cliquer sur l'icône f(x) dans le panneau Excel
4.Le menu des fonctions s'ouvrira, vous devez sélectionner parmi les catégories Statistique, puis parmi la liste des fonctions, recherchez par ordre alphabétique CORREL et cliquez sur OK
5.Ensuite, un menu d'arguments de fonction s'ouvrira, qui vous permettra de sélectionner les colonnes de données dont nous avons besoin. Pour sélectionner la première colonne Agressivité vous devez cliquer sur le bouton bleu à côté de la ligne Tableau1
6.Sélectionnez les données pour Tableau1 de la colonne Agressivité et cliquez sur le bouton bleu dans la boîte de dialogue
7. Ensuite, comme pour le tableau 1, cliquez sur le bouton bleu à côté de la ligne Tableau2
8.Sélectionnez les données pour Tableau2- colonne Doute de soi et appuyez à nouveau sur le bouton bleu, puis OK
9. Ici, le coefficient de corrélation r-Pearson a été calculé et écrit dans la cellule sélectionnée. Dans notre cas, il est positif et approximativement égal. Cela parle de modérément positif liens entre l'agressivité et le doute de soi chez les élèves de première année
Ainsi, inférence statistique l'expérience sera : r = 0,225, une relation positive modérée entre les variables a été révélée agressivité Et le doute de soi.
Certaines études exigent que le niveau p de signification du coefficient de corrélation soit spécifié, mais Excel, contrairement à SPSS, ne propose pas cette option. Ce n'est pas grave, il existe des tableaux de valeurs de corrélation critiques (A.D. Nasledov).
Vous pouvez également créer une droite de régression dans Excel et la joindre aux résultats de la recherche.
Un utilitaire largement utilisé dans de nombreuses entreprises et entreprises. La réalité est que presque tous les employés doivent maîtriser Excel à un degré ou à un autre, puisque ce programme est utilisé pour résoudre un très large éventail de problèmes. Lorsque vous travaillez avec des tableaux, vous devez souvent déterminer si certaines variables sont liées les unes aux autres. À cette fin, la corrélation est utilisée. Dans cet article, nous examinerons en détail comment calculer le coefficient de corrélation dans Excel. Voyons cela. Allons-y!
Commençons par ce qu'est un coefficient de corrélation en général. Il montre le degré de relation entre deux éléments et varie toujours de -1 (forte relation inverse) à 1 (forte relation directe). Si le coefficient est 0, cela indique qu'il n'y a aucune relation entre les valeurs.
Maintenant, après avoir abordé la théorie, passons à la pratique. Pour trouver la relation entre les variables et y, utilisez la fonction intégrée « CORREL » de Microsoft Excel. Pour cela, cliquez sur le bouton Assistant de fonction (il se trouve à côté du champ de formule). Dans la fenêtre qui s'ouvre, sélectionnez « CORREL » dans la liste des fonctions. Après cela, définissez la plage dans les champs « Array1 » et « Array2 ». Par exemple, pour « Array1 », sélectionnez les valeurs y et pour « Array2 », sélectionnez les valeurs x. En conséquence, vous recevrez le coefficient de corrélation calculé par le programme.
La méthode suivante sera pertinente pour les étudiants qui doivent trouver une dépendance à l'aide d'une formule donnée. Tout d'abord, vous devez connaître les valeurs moyennes des variables x et y. Pour ce faire, sélectionnez les valeurs des variables et utilisez la fonction « MOYENNE ». Ensuite, vous devez calculer la différence entre chaque x et x moy et y moy. Dans les cellules sélectionnées, écrivez formules x-x, ouais. N'oubliez pas d'épingler les cellules avec des moyennes. Étirez ensuite la formule vers le bas pour qu’elle s’applique au reste des nombres.
Maintenant que nous disposons de toutes les données nécessaires, nous pouvons calculer la corrélation. Multipliez les différences résultantes de cette manière : (x-x moy) * (y-y moy). Une fois que vous avez le résultat pour chaque variable, ajoutez les nombres résultants à l'aide de la fonction AutoSum. C'est ainsi que le numérateur est calculé.
Passons maintenant au dénominateur. Les différences calculées doivent être mises au carré. Pour ce faire, saisissez les formules dans une colonne séparée : (x-x moy) 2 et (y-y moy) 2. Étirez ensuite les formules sur toute la plage. Ensuite, à l'aide du bouton « AutoSum », recherchez la somme de toutes les colonnes (pour x et y). Il reste à multiplier les sommes trouvées et à en extraire racine carrée. La dernière étape consiste à diviser le numérateur par le dénominateur. Le résultat obtenu sera le coefficient de corrélation souhaité.
Comme vous pouvez le constater, en sachant travailler correctement avec les fonctions de Microsoft Excel, vous pouvez considérablement simplifier la tâche de calcul d'expressions mathématiques complexes. Grâce aux outils implémentés dans le programme, vous pouvez facilement effectuer une analyse de corrélation dans Excel en quelques minutes seulement, économisant ainsi du temps et des efforts. Écrivez dans les commentaires si l'article vous a aidé à comprendre le problème, posez des questions sur tout ce qui vous a intéressé sur le sujet abordé.
DANS recherche scientifique Il est souvent nécessaire de trouver un lien entre les variables de résultat et les variables factorielles (le rendement d'une culture et la quantité de précipitations, la taille et le poids d'une personne dans des groupes homogènes par sexe et par âge, la fréquence cardiaque et la température corporelle, etc.) .
Les seconds sont des signes qui contribuent aux changements de ceux qui leur sont associés (les premiers).
Le concept d'analyse de corrélation
Il existe de nombreux Sur la base de ce qui précède, nous pouvons dire que l'analyse de corrélation est une méthode utilisée pour tester l'hypothèse sur la signification statistique de deux ou plusieurs variables si le chercheur peut les mesurer, mais pas les modifier.
Il existe d'autres définitions du concept en question. L'analyse de corrélation est une méthode de traitement qui consiste à étudier les coefficients de corrélation entre variables. Dans ce cas, les coefficients de corrélation entre une ou plusieurs paires de caractéristiques sont comparés pour établir des relations statistiques entre elles. L'analyse de corrélation est une méthode d'étude de la dépendance statistique entre des variables aléatoires avec la présence éventuelle d'une nature fonctionnelle stricte, dans laquelle la dynamique d'une variable aléatoire conduit à la dynamique de l'attente mathématique d'une autre.
Le concept de fausse corrélation
Lors de l'analyse de corrélation, il est nécessaire de garder à l'esprit qu'elle peut être effectuée par rapport à n'importe quel ensemble de caractéristiques, souvent absurdes les unes par rapport aux autres. Parfois, ils n’ont aucun lien de causalité entre eux.
Dans ce cas, on parle d’une fausse corrélation.
Problèmes d'analyse de corrélation
Sur la base des définitions ci-dessus, les tâches suivantes de la méthode décrite peuvent être formulées : obtenir des informations sur l'une des variables recherchées en utilisant une autre ; déterminer l'étroitesse de la relation entre les variables étudiées.
L'analyse de corrélation consiste à déterminer la relation entre les caractéristiques étudiées, et donc les tâches d'analyse de corrélation peuvent être complétées par les éléments suivants :
- identification des facteurs qui ont le plus grand impact sur la caractéristique résultante ;
- identification de causes de connexions jusqu'alors inexplorées ;
- construction d'un modèle de corrélation avec son analyse paramétrique ;
- étude de l'importance des paramètres de communication et de leur évaluation d'intervalle.
Relation entre l'analyse de corrélation et la régression
La méthode d'analyse de corrélation ne se limite souvent pas à trouver l'étroitesse de la relation entre les grandeurs étudiées. Parfois, elle est complétée par la compilation d'équations de régression, qui sont obtenues à l'aide de l'analyse du même nom et qui représentent une description de la dépendance de corrélation entre la ou les caractéristiques résultantes et le facteur (facteur). Cette méthode, avec l'analyse considérée, constitue la méthode
Conditions d'utilisation de la méthode
Les facteurs efficaces dépendent d’un ou plusieurs facteurs. La méthode d’analyse de corrélation peut être utilisée s’il existe grand nombre observations sur la valeur des indicateurs efficaces et factoriels (facteurs), tandis que les facteurs étudiés doivent être quantitatifs et reflétés dans des sources spécifiques. Le premier peut être déterminé par la loi normale - dans ce cas, le résultat de l'analyse de corrélation est les coefficients de corrélation de Pearson, ou, si les caractéristiques n'obéissent pas à cette loi, le coefficient est utilisé corrélation de rang Lancier.
Règles de sélection des facteurs d'analyse de corrélation
Lors de l'utilisation cette méthode il est nécessaire de déterminer les facteurs influençant les indicateurs de performance. Ils sont sélectionnés en tenant compte du fait qu'il doit y avoir des relations de cause à effet entre les indicateurs. Dans le cas de la création d'un modèle de corrélation multifactorielle, ceux qui ont un impact significatif sur l'indicateur résultant sont sélectionnés, alors qu'il est préférable de ne pas inclure de facteurs interdépendants avec un coefficient de corrélation par paire supérieur à 0,85 dans le modèle de corrélation, ainsi que ceux pour lequel la relation avec le paramètre résultant n'est pas de caractère linéaire ou fonctionnel.
Affichage des résultats
Les résultats de l'analyse de corrélation peuvent être présentés sous forme de texte et formes graphiques. Dans le premier cas, ils sont présentés sous forme de coefficient de corrélation, dans le second, sous la forme d'un diagramme de dispersion.
S'il n'y a pas de corrélation entre les paramètres, les points du schéma sont situés de manière chaotique, le degré moyen de connexion est caractérisé par dans une plus grande mesure ordre et se caractérise par une distance plus ou moins uniforme des marques marquées par rapport à la médiane. Une connexion forte tend vers une ligne droite et pour r=1, le nuage de points est ligne droite. La corrélation inverse diffère dans la direction du graphique du coin supérieur gauche au coin inférieur droit, la corrélation directe - du coin inférieur gauche au coin supérieur droit.
Représentation 3D d'un nuage de points
En plus de l'affichage traditionnel des nuages de points 2D, une représentation graphique 3D de l'analyse de corrélation est désormais utilisée.
Une matrice de nuages de points est également utilisée, qui affiche tous les tracés appariés sur une seule figure dans un format matriciel. Pour n variables, la matrice contient n lignes et n colonnes. Le graphique situé à l'intersection de la i-ème ligne et de la j-ème colonne est un tracé des variables Xi en fonction de Xj. Ainsi, chaque ligne et colonne est à une dimension, une seule cellule affiche un nuage de points à deux dimensions.
Évaluation de l'étanchéité de la connexion
L'étroitesse de la connexion de corrélation est déterminée par le coefficient de corrélation (r) : fort - r = ±0,7 à ±1, moyen - r = ±0,3 à ±0,699, faible - r = 0 à ±0,299. Cette classification n'est pas stricte. La figure montre un diagramme légèrement différent.
Un exemple d'utilisation de la méthode d'analyse de corrélation
Une étude intéressante a été entreprise au Royaume-Uni. Elle est consacrée au lien entre le tabagisme et le cancer du poumon et a été réalisée par analyse de corrélation. Cette observation est présentée ci-dessous.
Groupe professionnel | mortalité |
|
Agriculteurs, forestiers et pêcheurs | ||
Mineurs et carrières | ||
Fabricants de gaz, de coke et de produits chimiques | ||
Fabricants de verre et de céramique | ||
Ouvriers des fourneaux, forges, fonderies et laminoirs | ||
Ouvriers en électricité et électronique | ||
Ingénierie et métiers apparentés | ||
Industrie du bois | ||
Travailleurs du cuir | ||
Ouvriers du textile | ||
Fabricants de vêtements de travail | ||
Travailleurs des industries de l'alimentation, des boissons et du tabac | ||
Fabricants de papier et d'impression | ||
Fabricants d'autres produits | ||
Constructeurs | ||
Peintres et décorateurs | ||
Conducteurs de moteurs stationnaires, de grues, etc. | ||
Travailleurs non inclus ailleurs | ||
Travailleurs des transports et des communications | ||
Employés d'entrepôt, magasiniers, emballeurs et ouvriers de machines de remplissage | ||
Employés de bureau | ||
Vendeurs | ||
Travailleurs des sports et des loisirs | ||
Administrateurs et gestionnaires | ||
Professionnels, techniciens et artistes |
Nous commençons l'analyse de corrélation. Il est préférable de commencer la solution pour plus de clarté par méthode graphique, pour lequel nous allons construire un diagramme de dispersion.
Cela démontre une connexion directe. Cependant, il est difficile de tirer une conclusion sans ambiguïté en se basant uniquement sur la méthode graphique. Par conséquent, nous continuerons à effectuer une analyse de corrélation. Un exemple de calcul du coefficient de corrélation est présenté ci-dessous.
À l'aide d'un logiciel (MS Excel sera décrit ci-dessous à titre d'exemple), nous déterminons le coefficient de corrélation, qui est de 0,716, ce qui signifie un lien fort entre les paramètres étudiés. Déterminons la fiabilité statistique de la valeur obtenue à l'aide du tableau correspondant, pour lequel nous devons soustraire 2 à 25 paires de valeurs, nous obtenons ainsi 23 et en utilisant cette ligne du tableau nous trouvons r critique pour p = 0,01 (puisque ce sont des données médicales, une dépendance plus stricte, dans les autres cas p=0,05 suffit), soit 0,51 pour cette analyse de corrélation. L'exemple a démontré que le r calculé est supérieur au r critique et que la valeur du coefficient de corrélation est considérée comme statistiquement fiable.
Utiliser un logiciel lors de la réalisation d'une analyse de corrélation
Le type de traitement de données statistiques décrit peut être effectué à l'aide logiciel, en particulier MS Excel. La corrélation consiste à calculer les paramètres suivants à l'aide de fonctions :
1. Le coefficient de corrélation est déterminé à l'aide de la fonction CORREL (array1 ; array2). Tableau1,2 - cellule de l'intervalle de valeurs des variables résultantes et factorielles.
Le coefficient de corrélation linéaire est également appelé coefficient de corrélation de Pearson et, par conséquent, à partir d'Excel 2007, vous pouvez utiliser la fonction avec les mêmes tableaux.
L'affichage graphique de l'analyse de corrélation dans Excel se fait à l'aide du panneau « Graphiques » avec la sélection « Nuage de points ».
Après avoir spécifié les données initiales, nous obtenons un graphique.
2. Évaluer la signification du coefficient de corrélation par paire à l’aide du test t de Student. La valeur calculée du test t est comparée à la valeur (critique) tabulée cet indicateurà partir du tableau correspondant des valeurs du paramètre considéré, en tenant compte du niveau de signification spécifié et du nombre de degrés de liberté. Cette estimation est réalisée à l'aide de la fonction STUDISCOVER(probabilité ; degrés_de_liberté).
3. Matrice des coefficients de corrélation de paires. L'analyse est effectuée à l'aide de l'outil d'analyse des données, dans lequel la corrélation est sélectionnée. Évaluation statistique les coefficients de corrélation de paires sont effectués en comparant sa valeur absolue avec la valeur tabulaire (critique). Lorsque le coefficient de corrélation par paire calculé dépasse le coefficient critique, on peut dire, compte tenu du degré de probabilité donné, que l'hypothèse nulle sur la signification de la relation linéaire n'est pas rejetée.
En conclusion
L'utilisation de la méthode d'analyse de corrélation dans la recherche scientifique nous permet de déterminer la relation entre divers facteurs et indicateurs de performance. Il est nécessaire de prendre en compte qu'un coefficient de corrélation élevé peut être obtenu à partir d'une paire ou d'un ensemble de données absurdes, et donc ce type l’analyse doit être effectuée sur un ensemble de données suffisamment large.
Après avoir obtenu la valeur calculée de r, il est conseillé de la comparer avec le r critique pour confirmer la fiabilité statistique d'une certaine valeur. L'analyse de corrélation peut être réalisée manuellement à l'aide de formules, ou à l'aide de logiciels, notamment MS Excel. Ici, vous pouvez également construire un diagramme de dispersion dans le but de représenter visuellement la relation entre les facteurs étudiés de l'analyse de corrélation et la caractéristique résultante.
Avec connexion de corrélationà la même valeur d'une caractéristique correspond des valeurs différentes d'une autre. Par exemple : il existe une corrélation entre la taille et le poids, entre l'incidence des tumeurs malignes et l'âge, etc.
Il existe 2 méthodes pour calculer le coefficient de corrélation : la méthode des carrés (Pearson), la méthode des rangs (Spearman).
La plus précise est la méthode des carrés (Pearson), dans laquelle le coefficient de corrélation est déterminé par la formule : , où
r xy est le coefficient de corrélation entre les séries statistiques X et Y.
dx est l'écart de chacun des nombres de la série statistique X par rapport à sa moyenne arithmétique.
d y est l'écart de chacun des nombres de la série statistique Y par rapport à sa moyenne arithmétique.
Selon la force de la connexion et sa direction, le coefficient de corrélation peut aller de 0 à 1 (-1). Un coefficient de corrélation de 0 indique une absence totale de connexion. Plus le niveau du coefficient de corrélation est proche de 1 ou (-1), plus le direct ou le feedback qu'il mesure est d'autant plus élevé et plus précis. Lorsque le coefficient de corrélation est égal à 1 ou (-1), la connexion est complète et fonctionnelle.
Schéma d'évaluation de la force de corrélation à l'aide du coefficient de corrélation
Le pouvoir de la connexion |
La valeur du coefficient de corrélation si disponible |
|
connexion directe (+) |
retour (-) |
|
Aucune connexion | ||
La connexion est petite (faible) |
de 0 à +0,29 |
de 0 à –0,29 |
Connexion moyenne (modérée) |
de +0,3 à +0,69 |
de –0,3 à –0,69 |
La connexion est grande (forte) |
de +0,7 à +0,99 |
de –0,7 à –0,99 |
Communication complète (fonctionnel) |
Pour calculer le coefficient de corrélation par la méthode des carrés, un tableau de 7 colonnes est établi. Examinons le processus de calcul à l'aide d'un exemple :
DÉTERMINER LA FORCE ET LA NATURE DE LA CONNEXION ENTRE
Il est temps- ness goitre (V oui ) |
d X = V x –M. x |
d y = V oui –M. oui |
d x d oui |
d x 2 |
d oui 2 |
|
Σ -1345 ,0 |
Σ 13996 ,0 |
Σ 313 , 47 |
1. Déterminez la teneur moyenne en iode de l'eau (en mg/l).
mg/l
2. Déterminez l’incidence moyenne du goitre en %.
3. Déterminez l'écart de chaque V x par rapport à M x, c'est-à-dire dx.
201-138=63 ; 178-138=40, etc.
4. De même, nous déterminons l'écart de chaque V y par rapport à M y, c'est-à-dire d y.
0,2-3,8=-3,6 ; 0,6–38=-3,2, etc.
5. Déterminez les produits des écarts. Nous résumons le produit résultant et obtenons.
6. Nous mettons au carré d x et résumons les résultats, nous obtenons.
7. De même, on met au carré d y, on résume les résultats, on obtient
8. Enfin, nous substituons tous les montants reçus dans la formule :
Pour résoudre le problème de la fiabilité du coefficient de corrélation, son erreur moyenne est déterminée à l'aide de la formule :
(Si le nombre d’observations est inférieur à 30, alors le dénominateur est n–1).
Dans notre exemple
La valeur du coefficient de corrélation est considérée comme fiable si elle est au moins 3 fois supérieure à son erreur moyenne.
Dans notre exemple
Ainsi, le coefficient de corrélation n’est pas fiable, ce qui nécessite une augmentation du nombre d’observations.
Le coefficient de corrélation peut être déterminé d'une manière légèrement moins précise, mais beaucoup plus simple : la méthode des rangs (Spearman).
Méthode de Spearman : P=1-(6∑d 2 /n-(n 2 -1))
créer deux rangées de caractéristiques comparables appariées, désignant respectivement la première et la deuxième rangée x et y. Dans ce cas, présentez la première ligne de la caractéristique par ordre décroissant ou croissant, et placez les valeurs numériques de la deuxième ligne en face des valeurs de la première ligne auxquelles elles correspondent
remplacer la valeur de la caractéristique dans chacune des séries comparées par un numéro d'ordre (rang). Les rangs, ou nombres, indiquent les emplacements des indicateurs (valeurs) des première et deuxième lignes. Dans ce cas, les rangs doivent être attribués aux valeurs numériques du deuxième attribut dans le même ordre que celui adopté lors de leur attribution aux valeurs du premier attribut. Avec des valeurs identiques d'une caractéristique dans une série, les rangs doivent être déterminés comme le nombre moyen à partir de la somme des nombres ordinaux de ces valeurs.
déterminer la différence de rang entre x et y (d) : d = x - y
mettre au carré la différence de rang résultante (d 2)
obtenir la somme des carrés de la différence (Σ d 2) et substituer les valeurs résultantes dans la formule :
Exemple:à l'aide de la méthode du classement, établir la direction et la force de la relation entre les années d'expérience de travail et la fréquence des blessures si les données suivantes sont obtenues :
Justification du choix de la méthode : Pour résoudre le problème, seule la méthode de corrélation de rang peut être choisie, car La première ligne de l'attribut « expérience professionnelle en années » contient options ouvertes(expérience professionnelle jusqu'à 1 an et 7 ans ou plus), ce qui ne permet pas d'utiliser une méthode plus précise - la méthode des carrés - pour établir un lien entre les caractéristiques comparées.
Solution. La séquence de calculs est présentée dans le texte, les résultats sont présentés sous forme de tableau. 2.
Tableau 2
Expérience professionnelle en années |
Nombre de blessés |
Nombres ordinaux (rangs) |
Différence de classement |
Différence de rang au carré |
|
d(x-y) |
d 2 |
||||
Chacune des lignes de caractéristiques appariées est désignée par « x » et « y » (colonnes 1-2).
La valeur de chaque caractéristique est remplacée par un numéro de rang (ordinal). L'ordre de répartition des rangs dans la ligne « x » est le suivant : la valeur minimale de l'attribut (expérience jusqu'à 1 an) se voit attribuer le numéro de série « 1 », les variantes suivantes de la même ligne d'attribut, respectivement, dans ordre croissant, 2ème, 3ème, 4ème et 5ème numéros de série - rangs (voir colonne 3). Un ordre similaire est suivi lors de la distribution des classements au deuxième attribut « y » (colonne 4). Dans les cas où il existe plusieurs options d'égale ampleur (par exemple, dans le problème standard, il s'agit de 12 et 12 blessures pour 100 travailleurs avec une expérience de 3-4 ans et 5-6 ans, le numéro de série est désigné par le nombre moyen à partir de la somme de leurs numéros de série. Lors du classement, les données sur le nombre de blessures (12 blessures) devraient occuper 2 et 3 places, donc leur nombre moyen est (2 + 3)/2 = 2,5. des blessures est « 12 » et « 12 » (attribut), les mêmes numéros de rang doivent être distribués - « 2,5 » (colonne 4).
Déterminer la différence de rang d = (x - y) - (colonne 5)
Mettez au carré la différence de rang (d 2) et obtenez la somme des carrés de la différence de rang Σ d 2 (colonne 6).
Calculez le coefficient de corrélation de rang à l'aide de la formule :
où n est le nombre de paires d'options comparées dans la ligne « x » et dans la ligne « y »
Le test de corrélation de Pearson est une méthode de statistiques paramétriques qui permet de déterminer la présence ou l'absence d'une relation linéaire entre deux indicateurs quantitatifs, ainsi que d'évaluer sa proximité et sa signification statistique. En d'autres termes, le test de corrélation de Pearson permet de déterminer s'il existe une relation linéaire entre les modifications des valeurs de deux variables. Dans les calculs et les inférences statistiques, le coefficient de corrélation est généralement noté r xy ou Rxy.
1. Historique du développement du critère de corrélation
Le test de corrélation de Pearson a été développé par une équipe de scientifiques britanniques dirigée par Karl Pearson(1857-1936) dans les années 90 du 19e siècle, pour simplifier l'analyse de la covariance de deux variables aléatoires. En plus de Karl Pearson, des personnes ont également travaillé sur le critère de corrélation de Pearson. Francis Edgeworth Et Raphaël Weldon.
2. A quoi sert le test de corrélation de Pearson ?
Le test de corrélation de Pearson permet de déterminer l'étroitesse (ou la force) de la corrélation entre deux indicateurs mesurés sur une échelle quantitative. À l’aide de calculs supplémentaires, vous pouvez également déterminer le degré de signification statistique de la relation identifiée.
Par exemple, en utilisant le critère de corrélation de Pearson, vous pouvez répondre à la question de savoir s'il existe un lien entre la température corporelle et la teneur en leucocytes dans le sang lors d'infections respiratoires aiguës, entre la taille et le poids du patient, entre la teneur en eau potable fluorure et l'incidence des caries dentaires dans la population.
3. Conditions et limites d'application du test du Chi carré de Pearson
- Des indicateurs comparables doivent être mesurés échelle quantitative(par exemple, fréquence cardiaque, température corporelle, nombre de globules blancs pour 1 ml de sang, tension artérielle systolique).
- En utilisant le test de corrélation de Pearson, nous pouvons seulement déterminer présence et force d’une relation linéaire entre les quantités. D'autres caractéristiques de la relation, notamment la direction (directe ou inverse), la nature des changements (rectilignes ou curvilignes), ainsi que la présence de dépendance d'une variable par rapport à une autre, sont déterminées à l'aide d'une analyse de régression.
- Le nombre de grandeurs comparées doit être égal à deux. Dans le cas de l'analyse de la relation entre trois paramètres ou plus, vous devez utiliser la méthode analyse factorielle.
- Le test de corrélation de Pearson est paramétrique, et donc la condition de son utilisation est distribution normale variables comparées. S'il est nécessaire d'effectuer une analyse de corrélation d'indicateurs dont la distribution diffère de la normale, y compris ceux mesurés sur une échelle ordinale, le coefficient de corrélation de rang de Spearman doit être utilisé.
- Les notions de dépendance et de corrélation doivent être clairement distinguées. La dépendance des quantités détermine la présence d'une corrélation entre elles, mais pas l'inverse.
Par exemple, la taille d’un enfant dépend de son âge, c’est-à-dire de ce enfant plus âgé, plus il est élevé. Si nous prenons deux enfants d'âges différents, alors avec un degré de probabilité élevé, la croissance de l'enfant plus âgé sera supérieure à celle du plus jeune. Ce phénomène est appelé dépendance, ce qui implique une relation de cause à effet entre les indicateurs. Bien sûr, entre eux il y a aussi connexion de corrélation, ce qui signifie que les changements dans un indicateur sont accompagnés de changements dans un autre indicateur.
Dans une autre situation, considérons la relation entre la taille d’un enfant et la fréquence cardiaque (FC). Comme on le sait, ces deux valeurs dépendent directement de l'âge, donc dans la plupart des cas, les enfants de plus grande taille (et donc plus âgés) auront des valeurs de fréquence cardiaque plus faibles. C'est, connexion de corrélation sera observé et peut avoir une affluence assez importante. Cependant, si nous emmenons les enfants même âge, Mais différentes hauteurs , alors, très probablement, leur fréquence cardiaque différera de manière insignifiante, et nous pouvons donc conclure que indépendance Fréquence cardiaque depuis la hauteur.
L’exemple ci-dessus montre à quel point il est important de distinguer les concepts fondamentaux en statistique. communications Et dépendances indicateurs pour tirer des conclusions correctes.
4. Comment calculer le coefficient de corrélation de Pearson ?
Le coefficient de corrélation de Pearson est calculé à l'aide de la formule suivante :
5. Comment interpréter la valeur du coefficient de corrélation de Pearson ?
Les valeurs du coefficient de corrélation de Pearson sont interprétées en fonction de leurs valeurs absolues. Les valeurs possibles du coefficient de corrélation varient de 0 à ±1. Plus la valeur absolue de r xy est grande, plus la relation entre les deux quantités est étroite. r xy = 0 indique une absence totale de communication. r xy = 1 – indique la présence d'une connexion absolue (fonctionnelle). Si la valeur du critère de corrélation de Pearson s'avère supérieure à 1 ou inférieure à -1, une erreur a été commise dans les calculs.
Pour évaluer l'étroitesse, ou la force, d'une corrélation, on utilise généralement des critères généralement acceptés, selon lesquels les valeurs absolues de r xy< 0.3 свидетельствуют о faible connexion, valeurs r xy de 0,3 à 0,7 - à propos de la connexion moyenneétanchéité, valeurs de r xy > 0,7 - o fort communications.
Une estimation plus précise de la force de la corrélation peut être obtenue si vous utilisez Table Chaddock:
Grade signification statistique Le coefficient de corrélation r xy est réalisé à l'aide du test t, calculé selon la formule suivante :
La valeur t r obtenue est comparée à la valeur critique à un certain niveau de signification et au nombre de degrés de liberté n-2. Si t r dépasse t crit, alors une conclusion est tirée sur la signification statistique de la corrélation identifiée.
6. Exemple de calcul du coefficient de corrélation de Pearson
Le but de l'étude était d'identifier, de déterminer l'étroitesse et la signification statistique de la corrélation entre deux indicateurs quantitatifs : le taux de testostérone dans le sang (X) et le pourcentage masse musculaire dans le corps (Y). Les données initiales pour un échantillon composé de 5 sujets (n = 5) sont résumées dans le tableau.