Méthodes d'analyse quantitative : Estimation des intervalles de confiance.
Construisons un intervalle de confiance dans MS EXCEL pour estimer la valeur moyenne de la distribution dans le cas d'une valeur de dispersion connue.
Bien sûr le choix niveau de confiance dépend entièrement du problème à résoudre. Ainsi, le degré de confiance d'un passager aérien dans la fiabilité d'un avion devrait sans aucun doute être supérieur au degré de confiance d'un acheteur dans la fiabilité d'une ampoule électrique.
Formulation du problème
Supposons qu'à partir de population ayant été pris échantillon taille n. On suppose que écart type cette répartition est connue. Il faut sur cette base échantillonsévaluer l'inconnu moyenne de distribution(μ, ) et construisons le correspondant double face intervalle de confiance.
Estimation ponctuelle
Comme on le sait de statistiques(notons-le X moyenne) est estimation impartiale de la moyenne ce population et a une distribution N(μ;σ 2 /n).
Note: Que faire si vous devez construire intervalle de confiance dans le cas d'une distribution qui n'est pas normale? Dans ce cas, vient à la rescousse, qui précise qu'avec une taille suffisamment grande échantillons n de la distribution ne pas être normale, répartition de l'échantillon des statistiques X moy volonté environ correspondre distribution normale avec des paramètres N(μ;σ 2 /n).
Donc, estimation ponctuelle moyenne valeurs de distribution nous avons - ceci moyenne de l'échantillon, c'est-à-dire X moyenne. Maintenant, commençons intervalle de confiance.
Construire un intervalle de confiance
Habituellement, connaissant la distribution et ses paramètres, nous pouvons calculer la probabilité que la variable aléatoire prenne une valeur dans l'intervalle que nous spécifions. Faisons maintenant l’inverse : trouvons l’intervalle dans lequel la variable aléatoire tombera avec une probabilité donnée. Par exemple, à partir des propriétés distribution normale on sait qu'avec une probabilité de 95 %, une variable aléatoire répartie sur loi normale, se situera dans la plage d'environ +/- 2 de valeur moyenne(voir article sur). Cet intervalle nous servira de prototype intervalle de confiance.
Voyons maintenant si nous connaissons la distribution , calculer cet intervalle ? Pour répondre à la question, il faut indiquer la forme de la distribution et ses paramètres.
Nous connaissons la forme de distribution - c'est distribution normale(rappelez-vous que nous parlons deÔ distribution d'échantillonnage statistiques X moyenne).
Le paramètre μ nous est inconnu (il suffit de l’estimer à l’aide de intervalle de confiance), mais nous en avons une estimation X moyenne, calculé sur la base des échantillons, qui peut être utilisé.
Deuxième paramètre - écart type de la moyenne de l'échantillon nous le considérerons comme connu, il est égal à σ/√n.
Parce que on ne connaît pas μ, alors on va construire l'intervalle +/- 2 écarts types pas de valeur moyenne, et d'après son estimation connue X moyenne. Ceux. lors du calcul intervalle de confiance nous ne supposerons PAS que X moyenne se situe dans la plage +/- 2 écarts types de μ avec une probabilité de 95%, et nous supposerons que l'intervalle est de +/- 2 écarts types depuis X moyenne avec une probabilité de 95 %, il couvrira μ – moyenne de la population générale, d'où il a été tiré échantillon. Ces deux énoncés sont équivalents, mais le deuxième énoncé permet de construire intervalle de confiance.
De plus, clarifions l'intervalle : une variable aléatoire répartie sur loi normale, avec une probabilité de 95 %, se situe dans l'intervalle +/- 1,960 les écarts types, pas +/- 2 écarts types. Cela peut être calculé à l'aide de la formule =NORM.ST.REV((1+0.95)/2), cm. exemple de fichier Intervalle de feuille.
Nous pouvons maintenant formuler un énoncé probabiliste qui nous servira à former intervalle de confiance:
"La probabilité que moyenne de la population situé à partir de moyenne de l'échantillon dans les 1 960" écarts types de la moyenne de l'échantillon", égal à 95%".
La valeur de probabilité mentionnée dans la déclaration porte un nom spécial , qui est associé à niveau de signification α (alpha) par une expression simple niveau de confiance =1 -α . Dans notre cas niveau de signification α =1-0,95=0,05 .
Maintenant, sur la base de cet énoncé probabiliste, nous écrivons une expression pour calculer intervalle de confiance:
où Z α/2 – standard distribution normale(cette valeur de la variable aléatoire z, Quoi P.(z>=Zα/2 )=α/2).
Note: Quantile α/2 supérieur définit la largeur intervalle de confiance V écarts types moyenne de l’échantillon. Quantile α/2 supérieur standard distribution normale toujours supérieur à 0, ce qui est très pratique.
Dans notre cas, avec α=0,05, quantile α/2 supérieur est égal à 1,960. Pour les autres niveaux de signification α (10 % ; 1 %) quantile α/2 supérieur Zα/2 peut être calculé à l'aide de la formule =NORM.ST.REV(1-α/2) ou, si connu niveau de confiance, =NORM.ST.OBR((1+niveau de confiance)/2).
Généralement lors de la construction intervalles de confiance pour estimer la moyenne utiliser uniquement α supérieur/2-quantile et n'utilise pas α inférieur/2-quantile. Ceci est possible parce que standard distribution normale symétriquement par rapport à l'axe x ( sa densité de distribution symétrique environ moyenne, c'est-à-dire 0). Il n’est donc pas nécessaire de calculer quantile α/2 inférieur(on l'appelle simplement α /2-quantile), parce que c'est égal α supérieur/2-quantile avec un signe moins.
Rappelons que, malgré la forme de la distribution de la valeur x, la variable aléatoire correspondante X moyenne distribué environ Bien N(μ;σ 2 /n) (voir article sur). Par conséquent, en général, l’expression ci-dessus pour intervalle de confiance n'est qu'une approximation. Si la valeur x est répartie sur loi normale N(μ;σ 2 /n), alors l'expression de intervalle de confiance est exact.
Calcul de l'intervalle de confiance dans MS EXCEL
Résolvons le problème.
Le temps de réponse d'un composant électronique à un signal d'entrée est caractéristique importante appareils. Un ingénieur souhaite construire un intervalle de confiance pour le temps de réponse moyen à un niveau de confiance de 95 %. D'après son expérience précédente, l'ingénieur sait que l'écart type du temps de réponse est de 8 ms. On sait que pour évaluer le temps de réponse, l'ingénieur a effectué 25 mesures, la valeur moyenne était de 78 ms.
Solution: L'ingénieur veut connaître le temps de réponse appareil électronique, mais il comprend que le temps de réponse n'est pas une valeur fixe, mais une variable aléatoire qui a sa propre distribution. Le mieux qu’il puisse espérer est donc de déterminer les paramètres et la forme de cette distribution.
Malheureusement, à partir des conditions du problème, nous ne connaissons pas la forme de la distribution des temps de réponse (il n'est pas nécessaire qu'elle soit normale). , cette distribution est également inconnue. Lui seul est connu écart type=8. Par conséquent, même si nous ne pouvons pas calculer les probabilités et construire intervalle de confiance.
Cependant, même si nous ne connaissons pas la répartition temps réponse séparée, nous savons que d'après CPT, distribution d'échantillonnage temps de réponse moyen est approximativement normale(nous supposerons que les conditions CPT sont effectués, parce que taille échantillons assez grand (n=25)) .
De plus, moyenne cette répartition est égale à valeur moyenne distribution d'une seule réponse, c'est-à-dire µ. UN écart type de cette distribution (σ/√n) peut être calculée à l'aide de la formule =8/ROOT(25) .
On sait également que l'ingénieur a reçu estimation ponctuelle paramètre µ égal à 78 ms (X moy). Par conséquent, nous pouvons maintenant calculer des probabilités, car nous connaissons la forme de distribution ( normale) et ses paramètres (X moy et σ/√n).
L'ingénieur veut savoir espérance mathématique Distributions des temps de réponse μ. Comme indiqué ci-dessus, ce μ est égal à espérance mathématique de la distribution d'échantillon du temps de réponse moyen. Si nous utilisons distribution normale N(Х moy; σ/√n), alors le μ souhaité sera compris dans la plage +/-2*σ/√n avec une probabilité d'environ 95 %.
Niveau de signification est égal à 1-0,95=0,05.
Enfin, trouvons les bordures gauche et droite intervalle de confiance.
Bordure gauche : =78-NORM.ST.INV(1-0.05/2)*8/RACINE(25) =
74,864
Bordure droite : =78+NORM.ST.INV(1-0.05/2)*8/RACINE(25)=81.136
Bordure gauche : =NORM.REV(0.05/2; 78; 8/RACINE(25))
Bordure droite : =NORM.REV(1-0.05/2; 78; 8/RACINE(25))
Répondre: intervalle de confianceà Niveau de confiance de 95 % et σ=8msec est égal 78+/-3,136 ms.
DANS fichier exemple sur la feuille Sigma connu, a créé un formulaire de calcul et de construction double face intervalle de confiance pour arbitraire échantillons avec σ donné et niveau de signification.
Fonction CONFIDENCE.NORM()
Si les valeurs échantillons sont dans la gamme B20:B79
, UN niveau de significationégal à 0,05 ; puis la formule MS EXCEL :
= MOYENNE (B20: B79) -CONFIDENCE.NORM (0,05; σ; COMPTE (B20: B79))
renverra la bordure gauche intervalle de confiance.
La même limite peut être calculée à l'aide de la formule :
= MOYENNE (B20: B79) -NORM.ST.REV (1-0,05/2) * σ / RACINE (COMTE (B20: B79))
Note: La fonction CONFIDENCE.NORM() est apparue dans MS EXCEL 2010. Dans les versions antérieures de MS EXCEL, la fonction TRUST() était utilisée.
L'une des méthodes permettant de résoudre les problèmes statistiques consiste à calculer l'intervalle de confiance. Elle constitue une alternative préférable à l’estimation ponctuelle lorsque la taille de l’échantillon est petite. Il convient de noter que le processus de calcul de l’intervalle de confiance lui-même est assez complexe. Mais les outils Excel rendent les choses un peu plus faciles. Voyons comment cela se fait dans la pratique.
Cette méthode est utilisée pour l'estimation par intervalles de diverses quantités statistiques. La tâche principale de ce calcul est de s'affranchir des incertitudes de l'estimation ponctuelle.
Dans Excel, il existe deux options principales pour effectuer des calculs à l'aide de cette méthode: quand la variance est connue et quand elle est inconnue. Dans le premier cas, la fonction est utilisée pour les calculs NORME DE CONFIANCE, et dans le second - Administrateur.ÉTUDIANT.
Méthode 1 : fonction CONFIDENCE NORM
Opérateur NORME DE CONFIANCE, qui appartient au groupe de fonctions statistiques, est apparu pour la première fois dans Excel 2010. Les versions antérieures de ce programme utilisent son analogue CONFIANCE. Le but de cet opérateur est de calculer un intervalle de confiance normalement distribué pour la moyenne de la population.
Sa syntaxe est la suivante :
CONFIDENCE.NORM(alpha;standard_off;size)
"Alpha"— un argument indiquant le niveau de signification utilisé pour calculer le niveau de confiance. Le niveau de confiance est égal à l’expression suivante :
(1-"Alpha")*100
"Écart type"- Il s'agit d'un argument dont l'essence ressort clairement du nom. Il s’agit de l’écart type de l’échantillon proposé.
"Taille"— argument définissant la taille de l'échantillon.
Tous les arguments de cet opérateur sont obligatoires.
Fonction CONFIANCE a exactement les mêmes arguments et possibilités que le précédent. Sa syntaxe est :
CONFIANCE(alpha, standard_off, taille)
Comme vous pouvez le constater, les différences concernent uniquement le nom de l'opérateur. Pour des raisons de compatibilité, cette fonction est laissée dans Excel 2010 et les versions plus récentes dans une catégorie spéciale "Compatibilité". Dans les versions d'Excel 2007 et antérieures, il est présent dans le groupe principal des opérateurs statistiques.
La limite de l'intervalle de confiance est déterminée à l'aide de la formule suivante :
X+(-)NORME DE CONFIANCE
Où X est la valeur moyenne de l'échantillon, située au milieu de la plage sélectionnée.
Voyons maintenant comment calculer un intervalle de confiance sur exemple spécifique. 12 tests ont été effectués, aboutissant à des résultats différents, répertoriés dans le tableau. C'est notre totalité. L'écart type est de 8. Nous devons calculer l'intervalle de confiance au niveau de confiance de 97 %.
- Sélectionnez la cellule où le résultat du traitement des données sera affiché. Cliquez sur le bouton "Insérer une fonction".
- Apparaît Assistant de fonction. Aller à la catégorie "Statistique" et surlignez le nom "CONFIANCE.NORME". Après cela, cliquez sur le bouton "D'ACCORD".
- La fenêtre des arguments s'ouvre. Ses champs correspondent naturellement aux noms des arguments.
Placez le curseur dans le premier champ - "Alpha". Ici, nous devons indiquer le niveau de signification. On s'en souvient, notre niveau de confiance est de 97%. En même temps, nous avons dit qu'il se calculait ainsi :(niveau de confiance 1)/100
Autrement dit, en substituant la valeur, nous obtenons :
Par de simples calculs, nous découvrons que l'argument "Alpha" est égal 0,03 . Entrez cette valeur dans le champ.
Comme on le sait, par condition l'écart type est égal à 8 . Ainsi, sur le terrain "Écart type" notez simplement ce numéro.
Dans le champ "Taille" vous devez saisir le nombre d'éléments de test effectués. Comme on s'en souvient, leur 12 . Mais afin d'automatiser la formule et de ne pas la modifier à chaque fois que nous effectuons un nouveau test, définissons cette valeur non pas avec un nombre ordinaire, mais en utilisant l'opérateur VÉRIFIER. Alors plaçons le curseur dans le champ "Taille", puis cliquez sur le triangle situé à gauche de la barre de formule.
Une liste des fonctions récemment utilisées apparaît. Si l'opérateur VÉRIFIER a été utilisé par vous récemment, il devrait figurer sur cette liste. Dans ce cas, il vous suffit de cliquer sur son nom. Sinon, si vous ne le trouvez pas, allez au point "Autres fonctions...".
- Un déjà familier apparaît Assistant de fonction. Revenons au groupe "Statistique". Nous mettons en évidence le nom ici "VÉRIFIER". Cliquez sur le bouton "D'ACCORD".
- La fenêtre des arguments pour l'instruction ci-dessus apparaît. Cette fonction est conçue pour calculer le nombre de cellules dans une plage spécifiée contenant des valeurs numériques. Sa syntaxe est la suivante :
COUNT(valeur1,valeur2,…)
Groupe d'arguments "Valeurs" est une référence à la plage dans laquelle vous souhaitez calculer le nombre de cellules remplies de données numériques. Il peut y avoir jusqu'à 255 arguments de ce type au total, mais dans notre cas, nous n'en avons besoin que d'un seul.
Placez le curseur dans le champ "Valeur1" et, en maintenant enfoncé le bouton gauche de la souris, sélectionnez sur la feuille la plage qui contient notre collection. Ensuite, son adresse sera affichée dans le champ. Cliquez sur le bouton "D'ACCORD".
- Après cela, l'application effectuera le calcul et affichera le résultat dans la cellule où il se trouve. Dans notre cas particulier, la formule ressemblait à ceci :
NORME DE CONFIANCE(0.03,8,COUNT(B2:B13))
Le résultat global des calculs était 5,011609 .
- Mais ce n'est pas tout. Comme on s'en souvient, la limite de l'intervalle de confiance est calculée en ajoutant et en soustrayant le résultat du calcul de la moyenne de l'échantillon. NORME DE CONFIANCE. De cette manière, les limites droite et gauche de l’intervalle de confiance sont calculées respectivement. La moyenne de l'échantillon elle-même peut être calculée à l'aide de l'opérateur MOYENNE.
Cet opérateur est conçu pour calculer la moyenne arithmétique d'une plage de nombres sélectionnée. Il a la syntaxe suivante assez simple :
MOYENNE(numéro1,numéro2,…)
Argument "Nombre" peut être soit une valeur numérique unique, soit une référence à des cellules ou même à des plages entières qui les contiennent.
Alors, sélectionnez la cellule dans laquelle sera affiché le calcul de la valeur moyenne, et cliquez sur le bouton "Insérer une fonction".
- Ouvre Assistant de fonction. Retour à la catégorie "Statistique" et sélectionnez un nom dans la liste "MOYENNE". Comme toujours, cliquez sur le bouton "D'ACCORD".
- La fenêtre des arguments s'ouvre. Placez le curseur dans le champ "Numéro1" et en maintenant enfoncé le bouton gauche de la souris, sélectionnez toute la plage de valeurs. Une fois les coordonnées affichées dans le champ, cliquez sur le bouton "D'ACCORD".
- Après cela MOYENNE affiche le résultat du calcul dans un élément de feuille.
- Nous calculons la limite droite de l'intervalle de confiance. Pour ce faire, sélectionnez une cellule séparée et mettez le signe «=»
et additionner le contenu des éléments de la feuille dans lesquels se trouvent les résultats des calculs de fonctions MOYENNE Et NORME DE CONFIANCE. Pour effectuer le calcul, appuyez sur le bouton Entrer. Dans notre cas, nous avons la formule suivante :
Résultat du calcul : 6,953276
- De la même manière on calcule la limite gauche de l'intervalle de confiance, seulement cette fois à partir du résultat du calcul MOYENNE soustraire le résultat du calcul de l'opérateur NORME DE CONFIANCE. La formule résultante pour notre exemple est du type suivant :
Résultat du calcul : -3,06994
- Nous avons essayé de décrire en détail toutes les étapes de calcul de l'intervalle de confiance, nous avons donc décrit chaque formule en détail. Mais vous pouvez combiner toutes les actions en une seule formule. Le calcul de la limite droite de l’intervalle de confiance peut s’écrire comme suit :
MOYENNE(B2:B13)+CONFIDENCE.NORM(0.03,8,COUNT(B2:B13))
- Un calcul similaire pour la bordure gauche ressemblerait à ceci :
MOYENNE(B2:B13)-CONFIDENCE.NORM(0.03,8,COUNT(B2:B13))
Méthode 2 : fonction TRUST.STUDENT
De plus, Excel dispose d'une autre fonction associée au calcul de l'intervalle de confiance - Administrateur.ÉTUDIANT. Il n'est apparu que dans Excel 2010. Cet opérateur calcule l'intervalle de confiance de la population à l'aide de la distribution de Student. Il est très pratique à utiliser lorsque la variance et, par conséquent, l'écart type sont inconnus. La syntaxe de l'opérateur est :
CONFIDENCE.ÉTUDIANT(alpha,standard_off,taille)
Comme vous pouvez le constater, les noms des opérateurs sont restés inchangés dans ce cas.
Voyons comment calculer les limites d'un intervalle de confiance avec un écart type inconnu en utilisant l'exemple de la même population que nous avons considérée dans la méthode précédente. Prenons le niveau de confiance de la dernière fois à 97%.
- Sélectionnez la cellule dans laquelle le calcul sera effectué. Cliquez sur le bouton "Insérer une fonction".
- Dans l'ouvert Assistant de fonction aller à la catégorie "Statistique". Sélectionnez un nom "ÉTUDIANT DE CONFIANCE". Cliquez sur le bouton "D'ACCORD".
- La fenêtre des arguments pour l'opérateur spécifié est lancée.
Dans le champ "Alpha", étant donné que le niveau de confiance est de 97%, on note le nombre 0,03 . Deuxième fois sur les principes de calcul ce paramètre Nous ne nous arrêterons pas.
Après cela, placez le curseur dans le champ "Écart type". Cette fois cet indicateur nous est inconnu et doit être calculé. Cela se fait à l'aide d'une fonction spéciale - STDEV.V. Pour ouvrir la fenêtre de cet opérateur, cliquez sur le triangle à gauche de la barre de formule. Si nous ne trouvons pas le nom souhaité dans la liste qui s'ouvre, alors accédez à l'élément "Autres fonctions...".
- Commence Assistant de fonction. Passer à la catégorie "Statistique" et marque le nom dedans "STDEV.B". Cliquez ensuite sur le bouton "D'ACCORD".
- La fenêtre des arguments s'ouvre. Tâche de l'opérateur STDEV.V consiste à déterminer l’écart type d’un échantillon. Sa syntaxe ressemble à ceci :
ÉCART TYPE.B(numéro1;numéro2;…)
Il n'est pas difficile de deviner que l'argument "Nombre" est l'adresse de l'élément de sélection. Si la sélection est placée dans un seul tableau, vous ne pouvez utiliser qu'un seul argument pour fournir un lien vers cette plage.
Placez le curseur dans le champ "Numéro1" et, comme toujours, en maintenant enfoncé le bouton gauche de la souris, sélectionnez la collection. Une fois les coordonnées sur le terrain, ne vous précipitez pas pour appuyer sur le bouton "D'ACCORD", puisque le résultat sera incorrect. Nous devons d’abord revenir à la fenêtre des arguments de l’opérateur Administrateur.ÉTUDIANT pour ajouter l'argument final. Pour cela, cliquez sur le nom correspondant dans la barre de formule.
- La fenêtre d'arguments de la fonction déjà familière s'ouvre à nouveau. Placez le curseur dans le champ "Taille". Cliquez à nouveau sur le triangle que nous connaissons déjà pour accéder à la sélection des opérateurs. Comme vous l'avez compris, nous avons besoin d'un nom "VÉRIFIER". Puisque nous avons utilisé cette fonction dans les calculs de la méthode précédente, elle est présente dans cette liste, il suffit donc de cliquer dessus. Si vous ne le trouvez pas, suivez l'algorithme décrit dans la première méthode.
- Une fois dans la fenêtre des arguments VÉRIFIER, placez le curseur dans le champ "Numéro1" et avec le bouton de la souris enfoncé, sélectionnez la collection. Cliquez ensuite sur le bouton "D'ACCORD".
- Après cela, le programme effectue un calcul et affiche la valeur de l'intervalle de confiance.
- Pour déterminer les limites, nous devrons à nouveau calculer la moyenne de l’échantillon. Mais étant donné que l'algorithme de calcul utilisant la formule MOYENNE la même chose que dans la méthode précédente, et même le résultat n'a pas changé, nous n'y reviendrons pas en détail une seconde fois.
- Additionner les résultats du calcul MOYENNE Et Administrateur.ÉTUDIANT, on obtient la bonne limite de l’intervalle de confiance.
- Soustraire des résultats de calcul de l'opérateur MOYENNE résultat du calcul Administrateur.ÉTUDIANT, nous avons la limite gauche de l’intervalle de confiance.
- Si le calcul est écrit dans une seule formule, alors le calcul de la limite droite dans notre cas ressemblera à ceci :
MOYENNE(B2:B13)+CONFIDENCE.ÉTUDIANT(0,03,STDEV.B(B2:B13),COUNT(B2:B13))
- En conséquence, la formule de calcul de la bordure gauche ressemblera à ceci :
MOYENNE(B2:B13)-CONFIDENCE.ÉTUDIANT(0.03,STDEV.B(B2:B13),COUNT(B2:B13))
Comme vous pouvez le constater, les outils Excel facilitent grandement le calcul de l'intervalle de confiance et de ses limites. À ces fins, des opérateurs distincts sont utilisés pour les échantillons dont la variance est connue et inconnue.
"Katren-Style" poursuit la publication du cycle de Konstantin Kravchik sur statistiques médicales. Dans deux articles précédents, l'auteur a traité de l'explication de concepts tels que et.
Constantin Kravtchik
Mathématicien-analyste. Spécialiste de la recherche statistique en médecine et sciences humaines
Ville : Moscou
Très souvent, dans les articles sur les études cliniques, on trouve une expression mystérieuse : « intervalle de confiance » (IC à 95 % ou IC à 95 % - intervalle de confiance). Par exemple, un article pourrait écrire : « Pour évaluer l’importance des différences, un test t de Student a été utilisé pour calculer l’intervalle de confiance de 95 %. »
Quelle est la valeur de « l’intervalle de confiance à 95 % » et pourquoi le calculer ?
Qu'est-ce qu'un intervalle de confiance ? - Il s'agit de la fourchette dans laquelle se situent les moyennes réelles de la population. Existe-t-il des moyennes « fausses » ? Dans un sens, oui, c’est le cas. Dans nous avons expliqué qu'il est impossible de mesurer le paramètre d'intérêt dans l'ensemble de la population, les chercheurs se contentent donc d'un échantillon limité. Dans cet échantillon (par exemple, par poids corporel), il existe une valeur moyenne (un certain poids), par laquelle nous jugeons la valeur moyenne dans l'ensemble de la population. Cependant, il est peu probable poids moyen dans un échantillon (surtout petit) coïncidera avec le poids moyen de la population générale. Par conséquent, il est plus correct de calculer et d'utiliser la plage des valeurs moyennes de la population.
Par exemple, imaginez que l'intervalle de confiance à 95 % (IC à 95 %) pour l'hémoglobine est de 110 à 122 g/L. Cela signifie qu'il y a 95 % de chances que le taux d'hémoglobine moyen réel dans la population se situe entre 110 et 122 g/L. En d'autres termes, nous ne connaissons pas la valeur moyenne d'hémoglobine dans la population, mais nous pouvons, avec une probabilité de 95 %, indiquer une plage de valeurs pour ce trait.
Intervalle de confiance est particulièrement pertinent pour les différences de moyennes entre les groupes, ou les tailles d’effet, comme on l’appelle.
Disons que nous comparons l'efficacité de deux préparations à base de fer : une qui est sur le marché depuis longtemps et une qui vient d'être enregistrée. Après le traitement, nous avons évalué la concentration d'hémoglobine dans les groupes de patients étudiés et le programme statistique a calculé que la différence entre les valeurs moyennes des deux groupes était, avec une probabilité de 95 %, comprise entre 1,72 et 14,36 g/l (Tableau 1).
Tableau 1. Test pour des échantillons indépendants
(les groupes sont comparés par taux d'hémoglobine)
Ceci doit être interprété comme suit : chez certains patients de la population générale qui prennent nouveau médicament, l'hémoglobine sera plus élevée en moyenne de 1,72 à 14,36 g/l que chez ceux qui ont pris un médicament déjà connu.
En d'autres termes, dans la population générale, la différence des valeurs moyennes d'hémoglobine entre les groupes se situe dans ces limites avec une probabilité de 95 %. Ce sera au chercheur de juger si c’est beaucoup ou peu. Le point de tout cela est que nous ne travaillons pas avec une valeur moyenne, mais avec une plage de valeurs. Par conséquent, nous estimons de manière plus fiable la différence d'un paramètre entre les groupes.
Dans les progiciels statistiques, à la discrétion du chercheur, vous pouvez réduire ou élargir indépendamment les limites de l'intervalle de confiance. En abaissant les probabilités de l’intervalle de confiance, nous réduisons l’éventail des moyennes. Par exemple, à un IC de 90 %, la plage des moyennes (ou la différence des moyennes) sera plus étroite qu'à 95 %.
À l’inverse, augmenter la probabilité à 99 % élargit la plage de valeurs. Lors de la comparaison de groupes, la limite inférieure de l'IC peut franchir la barre zéro. Par exemple, si nous élargissons les limites de l’intervalle de confiance à 99 %, alors les limites de l’intervalle s’étendent de –1 à 16 g/l. Cela signifie qu'il existe dans la population générale des groupes dont la différence de moyenne pour la caractéristique étudiée est égale à 0 (M = 0).
À l'aide d'un intervalle de confiance, vous pouvez tester des hypothèses statistiques. Si l’intervalle de confiance dépasse la valeur zéro, alors l’hypothèse nulle, qui suppose que les groupes ne diffèrent pas sur le paramètre étudié, est vraie. L'exemple est décrit ci-dessus où nous avons élargi les limites à 99 %. Quelque part dans la population générale, nous avons trouvé des groupes qui ne différaient en rien.
Intervalle de confiance à 95 % de la différence d'hémoglobine, (g/l)
La figure montre l'intervalle de confiance à 95 % pour la différence des valeurs moyennes d'hémoglobine entre les deux groupes. La droite passe par le zéro, il y a donc une différence entre les moyennes de zéro, ce qui confirme l'hypothèse nulle selon laquelle les groupes ne diffèrent pas. La plage de différence entre les groupes va de –2 à 5 g/L. Cela signifie que l’hémoglobine peut soit diminuer de 2 g/L, soit augmenter de 5 g/L.
L'intervalle de confiance est un indicateur très important. Grâce à lui, vous pouvez voir si les différences entre les groupes étaient réellement dues à la différence de moyennes ou à un grand échantillon, car avec un grand échantillon les chances de trouver des différences sont plus grandes qu'avec un petit.
En pratique, cela pourrait ressembler à ceci. Nous avons pris un échantillon de 1 000 personnes, mesuré les taux d'hémoglobine et constaté que l'intervalle de confiance pour la différence de moyenne variait entre 1,2 et 1,5 g/l. Le niveau de signification statistique dans ce cas p
On voit que la concentration en hémoglobine a augmenté, mais presque imperceptiblement, donc, signification statistique est apparu précisément en raison de la taille de l’échantillon.
Les intervalles de confiance peuvent être calculés non seulement pour les moyennes, mais aussi pour les proportions (et les risques relatifs). Par exemple, nous nous intéressons à l’intervalle de confiance des proportions de patients ayant obtenu une rémission en prenant un médicament développé. Supposons que l’IC à 95 % pour les proportions, c’est-à-dire pour la proportion de ces patients, se situe dans la plage de 0,60 à 0,80. Ainsi, on peut dire que notre médicament a un effet thérapeutique dans 60 à 80 % des cas.
L’intelligence ne consiste pas seulement en connaissances, mais aussi en capacité à appliquer les connaissances dans la pratique. (Aristote)
Intervalles de confiance
Aperçu général
En prenant un échantillon de la population, nous obtenons une estimation ponctuelle du paramètre d'intérêt et calculons l'erreur type pour indiquer la précision de l'estimation.
Cependant, dans la plupart des cas, l’erreur type en tant que telle n’est pas acceptable. Il est beaucoup plus utile de combiner cette mesure de précision avec une estimation d'intervalle pour le paramètre de population.
Cela peut être fait en utilisant la connaissance de la distribution de probabilité théorique de la statistique d'échantillon (paramètre) afin de calculer un intervalle de confiance (CI - Confidence Interval, CI - Confidence Interval) pour le paramètre.
En général, un intervalle de confiance étend les estimations dans les deux sens d'un certain multiple de l'erreur type (d'un paramètre donné) ; les deux valeurs (limites de confiance) définissant l'intervalle sont généralement séparées par une virgule et mises entre parenthèses.
Intervalle de confiance pour la moyenne
Utilisation de la distribution normale
La moyenne de l'échantillon est normalement distribuée si la taille de l'échantillon est grande, vous pouvez donc appliquer la connaissance de la distribution normale lors de l'examen de la moyenne de l'échantillon.
Plus précisément, 95 % de la distribution des moyennes de l’échantillon se situe à moins de 1,96 écart-type (ET) de la moyenne de la population.
Lorsque nous n’avons qu’un seul échantillon, nous l’appelons l’erreur type de la moyenne (SEM) et calculons l’intervalle de confiance à 95 % pour la moyenne comme suit :
Si nous répétons cette expérience plusieurs fois, l’intervalle contiendra la véritable moyenne de la population dans 95 % des cas.
Il s'agit généralement d'un intervalle de confiance, tel que l'intervalle de valeurs dans lequel se situe la véritable moyenne de la population (moyenne générale) avec une probabilité de confiance de 95 %.
Bien qu’il ne soit pas entièrement rigoureux (la moyenne de la population est une valeur fixe et ne peut donc pas être associée à une probabilité) d’interpréter un intervalle de confiance de cette façon, il est conceptuellement plus facile à comprendre.
Usage t- distribution
Vous pouvez utiliser la distribution normale si vous connaissez la valeur de la variance dans la population. De plus, lorsque la taille de l’échantillon est petite, la moyenne de l’échantillon suit une distribution normale si les données de population sous-jacentes sont normalement distribuées.
Si les données sous-jacentes à la population ne sont pas distribuées normalement et/ou si la variance générale (variance dans la population) est inconnue, la moyenne de l'échantillon obéit Distribution t de Student.
Nous calculons l’intervalle de confiance à 95 % pour la moyenne de la population générale comme suit :
Où est le point de pourcentage (centile) t- Distribution t de Student avec (n-1) degrés de liberté, ce qui donne une probabilité bilatérale de 0,05.
En général, elle offre une plage plus large que l'utilisation de la distribution normale, car elle prend en compte l'incertitude supplémentaire introduite par l'estimation de l'écart type de la population et/ou en raison de la petite taille de l'échantillon.
Lorsque la taille de l'échantillon est grande (de l'ordre de 100 ou plus), la différence entre les deux distributions ( t-Étudiant et normal) est insignifiant. Cependant, ils utilisent toujours t- distribution lors du calcul des intervalles de confiance, même si la taille de l’échantillon est grande.
Généralement, l'IC à 95 % est indiqué. D'autres intervalles de confiance peuvent être calculés, comme l'IC à 99 % pour la moyenne.
Au lieu d'un produit erreur type et la valeur du tableau t- distribution, qui correspond à une probabilité bilatérale de 0,05, multipliez-la (erreur type) par la valeur qui correspond à une probabilité bilatérale de 0,01. Il s’agit d’un intervalle de confiance plus large que l’intervalle de confiance de 95 %, car il reflète une confiance accrue dans le fait que l’intervalle inclut réellement la moyenne de la population.
Intervalle de confiance pour la proportion
La distribution d'échantillonnage des proportions a une distribution binomiale. Cependant, si la taille de l'échantillon n est raisonnablement grande, alors la distribution d'échantillonnage de la proportion est approximativement normale avec la moyenne .
Nous évaluons avec une attitude sélective p=r/n(Où r- le nombre d'individus dans l'échantillon avec ceux qui nous intéressent traits caractéristiques), et l'erreur type est estimée :
L'intervalle de confiance à 95 % pour la proportion est estimé :
Si la taille de l'échantillon est petite (généralement lorsque n.p. ou n(1-p) moins 5
), il est alors nécessaire d'utiliser la distribution binomiale afin de calculer des intervalles de confiance précis.
Notez que si p exprimé en pourcentage, alors (1 pièce) remplacé par (100 p.).
Interprétation des intervalles de confiance
Lors de l’interprétation d’un intervalle de confiance, nous nous intéressons aux questions suivantes :
Quelle est la largeur de l’intervalle de confiance ?
Un intervalle de confiance large indique que l’estimation est imprécise ; étroit indique une estimation précise.
La largeur de l'intervalle de confiance dépend de la taille de l'erreur type, qui à son tour dépend de la taille de l'échantillon et, lorsqu'on considère une variable numérique, la variabilité des données produit des intervalles de confiance plus larges que les études portant sur un vaste ensemble de données comportant peu de variables. .
Le CI inclut-il des valeurs particulièrement intéressantes ?
Vous pouvez vérifier si la valeur probable d'un paramètre de population se situe dans l'intervalle de confiance. Si tel est le cas, les résultats sont cohérents avec cette valeur probable. Dans le cas contraire, il est peu probable (pour un intervalle de confiance de 95 %, la probabilité est de près de 5 %) que le paramètre ait cette valeur.
Dans les sous-sections précédentes, nous avons examiné la question de l'estimation d'un paramètre inconnu UN un numéro. C’est ce qu’on appelle une estimation « ponctuelle ». Dans un certain nombre de tâches, vous devez non seulement rechercher le paramètre UN approprié valeur numérique, mais aussi pour évaluer son exactitude et sa fiabilité. Vous devez savoir à quelles erreurs le remplacement d'un paramètre peut entraîner UN son estimation ponctuelle UN et avec quel degré de confiance pouvons-nous nous attendre à ce que ces erreurs ne dépassent pas les limites connues ?
Les problèmes de ce type sont particulièrement pertinents avec un petit nombre d'observations, lorsque l'estimation ponctuelle et dans est en grande partie aléatoire et le remplacement approximatif de a par a peut conduire à de graves erreurs.
Pour donner une idée de l'exactitude et de la fiabilité du devis UN,
V statistiques mathématiques Ils utilisent ce qu'on appelle des intervalles de confiance et des probabilités de confiance.
Soit pour le paramètre UN estimation impartiale obtenue par expérience UN. Nous voulons estimer l’erreur possible dans ce cas. Attribuons une probabilité p suffisamment grande (par exemple, p = 0,9, 0,95 ou 0,99) pour qu'un événement avec une probabilité p puisse être considéré comme pratiquement fiable, et trouvons une valeur s pour laquelle
Ensuite, la plage des valeurs pratiquement possibles de l'erreur survenant lors du remplacement UN sur UN, sera ± s ; grand par valeur absolue les erreurs n'apparaîtront qu'avec une faible probabilité a = 1 - p. Réécrivons (14.3.1) comme :
L'égalité (14.3.2) signifie qu'avec une probabilité p la valeur inconnue du paramètre UN tombe dans l'intervalle
Il faut noter une circonstance. Auparavant, nous avons examiné à plusieurs reprises la probabilité qu'une variable aléatoire tombe dans un intervalle non aléatoire donné. Ici, la situation est différente : l'ampleur UN n'est pas aléatoire, mais l'intervalle /p est aléatoire. Sa position sur l'axe des x est aléatoire, déterminée par son centre UN; En général, la longueur de l'intervalle 2s est également aléatoire, puisque la valeur de s est généralement calculée à partir de données expérimentales. Par conséquent, dans ce cas, il serait préférable d’interpréter la valeur p non pas comme la probabilité de « toucher » le point UN dans l'intervalle /p, et comme la probabilité qu'un intervalle aléatoire /p couvre le point UN(Fig. 14.3.1).
Riz. 14.3.1
La probabilité p est généralement appelée probabilité de confiance, et intervalle / p - intervalle de confiance. Limites d'intervalle Si. un x = un- sable une 2 = une + et sont appelés limites de confiance.
Donnons une autre interprétation à la notion d'intervalle de confiance : il peut être considéré comme un intervalle de valeurs de paramètres UN, compatibles avec les données expérimentales et ne les contredisent pas. En effet, si l'on accepte de considérer un événement avec probabilité a = 1-p pratiquement impossible, alors les valeurs du paramètre a pour lesquelles un - un> s doivent être reconnus comme contradictoires avec les données expérimentales, et ceux pour lesquels |a - UN un t na 2 .
Soit pour le paramètre UN il existe une estimation impartiale UN. Si nous connaissions la loi de distribution de la quantité UN, la tâche de trouver un intervalle de confiance serait très simple : il suffirait de trouver une valeur s pour laquelle
La difficulté est que la loi de distribution des estimations UN dépend de la loi de distribution de la quantité X et donc sur ses paramètres inconnus (en particulier sur le paramètre lui-même UN).
Pour contourner cette difficulté, vous pouvez utiliser la technique approximative suivante : remplacer les paramètres inconnus dans l’expression de s par leurs estimations ponctuelles. Avec un nombre relativement important d'expériences n(environ 20...30) cette technique donne généralement des résultats satisfaisants en termes de précision.
À titre d'exemple, considérons le problème d'un intervalle de confiance pour l'espérance mathématique.
Qu'il soit produit n X, dont les caractéristiques sont l'espérance mathématique T et écart D- inconnu. Les estimations suivantes ont été obtenues pour ces paramètres :
Il est nécessaire de construire un intervalle de confiance / p correspondant à la probabilité de confiance p pour l'espérance mathématique T quantités X.
Pour résoudre ce problème, nous utiliserons le fait que la quantité T représente la somme n variables aléatoires indépendantes distribuées de manière identique Xh et selon le théorème central limite, pour un suffisamment grand n sa loi de distribution est proche de la normale. En pratique, même avec un nombre relativement petit de termes (environ 10...20), la loi de distribution de la somme peut être approximativement considérée comme normale. Nous supposerons que la valeur T distribué selon la loi normale. Les caractéristiques de cette loi - espérance mathématique et variance - sont respectivement égales T Et
(voir chapitre 13 sous-section 13.3). Supposons que la valeur D on connaît et trouvera une valeur Ep pour laquelle
En utilisant la formule (6.3.5) du chapitre 6, nous exprimons la probabilité du côté gauche de (14.3.5) via la fonction de distribution normale
où est l'écart type de l'estimation T.
De l’équation.
trouver la valeur de Sp :
où arg Ф* (х) est la fonction inverse de Ф* (X), ceux. une telle valeur de l'argument pour laquelle la fonction de distribution normale est égale à X.
Dispersion D, par lequel la quantité est exprimée UN 1P, on ne sait pas exactement ; comme valeur approximative, vous pouvez utiliser l'estimation D(14.3.4) et mettre approximativement :
Ainsi, le problème de la construction d'un intervalle de confiance a été approximativement résolu, qui est égal à :
où gp est déterminé par la formule (14.3.7).
Pour éviter l'interpolation inverse dans les tableaux de la fonction Ф* (l) lors du calcul de s p, il convient d'établir un tableau spécial (tableau 14.3.1), qui donne les valeurs de la quantité
en fonction de r. La valeur (p détermine pour la loi normale le nombre de moyennes écarts carrés, qui doit être mis de côté à droite et à gauche du centre de diffusion pour que la probabilité d'entrer dans la zone résultante soit égale à p.
En utilisant la valeur 7 p, l'intervalle de confiance s'exprime comme suit :
Tableau 14.3.1
Exemple 1. 20 expériences ont été réalisées sur la quantité X ; les résultats sont présentés dans le tableau. 14.3.2.
Tableau 14.3.2
Il est nécessaire de trouver une estimation à partir de l'espérance mathématique de la quantité X et construisons un intervalle de confiance correspondant à la probabilité de confiance p = 0,8.
Solution. Nous avons:
En choisissant l: = 10 comme point de référence, en utilisant la troisième formule (14.2.14), nous trouvons l'estimation non biaisée D :
D'après le tableau 14.3.1 on trouve
Limites de confiance :
Intervalle de confiance :
Valeurs des paramètres T, situés dans cet intervalle sont compatibles avec les données expérimentales données dans le tableau. 14.3.2.
Un intervalle de confiance pour la variance peut être construit de la même manière.
Qu'il soit produit n expériences indépendantes sur une variable aléatoire X avec des paramètres inconnus pour A et la dispersion D une estimation impartiale a été obtenue :
Il est nécessaire de construire approximativement un intervalle de confiance pour la variance.
D'après la formule (14.3.11), il est clair que la quantité D représente
montant n variables aléatoires de la forme . Ces valeurs ne sont pas
indépendant, puisque chacun d'eux comprend la quantité T, dépendant de tous les autres. Cependant, on peut montrer qu’avec l’augmentation n la loi de répartition de leur somme se rapproche également de la normale. Presque à n= 20...30, cela peut déjà être considéré comme normal.
Supposons qu'il en soit ainsi et trouvons les caractéristiques de cette loi : espérance mathématique et dispersion. Depuis l'évaluation D- impartial, alors M[D] = D.
Calcul de l'écart D D est associé à des calculs relativement complexes, nous présentons donc son expression sans dérivation :
où q 4 est le quatrième moment central de la grandeur X.
Pour utiliser cette expression, vous devez remplacer les valeurs \u003d 4 et D(au moins les proches). Au lieu de D vous pouvez utiliser son évaluation D. En principe, le quatrième moment central peut aussi être remplacé par une estimation, par exemple une valeur de la forme :
mais un tel remplacement donnera une précision extrêmement faible, car en général, avec un nombre limité d'expériences, les moments d'ordre élevé sont déterminés avec de grandes erreurs. Cependant, dans la pratique, il arrive souvent que le type de loi de distribution des quantités X connue à l’avance : seuls ses paramètres sont inconnus. Ensuite, vous pouvez essayer d'exprimer μ 4 par D.
Prenons le cas le plus courant, où la valeur X distribué selon la loi normale. Alors son quatrième moment central s'exprime en termes de dispersion (voir chapitre 6, sous-section 6.2) ;
et la formule (14.3.12) donne ou
Remplacer l'inconnu dans (14.3.14) D son évaluation D, on obtient : d'où
Le moment μ 4 peut être exprimé par Dégalement dans certains autres cas, lorsque la distribution de la valeur X n'est pas normal, mais son apparence est connue. Par exemple, pour la loi de densité uniforme (voir chapitre 5) on a :
où (a, P) est l'intervalle sur lequel la loi est spécifiée.
Ainsi,
En utilisant la formule (14.3.12) on obtient : où trouve-t-on environ
Dans les cas où le type de loi de distribution pour la quantité 26 est inconnu, lors d'une estimation approximative de la valeur a/), il est toujours recommandé d'utiliser la formule (14.3.16), à moins qu'il n'y ait des raisons particulières de croire que cette loi est très différent de la normale (a un kurtosis positif ou négatif notable).
Si la valeur approximative a/) est obtenue d'une manière ou d'une autre, alors nous pouvons construire un intervalle de confiance pour la variance de la même manière que nous l'avons construit pour l'espérance mathématique :
où la valeur en fonction de la probabilité donnée p se trouve selon le tableau. 14.3.1.
Exemple 2. Trouver un intervalle de confiance d'environ 80 % pour la variance d'une variable aléatoire X dans les conditions de l'exemple 1, si l'on sait que la valeur X distribué selon une loi proche de la normale.
Solution. La valeur reste la même que dans le tableau. 14.3.1 :
D'après la formule (14.3.16)
En utilisant la formule (14.3.18), nous trouvons l'intervalle de confiance :
Intervalle correspondant de valeurs moyennes écart carré: (0,21; 0,29).
14.4. Méthodes exactes pour construire des intervalles de confiance pour les paramètres d'une variable aléatoire distribuée selon une loi normale
Dans la sous-section précédente, nous avons examiné des méthodes grossièrement approximatives pour construire des intervalles de confiance pour l’espérance mathématique et la variance. Nous donnerons ici une idée des méthodes exactes pour résoudre le même problème. Nous soulignons que pour trouver avec précision les intervalles de confiance, il est absolument nécessaire de connaître à l'avance la forme de la loi de distribution de la grandeur X, alors que pour l’application de méthodes approchées, cela n’est pas nécessaire.
Idée des méthodes précises la construction d’intervalles de confiance se résume à ce qui suit. Tout intervalle de confiance est trouvé à partir d'une condition exprimant la probabilité de remplir certaines inégalités, qui incluent l'estimation qui nous intéresse UN. Loi de répartition des évaluations UN dans le cas général dépend de paramètres inconnus de la grandeur X. Cependant, il est parfois possible de transmettre des inégalités à partir d'une variable aléatoire UNà une autre fonction des valeurs observées X p X 2, ..., Xp. dont la loi de distribution ne dépend pas de paramètres inconnus, mais dépend uniquement du nombre d'expériences et du type de loi de distribution de la grandeur X. Ces types de variables aléatoires jouent un rôle important dans les statistiques mathématiques ; ils ont été étudiés plus en détail pour le cas d'une distribution normale de la quantité X.
Par exemple, il a été prouvé qu'avec une distribution normale de la valeur X variable aléatoire
obéit à ce qu'on appelle Loi sur la répartition des étudiants Avec n- 1 degrés de liberté ; la densité de cette loi a la forme
où G(x) est la fonction gamma connue :
Il a également été prouvé que la variable aléatoire
a une "distribution %2" avec n- 1 degrés de liberté (voir chapitre 7), dont la densité est exprimée par la formule
Sans nous attarder sur les dérivations des distributions (14.4.2) et (14.4.4), nous montrerons comment elles peuvent être appliquées lors de la construction d'intervalles de confiance pour les paramètres Ty D.
Qu'il soit produit n expériences indépendantes sur une variable aléatoire X, normalement distribué avec des paramètres inconnus À. Pour ces paramètres, des estimations ont été obtenues
Il est nécessaire de construire des intervalles de confiance pour les deux paramètres correspondant à la probabilité de confiance p.
Construisons d'abord un intervalle de confiance pour l'espérance mathématique. Il est naturel de prendre cet intervalle symétrique par rapport à T; Soit sp la moitié de la longueur de l'intervalle. La valeur s p doit être choisie pour que la condition soit satisfaite
Essayons de passer du côté gauche de l'égalité (14.4.5) à partir de la variable aléatoire Tà une variable aléatoire T, distribué selon la loi de Student. Pour ce faire, multipliez les deux côtés de l’inégalité |m-w?|
par une valeur positive : ou, en utilisant la notation (14.4.1),
Trouvons un nombre /p tel que la valeur /p puisse être trouvée à partir de la condition
D'après la formule (14.4.2), il ressort clairement que (1) - même fonction, donc (14.4.8) donne
L'égalité (14.4.9) détermine la valeur /p en fonction de p. Si vous avez à votre disposition un tableau de valeurs intégrales
alors la valeur de /p peut être trouvée par interpolation inverse dans le tableau. Cependant, il est plus pratique d’établir à l’avance un tableau des valeurs /p. Un tel tableau est donné en annexe (tableau 5). Ce tableau montre les valeurs en fonction du niveau de confiance p et du nombre de degrés de liberté n- 1. Après avoir déterminé / p à partir du tableau. 5 et en supposant
on trouvera la moitié de la largeur de l'intervalle de confiance /p et l'intervalle lui-même
Exemple 1. 5 expériences indépendantes ont été réalisées sur une variable aléatoire X, normalement distribué avec des paramètres inconnus T et o. Les résultats des expériences sont donnés dans le tableau. 14.4.1.
Tableau 14.4.1
Trouver une note T pour l'espérance mathématique et construisez un intervalle de confiance à 90 % / p pour celle-ci (c'est-à-dire l'intervalle correspondant à la probabilité de confiance p = 0,9).
Solution. Nous avons:
Selon le tableau 5 de la demande de p- 1 = 4 et p = 0,9 on trouve où
L'intervalle de confiance sera
Exemple 2. Pour les conditions de l'exemple 1 de la sous-section 14.3, en supposant la valeur X normalement distribué, trouvez l’intervalle de confiance exact.
Solution. D'après le tableau 5 de l'annexe on trouve quand p- 1 = 19ir =
0,8 / p = 1,328 ; d'ici
En comparant avec la solution de l'exemple 1 de la sous-section 14.3 (e p = 0,072), nous sommes convaincus que l'écart est très insignifiant. Si nous maintenons la précision à la deuxième décimale, alors les intervalles de confiance trouvés par les méthodes exacte et approximative coïncident :
Passons à la construction d'un intervalle de confiance pour la variance. Considérons l'estimateur de variance sans biais
et exprimer variable aléatoire D par l'ampleur V(14.4.3), ayant une distribution x 2 (14.4.4) :
Connaître la loi de distribution de la quantité V, vous pouvez trouver l'intervalle /(1) dans lequel il tombe avec une probabilité p donnée.
Loi de répartition kn_x(v) la magnitude I 7 a la forme montrée sur la Fig. 14.4.1.
Riz. 14.4.1
La question se pose : comment choisir l’intervalle /p ? Si la loi de distribution de grandeur Vétait symétrique (comme la loi normale ou la distribution de Student), il serait naturel de prendre l'intervalle /p symétrique par rapport à l'espérance mathématique. Dans ce cas, la loi k p_x (v) asymétrique. Convenons de choisir l'intervalle /p pour que la probabilité que la valeur soit V au-delà de l'intervalle à droite et à gauche (zones ombrées sur la figure 14.4.1) étaient identiques et égales
Pour construire un intervalle /p avec cette propriété, nous utilisons la table. 4 applications : elle contient des chiffres y) tel que
pour la valeur V, ayant une distribution x 2 avec r degrés de liberté. Dans notre cas r = n- 1. Réparons r = n- 1 et retrouver dans la ligne correspondante du tableau. 4 deux significations x2 - l'un correspondant à la probabilité l'autre - probabilité Notons ces
valeurs à 2 heures Et XL ? L'intervalle a et 2, avec ta gauche, et ouais ~ extrémité droite.
Trouvons maintenant à partir de l'intervalle / p l'intervalle de confiance souhaité /|, pour la dispersion de limites D, et D2, qui couvre le point D avec probabilité p :
Construisons un intervalle / (, = (?> ь А) qui couvre le point D si et seulement si la valeur V tombe dans l’intervalle /r. Montrons que l'intervalle
satisfait à cette condition. En effet, les inégalités sont équivalents aux inégalités
et ces inégalités sont satisfaites avec la probabilité p. Ainsi, l'intervalle de confiance pour la variance a été trouvé et est exprimé par la formule (14.4.13).
Exemple 3. Trouver l'intervalle de confiance pour la variance dans les conditions de l'exemple 2 de la sous-section 14.3, si l'on sait que la valeur X normalement distribué.
Solution. Nous avons . D'après le tableau 4 de l'annexe
nous trouvons à r = n- 1 = 19
En utilisant la formule (14.4.13), nous trouvons l'intervalle de confiance pour la variance
L'intervalle correspondant pour l'écart type est (0,21 ; 0,32). Cet intervalle ne dépasse que légèrement l'intervalle (0,21 ; 0,29) obtenu dans l'exemple 2 de la sous-section 14.3 par la méthode approximative.
- La figure 14.3.1 considère un intervalle de confiance symétrique par rapport à a. En général, comme nous le verrons plus loin, cela n’est pas nécessaire.