Comment créer une série d'intervalles. Séries statistiques discrètes
Condition:
Il existe des données sur la composition par âge des travailleurs (années) : 18, 38, 28, 29, 26, 38, 34, 22, 28, 30, 22, 23, 35, 33, 27, 24, 30, 32, 28. , 25, 29, 26, 31, 24, 29, 27, 32, 25, 29, 29.
- Construire série d'intervalles distributions.
- Construire une représentation graphique de la série.
- Déterminez graphiquement le mode et la médiane.
Solution:
1) Selon la formule de Sturgess, la population doit être divisée en 1 + 3,322 lg 30 = 6 groupes.
Âge maximum - 38 ans, minimum - 18 ans.
Largeur de l'intervalle Puisque les extrémités des intervalles doivent être des nombres entiers, nous divisons la population en 5 groupes. Largeur d'intervalle - 4.
Pour faciliter les calculs, nous organiserons les données par ordre croissant : 18, 22, 22, 23, 24, 24, 25, 25, 26, 26, 27, 27, 28, 28, 28, 29, 29, 29, 29, 29, 30, 30, 31, 32, 32, 33, 34, 35, 38, 38.
Distribution répartition par âge ouvriers
Graphiquement, une série peut être représentée sous forme d'histogramme ou de polygone. Histogramme - graphique à barres. La base de la colonne est la largeur de l'intervalle. La hauteur de la colonne est égale à la fréquence.
Polygone (ou polygone de distribution) - graphique de fréquence. Pour le construire à l'aide d'un histogramme, nous connectons les milieux des côtés supérieurs des rectangles. Nous fermons le polygone sur l'axe Ox à des distances égales à la moitié de l'intervalle des valeurs extrêmes de x.
Le mode (Mo) est la valeur de la caractéristique étudiée, qui apparaît le plus fréquemment dans une population donnée.
Pour déterminer le mode à partir de l'histogramme, vous devez sélectionner le rectangle le plus haut, tracer une ligne du sommet droit de ce rectangle vers la droite coin supérieur le rectangle précédent, et à partir du sommet gauche du rectangle modal, tracez une ligne vers le sommet gauche du rectangle suivant. À partir de l’intersection de ces lignes, tracez une perpendiculaire à l’axe des x. L’abscisse sera la mode. Mo ≈ 27,5. Cela signifie que l’âge le plus courant dans cette population est de 27 à 28 ans.
La médiane (Me) est la valeur de la caractéristique étudiée, qui se situe au milieu de la série de variations ordonnées.
On trouve la médiane à l'aide du cumulat. Cumule - un graphique des fréquences accumulées. Les abscisses sont des variantes d'une série. Les ordonnées sont des fréquences accumulées.
Pour déterminer la médiane sur le cumulat, on trouve un point le long de l'axe des ordonnées correspondant à 50% des fréquences cumulées (dans notre cas, 15), on trace une droite qui le traverse, parallèle à l'axe Ox, et à partir du point de son intersection avec le cumulat, tracez une perpendiculaire à l'axe des x. L'abscisse est la médiane. Moi ≈ 25,9. Cela signifie que la moitié des travailleurs de cette population ont moins de 26 ans.
Dans de nombreux cas, lorsqu'une population statistique comprend un nombre important, voire infini, de variantes, ce qui se produit le plus souvent avec une variation continue, il est pratiquement impossible et peu pratique de former un groupe d'unités pour chaque variante. Dans de tels cas, la combinaison d'unités statistiques en groupes n'est possible que sur la base d'un intervalle, c'est-à-dire un tel groupe qui a certaines limites pour les valeurs d'une caractéristique variable. Ces limites sont indiquées par deux chiffres indiquant les limites supérieure et inférieure de chaque groupe. L'utilisation d'intervalles conduit à la formation d'une série de distribution d'intervalles.
Rad d'intervalle est une série de variations dont les variantes sont présentées sous forme d'intervalles.
Une série d'intervalles peut être constituée d'intervalles égaux et inégaux, tandis que le choix du principe de construction de cette série dépend principalement du degré de représentativité et de commodité de la population statistique. Si la population est suffisamment grande (représentative) en termes de nombre d'unités et est totalement homogène dans sa composition, alors il convient de baser la formation d'une série d'intervalles sur l'égalité des intervalles. Habituellement, en utilisant ce principe, une série d'intervalles est formée pour les populations où la plage de variation est relativement petite, c'est-à-dire les options maximales et minimales diffèrent généralement plusieurs fois les unes des autres. Dans ce cas, la valeur des intervalles égaux est calculée par le rapport de la plage de variation d'une caractéristique à un nombre donné d'intervalles formés. Pour déterminer l'égalité Et intervalle, la formule de Sturgess peut être utilisée (généralement avec une petite variation des caractéristiques de l'intervalle et un grand nombre d'unités dans la population statistique) :
où x je - valeur d'intervalle égale ; X max, X min - options maximales et minimales dans un agrégat statistique ; n . - le nombre d'unités au total.
Exemple. Il est conseillé de calculer la taille d'un intervalle égal en fonction de la densité de contamination radioactive au césium - 137 dans 100 agglomérations du district de Krasnopolsky de la région de Mogilev, si l'on sait que l'option initiale (minimum) est égale à I km /km 2, la finale ( maximum) - 65 ki/km 2. En utilisant la formule 5.1. on obtient :
Par conséquent, afin de former une série d'intervalles avec des intervalles égaux en termes de densité de contamination par le césium - 137 agglomérations dans la région de Krasnopolsky, la taille de l'intervalle égaux peut être de 8 ki/km 2 .
Dans des conditions de répartition inégale, c'est-à-dire lorsque les options maximales et minimales sont des centaines de fois, lors de la formation d'une série d'intervalles, vous pouvez appliquer le principe inégal intervalles. Les intervalles inégaux augmentent généralement à mesure que nous passons à des valeurs plus grandes de la caractéristique.
La forme des intervalles peut être fermée ou ouverte. Fermé Il est d'usage d'appeler des intervalles qui ont à la fois des limites inférieures et supérieures. Ouvrir les intervalles n'ont qu'une seule limite : dans le premier intervalle il y a une limite supérieure, dans le dernier il y a une limite inférieure.
Il est conseillé d'évaluer les séries d'intervalles, notamment à intervalles inégaux, en tenant compte densité de distribution, la façon la plus simple de calculer quel est le rapport entre la fréquence locale (ou la fréquence) et la taille de l'intervalle.
Pour formation pratique série d'intervalles, vous pouvez utiliser la disposition du tableau. 5.3.
Tableau 5.3. La procédure pour former une série d'intervalles colonies District de Krasnopolsky selon la densité de contamination radioactive au césium -137
Le principal avantage de la série d'intervalles est son maximum compacité. en même temps dans la série de distribution d'intervalles options individuelles les caractéristiques sont masquées dans les intervalles correspondants
Lors de la représentation graphique d'une série d'intervalles dans un système de coordonnées rectangulaires, les limites supérieures des intervalles sont tracées sur l'axe des abscisses et les fréquences locales de la série sont tracées sur l'axe des ordonnées. La construction graphique d'une série d'intervalles diffère de la construction d'un polygone de distribution en ce que chaque intervalle a des limites inférieures et supérieures et que deux abscisses correspondent à une valeur d'ordonnée. Par conséquent, sur le graphique d'une série d'intervalles, ce n'est pas un point qui est marqué, comme dans un polygone, mais une ligne reliant deux points. Ces lignes horizontales sont reliés les uns aux autres par des lignes verticales et on obtient la figure d'un polygone en escalier, généralement appelé histogramme distribution (Fig. 5.3).
Lors de la construction graphique d'une série d'intervalles pour une population statistique suffisamment grande, l'histogramme se rapproche symétrique forme de distribution. Dans les cas où la population statistique est petite, en règle générale, asymétrique histogramme.
Dans certains cas, il est conseillé de former un certain nombre de fréquences accumulées, c'est-à-dire cumulatif rangée. Une série cumulative peut être formée sur la base d'une série de distribution discrète ou par intervalles. Lors de la représentation graphique d'une série cumulative dans un système de coordonnées rectangulaires, les variantes sont tracées sur l'axe des abscisses et les fréquences accumulées (fréquences) sont tracées sur l'axe des ordonnées. La ligne courbe résultante est généralement appelée cumulatif distribution (Fig. 5.4).
Formation et représentation graphique différents types les séries de variations contribuent à un calcul simplifié des principales caractéristiques statistiques, qui sont discutées en détail dans le thème 6, aident à mieux comprendre l'essence des lois de répartition de la population statistique. L'analyse d'une série de variations acquiert une importance particulière dans les cas où il est nécessaire d'identifier et de retracer la relation entre les options et les fréquences (fréquences). Cette dépendance se manifeste par le fait que le nombre de cas par option est d'une certaine manière lié à la taille de cette option, c'est-à-dire avec des valeurs croissantes de la caractéristique variable, les fréquences (fréquences) de ces valeurs subissent certains changements systématiques. Cela signifie que les nombres dans la colonne fréquence (fréquence) ne sont pas sujets à des fluctuations chaotiques, mais changent dans une certaine direction, dans dans un certain ordre et la cohérence.
Si les fréquences montrent une certaine systématicité dans leurs changements, cela signifie que nous sommes sur la bonne voie pour identifier un modèle. Le système, l'ordre, la séquence des changements de fréquence sont le reflet des causes générales, conditions générales, caractéristique de l’ensemble de la population.
Il ne faut pas supposer que le modèle de distribution est toujours donné sous une forme toute faite. Il existe de nombreuses séries de variations dans lesquelles les fréquences sautent bizarrement, parfois en augmentant, parfois en diminuant. Dans de tels cas, il convient de rechercher à quel type de distribution le chercheur a affaire : soit cette distribution ne présente aucun modèle inhérent, soit sa nature n'a pas encore été révélée : le premier cas est rare, mais le second Ce cas est un phénomène assez courant et très répandu.
Ainsi, lors de la formation d'une série d'intervalles, le nombre total d'unités statistiques peut être faible et chaque intervalle contient un petit nombre de variantes (par exemple, 1 à 3 unités). Dans de tels cas, on ne peut compter sur la manifestation d’aucun schéma. Pour qu'un résultat naturel soit obtenu à partir d'observations aléatoires, il est nécessaire que la loi entre en vigueur grands nombres, c'est-à-dire de sorte que pour chaque intervalle il y aurait non pas plusieurs, mais des dizaines et des centaines d'unités statistiques. Pour cela, il faut essayer d'augmenter le plus possible le nombre d'observations. C’est le moyen le plus sûr de détecter des modèles dans les processus de masse. S'il n'y a pas de réelle opportunité d'augmenter le nombre d'observations, l'identification d'une tendance peut être obtenue en réduisant le nombre d'intervalles dans la série de distribution. En réduisant le nombre d'intervalles dans une série de variations, le nombre de fréquences dans chaque intervalle augmente ainsi. Cela signifie que les fluctuations aléatoires de chaque unité statistique se superposent, « lissées », se transformant en un motif.
La formation et la construction de séries de variations permettent d'obtenir uniquement une image générale et approximative de la répartition de la population statistique. Par exemple, un histogramme n'exprime que sous forme approximative la relation entre les valeurs d'une caractéristique et ses fréquences (fréquences). Par conséquent, les séries de variations ne sont essentiellement que la base d'autres, étude approfondie régularités internes de la distribution statique.
QUESTIONS DE TEST POUR LE SUJET 5
1. Qu’est-ce que la variation ? Qu’est-ce qui cause la variation d’un trait dans une population statistique ?
2. Quels types de caractéristiques variables peuvent apparaître dans les statistiques ?
3. Qu'est-ce qu'une série de variations ? Quels types de séries de variations peut-il y avoir ?
4. Qu'est-ce qu'une série classée ? Quels sont ses avantages et ses inconvénients ?
5. Qu'est-ce qu'une série discrète et quels sont ses avantages et ses inconvénients ?
6. Quelle est la procédure pour former une série d'intervalles, quels sont ses avantages et ses inconvénients ?
7. Qu'est-ce qu'une représentation graphique de séries de distribution d'intervalles classées et discrètes ?
8. Qu'est-ce que le cumul de distribution et que caractérise-t-il ?
2. Le concept de série de distribution. Séries de distribution discrète et par intervalles
Lignes de distribution sont appelés groupes type spécial, dans lequel pour chaque caractéristique, groupe de caractéristiques ou classe de caractéristiques, le nombre d'unités du groupe est connu ou densité spécifique ce nombre au total. Ceux. série de distribution– un ensemble ordonné de valeurs d'attribut, classées par ordre croissant ou décroissant avec leurs pondérations correspondantes. Les séries de distribution peuvent être construites soit par des caractéristiques quantitatives, soit par des caractéristiques d'attribut.
Les séries de distribution construites sur une base quantitative sont appelées séries de variation. Ils arrivent discret et intervalle. Une série de distribution peut être construite sur la base d'une caractéristique variant continuellement (lorsque la caractéristique peut prendre n'importe quelle valeur dans n'importe quel intervalle) et sur une caractéristique variant discrètement (elle prend des valeurs entières strictement définies).
Discret Une série de variations d'une distribution est un ensemble classé d'options avec leurs fréquences ou particularités correspondantes. Les variantes d'une série discrète sont des valeurs discrètement changeantes d'une caractéristique, généralement le résultat d'un décompte.
Discret
Les séries de variations sont généralement construites si les valeurs de la caractéristique étudiée peuvent différer les unes des autres d'au moins un certain montant fini. Dans les séries discrètes, les valeurs ponctuelles de la caractéristique sont spécifiées. Exemple : Répartition des costumes pour hommes vendus par les magasins par mois par taille.Intervalle
Une série de variations est un ensemble ordonné d'intervalles de variation des valeurs d'une variable aléatoire avec les fréquences ou fréquences correspondantes des valeurs de la variable tombant dans chacune d'elles. Les séries d'intervalles sont conçues pour analyser la distribution d'une caractéristique en constante évolution, dont la valeur est le plus souvent enregistrée par mesure ou pesée. Les variantes d'une telle série sont des groupements.Exemple : Répartition des achats en épicerie par montant.
Si dans les séries à variations discrètes, la réponse en fréquence se rapporte directement à une variante de la série, alors dans les séries à intervalles, elle fait référence à un groupe de variantes.
Il est pratique d'analyser les séries de distribution à l'aide de leur représentation graphique, ce qui permet de juger de la forme de la distribution et des modèles. Une série discrète est représentée sur un graphique sous la forme d'une ligne brisée - polygone de distribution. Pour le construire, dans un système de coordonnées rectangulaires, les valeurs classées (ordonnées) de la caractéristique variable sont tracées le long de l'axe des abscisses sur la même échelle, et une échelle d'expression des fréquences est tracée le long de l'axe des ordonnées.
Les séries d'intervalles sont représentées par histogrammes de distribution(c'est-à-dire des graphiques à barres).
Lors de la construction d'un histogramme, les valeurs des intervalles sont tracées sur l'axe des abscisses et les fréquences sont représentées par des rectangles construits sur les intervalles correspondants. La hauteur des colonnes, en cas d'intervalles égaux, doit être proportionnelle aux fréquences.
N'importe quel histogramme peut être converti en polygone de distribution ; pour ce faire, il faut relier les sommets de ses rectangles par des segments droits.
2. Méthode d'indexation pour analyser l'influence de la production moyenne et de l'effectif moyen sur l'évolution du volume de production
Méthode d'indexation utilisé pour analyser la dynamique et comparer les indicateurs généraux, ainsi que les facteurs influençant l'évolution des niveaux de ces indicateurs. À l'aide d'indices, il est possible d'identifier l'influence de la production moyenne et de l'effectif moyen sur l'évolution du volume de production. Ce problème est résolu en construisant un système d'indices analytiques.
L'indice de volume de production est lié au nombre moyen d'employés et l'indice de production moyen de la même manière que le volume de production (Q) est lié à la production ( w) et des chiffres ( r) .
On peut conclure que le volume de production sera égal au produit de la production moyenne par l'effectif moyen :
Q = w r, où Q est le volume de production,
w - rendement moyen,
r – nombre moyen d'employés.
Comme vous pouvez le voir, nous parlons de sur la relation des phénomènes en statique : le produit de deux facteurs donne le volume total du phénomène résultant. Il est également évident que cette connexion est fonctionnelle ; c'est pourquoi la dynamique de cette connexion est étudiée à l'aide d'indices. Pour l'exemple donné, il s'agit du système suivant :
Jw × Jr = Jwr.
Par exemple, l'indice de volume de production Jwr, en tant qu'indice d'un phénomène productif, peut être décomposé en deux indices factoriels : l'indice de production moyenne (Jw) et l'indice d'effectif moyen (Jr) :
Indice Indice Indice
volume de la masse salariale moyenne
numéro de production
Où J. w- indice de productivité du travail calculé selon la formule de Laspeyres ;
Jr.- indice du nombre d'employés, calculé selon la formule Paasche.
Les systèmes d'indices permettent de déterminer l'influence de facteurs individuels sur la formation du niveau d'un indicateur de performance ; ils permettent de déterminer la valeur d'une inconnue à partir de 2 valeurs d'indice connues.
Sur la base du système d'indices ci-dessus, on peut également trouver l'augmentation absolue du volume de production, décomposée en influence de facteurs.
1. Augmentation générale du volume de production :
∆wr = ∑w 1 r 1 - ∑w 0 r 0 .
2. Augmentation due à l'action de l'indicateur de production moyenne :
∆wr/w = ∑w 1 r 1 - ∑w 0 r 1 .
3. Augmentation due à l'action de l'indicateur d'effectif moyen :
∆wr/r = ∑w 0 r 1 - ∑w 0 r 0
∆wr = ∆wr/w + ∆wr/r.
Exemple. Les données suivantes sont connues
Nous pouvons déterminer comment le volume de production a changé en termes relatifs et absolus et comment des facteurs individuels ont influencé ce changement.
Le volume de production était de :
dans la période de base
w 0 * r 0 = 2000 * 90 = 180 000,
et dans les rapports
w 1 * r 1 = 2100 * 100 = 210 000.
Par conséquent, le volume de production a augmenté de 30 000 ou 1,16 %.
∆wr=∑w 1 r 1 -∑w 0 r 0= (210000-180000)=30000
ou (210 000 : 180 000)*100 %=1,16 %.
Cette évolution du volume de production est due à :
1) une augmentation de l'effectif moyen de 10 personnes soit 111,1%
r 1 / r 0 = 100 / 90 = 1,11 ou 111,1 %.
En termes absolus, grâce à ce facteur, le volume de production a augmenté de 20 000 :
w 0 r 1 – w 0 r 0 = w 0 (r 1 -r 0) = 2000 (100-90) = 20000.
2) une augmentation de la production moyenne de 105 % ou 10 000 :
w 1 r 1 /w 0 r 1 = 2100*100/2000*100 = 1,05 ou 105 %.
En termes absolus, l'augmentation est de :
w 1 r 1 – w 0 r 1 = (w 1 -w 0)r 1 = (2100-2000)*100 = 10000.
Ainsi, l’influence combinée des facteurs était la suivante :
1. En termes absolus
10000 + 20000 = 30000
2. En termes relatifs
1,11 * 1,05 = 1,16 (116%)
L'augmentation est donc de 1,16 %. Les deux résultats ont été obtenus précédemment.
Le mot «index» en traduction signifie pointeur, indicateur. En statistique, un indice est interprété comme un indicateur relatif qui caractérise l'évolution d'un phénomène dans le temps, dans l'espace ou par rapport à un plan. Puisque l'index est une valeur relative, les noms des indices correspondent aux noms des valeurs relatives.
Dans les cas où nous analysons les évolutions au fil du temps de produits comparables, nous pouvons nous demander comment conditions différentes(sur divers domaines) les composantes de l'évolution de l'indice (prix, volume physique, structure de production ou de ventes espèce individuelle produits). À cet égard, des indices de composition constante, de composition variable et de changements structurels sont construits.
Index de composition permanente (fixe) – c'est un indice qui caractérise la dynamique taille moyenne avec la même structure de population fixe.
Le principe de construction d'un indice à composition constante est d'éliminer l'impact des changements de structure des poids sur la valeur indexée en calculant le niveau moyen pondéré de l'indicateur indexé avec les mêmes poids.
L'indice à composition constante est de forme identique à l'indice agrégé. La forme globale est la plus courante.
L'indice à composition constante est calculé avec des poids fixés au niveau d'une période et montre uniquement l'évolution de la valeur indexée. L'indice à composition constante élimine l'impact des changements de structure des poids sur la valeur indexée en calculant le niveau moyen pondéré de l'indicateur indexé avec les mêmes poids. Les indices de composition constante comparent des indicateurs calculés sur la base d'une structure constante de phénomènes.
Une série de variations discrètes est construite pour des caractéristiques discrètes.
Afin de construire une série de variations discrètes, vous devez effectuer les étapes suivantes : 1) classer les unités d'observation par ordre croissant de la valeur étudiée de la caractéristique,
2) déterminer toutes les valeurs possibles de l'attribut x i , les classer par ordre croissant,
la valeur de l'attribut, je .
fréquence de la valeur de l'attribut et désigne f je . La somme de toutes les fréquences d’une série est égale au nombre d’éléments de la population étudiée.
Exemple 1 .
Liste des notes obtenues par les étudiants aux examens : 3 ; 4 ; 3 ; 5 ; 4 ; 2 ; 2 ; 4 ; 4 ; 3 ; 5 ; 2 ; 4 ; 5 ; 4 ; 3 ; 4 ; 3 ; 3 ; 4 ; 4 ; 2 ; 2 ; 5 ; 5 ; 4 ; 5 ; 2 ; 3 ; 4 ; 4 ; 3 ; 4 ; 5 ; 2 ; 5 ; 5 ; 4 ; 3 ; 3 ; 4 ; 2 ; 4 ; 4 ; 5 ; 4 ; 3 ; 5 ; 3 ; 5 ; 4 ; 4 ; 5 ; 4 ; 4 ; 5 ; 4 ; 5 ; 5 ; 5.
Voici le numéro X - gradeest discret variable aléatoire, et la liste de notes résultante estdonnées statistiques (observables) .
classer les unités d'observation par ordre croissant de la valeur caractéristique étudiée :
2; 2; 2; 2; 2; 2; 2; 2; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5.
2) déterminer toutes les valeurs possibles de l'attribut x i, les classer par ordre croissant :
Dans cet exemple, toutes les estimations peuvent être divisées en quatre groupes avec les valeurs suivantes : 2 ; 3 ; 4 ; 5.
La valeur d'une variable aléatoire correspondant à un groupe particulier de données observées est appelée la valeur de l'attribut, option (option) et désigner x je .
Un nombre qui montre combien de fois la valeur correspondante d'une caractéristique apparaît dans un certain nombre d'observations est appelé fréquence de la valeur de l'attribut et désigne f je .
Pour notre exemple
le score 2 se produit - 8 fois,
le score 3 apparaît - 12 fois,
le score 4 apparaît - 23 fois,
la note 5 se produit - 17 fois.
Il y a 60 notes au total.
4) écrire les données reçues dans un tableau de deux lignes (colonnes) - x i et f i.
Sur la base de ces données, il est possible de construire une série de variations discrètes
Série à variation discrète – il s'agit d'un tableau dans lequel les valeurs apparaissant de la caractéristique étudiée sont indiquées sous forme de valeurs individuelles par ordre croissant et leurs fréquences
Construction d'une série de variations d'intervalles
En plus des séries de variations discrètes, une méthode de regroupement de données telle qu'une série de variations d'intervalle est souvent rencontrée.
Une série d'intervalles est construite si :
le signe a un caractère continu de changement ;
Il y avait beaucoup de valeurs discrètes (plus de 10)
les fréquences des valeurs discrètes sont très petites (ne dépassent pas 1-3 avec un nombre relativement grand d'unités d'observation) ;
de nombreuses valeurs discrètes d'une caractéristique avec les mêmes fréquences.
Une série de variations d'intervalles est un moyen de regrouper des données sous la forme d'un tableau comportant deux colonnes (les valeurs d'une caractéristique sous la forme d'un intervalle de valeurs et la fréquence de chaque intervalle).
Contrairement à une série discrète, les valeurs d'attribut d'une série d'intervalles ne sont pas présentées valeurs distinctes, mais un intervalle de valeurs (« de - à »).
Le nombre qui montre combien d'unités d'observation sont tombées dans chaque intervalle sélectionné est appelé fréquence de la valeur de l'attribut et désigne f je . La somme de toutes les fréquences d'une série est égale au nombre d'éléments (unités d'observation) dans la population étudiée.
Si une unité a une valeur caractéristique égale à la limite supérieure de l'intervalle, elle doit alors être affectée à l'intervalle suivant.
Par exemple, un enfant mesurant 100 cm tombera dans le 2ème intervalle, et non dans le premier ; et un enfant mesurant 130 cm tombera dans le dernier intervalle, et non dans le troisième.
Sur la base de ces données, il est possible de construire une série de variations d'intervalles.
Chaque intervalle a une limite inférieure (xn), une limite supérieure (xv) et une largeur d'intervalle ( je).
La limite d'intervalle est la valeur de l'attribut qui se trouve à la frontière de deux intervalles.
taille des enfants (cm) |
taille des enfants (cm) |
nombre d'enfants |
||
plus de 130 | ||||
Si un intervalle a une limite supérieure et inférieure, alors il est appelé intervalle fermé. Si un intervalle n'a qu'une limite inférieure ou supérieure, alors c'est - intervalle ouvert. Seul le tout premier ou le tout dernier intervalle peut être ouvert. Dans l'exemple ci-dessus, le dernier intervalle est ouvert.
Largeur d'intervalle (je) – la différence entre les limites supérieure et inférieure.
je = x n - x dans
La largeur de l’intervalle ouvert est supposée être la même que la largeur de l’intervalle fermé adjacent.
taille des enfants (cm) |
nombre d'enfants |
Largeur d'intervalle (i) |
|
pour les calculs 130+20=150 |
20 (car la largeur de l'intervalle fermé adjacent est de 20) |
||
Toutes les séries d'intervalles sont divisées en séries d'intervalles à intervalles égaux et en séries d'intervalles à intervalles inégaux. . Dans les lignes espacées à intervalles égaux, la largeur de tous les intervalles est la même. Dans les séries d'intervalles à intervalles inégaux, la largeur des intervalles est différente.
Dans l'exemple considéré, une série d'intervalles avec des intervalles inégaux.
Soumettre votre bon travail à la base de connaissances est facile. Utilisez le formulaire ci-dessous
Les étudiants, étudiants diplômés, jeunes scientifiques qui utilisent la base de connaissances dans leurs études et leur travail vous seront très reconnaissants.
Publié le http://www.allbest.ru/
TÂCHE1
Les informations suivantes sont disponibles sur salaires salariés de l'entreprise :
Tableau 1.1
Le montant du salaire en termes conventionnels. tanière. unités |
||
Il est nécessaire de construire une série de distributions d'intervalles permettant de trouver ;
1) salaire moyen ;
2) moyenne déviation linéaire;
4) écart type ;
5) plage de variation ;
6) coefficient d'oscillation ;
7) coefficient linéaire variantes;
8) coefficient de variation simple ;
10) médiane ;
11) coefficient d'asymétrie ;
12) Indice d'asymétrie de Pearson ;
13) coefficient d'aplatissement.
Solution
Comme vous le savez, les options (valeurs reconnues) sont classées par ordre croissant pour former séries à variations discrètes. Avec un grand nombre option (plus de 10), même en cas de variation discrète, des séries d'intervalles sont construites.
Si une série d'intervalles est compilée avec des intervalles pairs, la plage de variation est divisée par le nombre d'intervalles spécifié. De plus, si la valeur résultante est entière et sans ambiguïté (ce qui est rare), alors la longueur de l'intervalle est supposée être égale à ce nombre. Dans d'autres cas produit arrondi Nécessairement V côté augmenter, Donc à le dernier chiffre restant était pair. Évidemment, à mesure que la longueur de l’intervalle augmente, plage de variation d'un montant égal au produit du nombre d'intervalles : par la différence entre la longueur calculée et initiale de l'intervalle
UN) Si l'ampleur de l'expansion de la plage de variation est insignifiante, elle est alors soit ajoutée à la plus grande, soit soustraite de la plus petite valeur de la caractéristique ;
b) Si l'ampleur de l'expansion de la plage de variation est perceptible, alors afin d'éviter toute confusion du centre de la plage, elle est approximativement divisée en deux en ajoutant simultanément aux valeurs les plus grandes et en soustrayant des valeurs les plus petites de la caractéristique.
Si une série d'intervalles avec des intervalles inégaux est compilée, le processus est simplifié, mais la longueur des intervalles doit néanmoins être exprimée sous la forme d'un nombre avec le dernier chiffre pair, ce qui simplifie grandement les calculs ultérieurs des caractéristiques numériques.
30 est la taille de l’échantillon.
Créons une série de distributions d'intervalles à l'aide de la formule de Sturges :
K = 1 + 3,32*logn,
K - nombre de groupes ;
K = 1 + 3,32*lg 30 = 5,91=6
On trouve l'étendue de l'attribut - salaires des travailleurs de l'entreprise - (x) à l'aide de la formule
R= xmax - xmin et diviser par 6 ; R= 195-112=83
La longueur de l’intervalle sera alors je voie=83:6=13,83
Le début du premier intervalle sera 112. Ajouter à 112 je ras = 13,83, on obtient sa valeur finale 125,83, qui est aussi le début du deuxième intervalle, etc. fin du cinquième intervalle - 195.
Lors de la recherche de fréquences, il faut se laisser guider par la règle : « si la valeur d'une caractéristique coïncide avec la limite de l'intervalle interne, alors elle doit être attribuée à l'intervalle précédent ».
Nous obtenons une série d'intervalles de fréquences et de fréquences cumulées.
Tableau 1.2
Donc 3 salariés ont un salaire. frais de 112 à 125,83 unités monétaires conventionnelles. Salaire le plus élevé frais de 181,15 à 195 unités monétaires conventionnelles. seulement 6 employés.
Pour calculer des caractéristiques numériques, on transforme la série d'intervalles en une série discrète, en prenant en option le milieu des intervalles :
Tableau 1.3
14131,83 |
Utilisation de la formule de la moyenne arithmétique pondérée
unités monétaires conventionnelles
Déviation linéaire moyenne :
où xi est la valeur de la caractéristique étudiée pour la ième unité de la population,
Valeur moyenne du trait étudié.
Publié le http://www.allbest.ru/
LPublié le http://www.allbest.ru/
Unités monétaires conventionnelles
Écart type :
Dispersion:
Plage de variation relative (coefficient d'oscillation) : c = R :,
Déviation linéaire relative : q = L :
Coefficient de variation : V = y :
Le coefficient d'oscillation montre la fluctuation relative des valeurs extrêmes d'une caractéristique autour de la moyenne arithmétique, et le coefficient de variation caractérise le degré et l'homogénéité de la population.
c = R : = 83 / 159,485*100 % = 52,043 %
Ainsi, la différence entre les valeurs extrêmes est inférieure de 5,16 % (=94,84 %-100 %) au salaire moyen des salariés de l'entreprise.
q = L : = 17,765/ 159,485*100 % = 11,139 %
V = y : = 21,704/ 159,485*100 % = 13,609 %
Le coefficient de variation est inférieur à 33%, ce qui indique une faible variation des salaires des travailleurs de l'entreprise, c'est-à-dire que la valeur moyenne est une caractéristique typique du salaire des travailleurs (la population est homogène).
Dans les séries de distribution d'intervalles mode déterminé par la formule -
Fréquence de l'intervalle modal, c'est-à-dire l'intervalle contenant le plus grand nombre d'options ;
Fréquence de l'intervalle précédant le modal ;
Fréquence de l'intervalle suivant le modal ;
Longueur de l'intervalle modal ;
La limite inférieure de l'intervalle modal.
Pour déterminer médianes dans la série d'intervalles, nous utilisons la formule
où est la fréquence cumulée (accumulée) de l'intervalle précédant la médiane ;
Limite inférieure de l'intervalle médian ;
Fréquence médiane de l'intervalle ;
Longueur de l'intervalle médian.
Intervalle médian- un intervalle dont la fréquence cumulée (=3+3+5+7) dépasse la moitié de la somme des fréquences - (153,49 ; 167,32).
Calculons l'asymétrie et l'aplatissement, pour lesquels nous allons créer une nouvelle feuille de calcul :
Tableau 1.4
Données factuelles |
Données calculées |
||||||
Calculons le moment du troisième ordre
L’asymétrie est donc égale à
Depuis 0,3553 0,25, l'asymétrie est considérée comme significative.
Calculons le moment du quatrième ordre
L’aplatissement est donc égal à
Parce que< 0, то эксцесс является плосковершинным.
Le degré d'asymétrie peut être déterminé à l'aide du coefficient d'asymétrie de Pearson (As) : rotation de la valeur de l'échantillon d'oscillation
où est la moyenne arithmétique de la série de distribution ; -- mode; -- écart type.
Avec une distribution symétrique (normale) = Mo, le coefficient d'asymétrie est donc nul. Si As > 0, alors il y a plus de mode, donc il y a une asymétrie vers la droite.
Si comme< 0, то moins de mode, il y a donc une asymétrie du côté gauche. Le coefficient d'asymétrie peut varier de -3 à +3.
La distribution n'est pas symétrique, mais présente une asymétrie du côté gauche.
TÂCHE 2
Quelle doit être la taille de l'échantillon pour qu'avec une probabilité de 0,954, l'erreur d'échantillonnage ne dépasse pas 0,04 si, sur la base d'enquêtes précédentes, la variance est connue pour être de 0,24 ?
Solution
La taille de l'échantillon pour l'échantillonnage non répétitif est calculée à l'aide de la formule :
t - coefficient de confiance (avec une probabilité de 0,954, il est égal à 2,0 ; déterminé à partir de tableaux d'intégrales de probabilité),
y2=0,24 - écart type ;
10 000 personnes - taille de l'échantillon ;
Dx =0,04 - erreur maximale de la moyenne de l'échantillon.
Avec une probabilité de 95,4 %, on peut affirmer que la taille de l'échantillon, garantissant une erreur relative ne dépassant pas 0,04, devrait être d'au moins 566 familles.
TÂCHE3
Les données suivantes sont disponibles sur les revenus des principales activités de l'entreprise, en millions de roubles.
Pour analyser une série de dynamiques, déterminez les indicateurs suivants :
1) chaîne et base :
L'absolu augmente ;
Taux de croissance ;
Taux de croissance ;
2) moyenne
Niveau de ligne dynamique ;
Augmentation absolue ;
Taux de croissance ;
Taux d'augmentation ;
3) valeur absolue d'augmentation de 1%.
Solution
1. Augmentation absolue (Dy)- voici la différence entre le niveau suivant de la série et le précédent (ou basique) :
chaîne : DN = yi - yi-1,
de base : DN = yi - y0,
уi - niveau de ligne,
i - numéro de niveau de ligne,
y0 - niveau de l'année de base.
2. Taux de croissance (Tu) est le rapport entre le niveau suivant de la série et le précédent (ou année de base 2001) :
chaîne : Tu = ;
de base : Tu =
3. Taux de croissance (TD) est le rapport de la croissance absolue au niveau précédent, exprimé en %.
chaîne : Tu = ;
de base : Tu =
4. Valeur absolue d'augmentation de 1% (A)- c'est le rapport entre la croissance absolue de la chaîne et le taux de croissance, exprimé en %.
UN =
Niveau moyen des lignes calculé à l’aide de la formule de la moyenne arithmétique.
Niveau moyen de revenus des activités principales sur 4 ans :
Augmentation absolue moyenne calculé par la formule :
où n est le nombre de niveaux de la série.
En moyenne, pour l'année, les revenus des activités principales ont augmenté de 3,333 millions de roubles.
Taux de croissance annuel moyen calculé à l'aide de la formule de la moyenne géométrique :
уn est le niveau final de la ligne,
y0 est le niveau initial de la série.
Tu = 100 % = 102,174 %
Taux de croissance annuel moyen calculé par la formule :
T? = Tu - 100% = 102,74% - 100% = 2,74%.
Ainsi, en moyenne sur l'année, les revenus des principales activités de l'entreprise ont augmenté de 2,74 %.
TÂCHESUN4
Calculer:
1. Indices de prix individuels ;
2. Indice général du chiffre d'affaires du commerce ;
3. Indice des prix global ;
4. Indice agrégé du volume physique des ventes de biens ;
5. Décomposer l'augmentation absolue de la valeur du chiffre d'affaires commercial par facteurs (en raison de l'évolution des prix et du nombre de biens vendus) ;
6. Tirez de brèves conclusions sur tous les indicateurs obtenus.
Solution
1. Selon la condition, les indices de prix individuels pour les produits A, B, C s'élevaient à -
ipA = 1,20 ; iрБ=1,15; iрВ=1,00.
2. Nous calculerons l'indice général du chiffre d'affaires du commerce à l'aide de la formule :
Je w = = 1470/1045*100 % = 140,67 %
Le chiffre d'affaires commercial a augmenté de 40,67% (140,67%-100%).
En moyenne, les prix des matières premières ont augmenté de 10,24 %.
Le montant des coûts supplémentaires des acheteurs dus aux augmentations de prix :
w(p) = ? p1q1 - ? p0q1 = 1470 - 1333,478 = 136,522 millions de roubles.
En raison de la hausse des prix, les acheteurs ont dû dépenser 136,522 millions de roubles supplémentaires.
4. Indice général du volume physique du chiffre d'affaires commercial :
Le volume physique du chiffre d'affaires commercial a augmenté de 27,61%.
5. Déterminons l’évolution globale du chiffre d’affaires commercial au cours de la deuxième période par rapport à la première période :
w = 1470-1045 = 425 millions de roubles.
en raison des changements de prix :
W(p) = 1470 - 1333,478 = 136,522 millions de roubles.
en raison de changements de volume physique :
w(q) = 1333,478 - 1045 = 288,478 millions de roubles.
Le chiffre d'affaires des marchandises a augmenté de 40,67%. Les prix en moyenne pour 3 produits ont augmenté de 10,24 %. Le volume physique du chiffre d'affaires commercial a augmenté de 27,61%.
En général, le volume des ventes a augmenté de 425 millions de roubles, notamment en raison de la hausse des prix, de 136,522 millions de roubles, et en raison de l'augmentation des volumes de ventes, de 288,478 millions de roubles.
TÂCHE5
Les données suivantes sont disponibles pour 10 usines dans un secteur.
Numéro d'usine |
Production de produits, milliers de pièces. (X) |
|
Sur la base des données fournies :
I) pour confirmer les dispositions de l'analyse logique sur la présence d'une corrélation linéaire entre la caractéristique du facteur (volume de production) et la caractéristique résultante (consommation d'électricité), tracer les données initiales sur le graphique du champ de corrélation et tirer des conclusions sur le forme de la relation, indiquer sa formule ;
2) déterminer les paramètres de l'équation de connexion et tracer la ligne théorique résultante sur le graphique du champ de corrélation ;
3) calculer le coefficient de corrélation linéaire,
4) expliquer la signification des indicateurs obtenus aux paragraphes 2) et 3);
5) en utilisant le modèle résultant, faites une prédiction sur consommation possibleélectricité dans une usine d'un volume de production de 4,5 mille unités.
Solution
Les données de l'attribut - le volume de production (facteur), seront notées xi ; signe - consommation d'électricité (résultat) via yi ; les points de coordonnées (x, y) sont tracés sur le champ de corrélation OXY.
Les points du champ de corrélation sont situés le long d'une certaine ligne droite. La relation est donc linéaire ; nous chercherons une équation de régression sous la forme d’une droite Уx=ax+b. Pour le trouver, on utilise le système d'équations normales :
Créons une table de calcul.
En utilisant les moyennes trouvées, nous composons un système et le résolvons par rapport aux paramètres a et b :
Ainsi, nous obtenons l'équation de régression pour y sur x : = 3,57692 x + 3,19231
Nous construisons une droite de régression sur le champ de corrélation.
En remplaçant les valeurs x de la colonne 2 dans l'équation de régression, nous obtenons celles calculées (colonne 7) et les comparons avec les données y, qui sont reflétées dans la colonne 8. À propos, l'exactitude des calculs est confirmée par la coïncidence des valeurs moyennes de y et.
Coefficientcorrélation linéaireévalue l'étroitesse de la relation entre les caractéristiques x et y et est calculée à l'aide de la formule
Le coefficient angulaire de régression directe a (en x) caractérise la direction du point identifiédépendancessignes : pour a>0 ils sont les mêmes, pour a<0- противоположны. C'est absolu valeur - une mesure du changement de la caractéristique résultante lorsque la caractéristique du facteur change d'une unité de mesure.
Le terme libre de régression directe révèle la direction et sa valeur absolue est une mesure quantitative de l'influence de tous les autres facteurs sur la caractéristique résultante.
Si< 0, alors la ressource du facteur caractéristique d'un objet individuel est utilisée avec moins, et lorsque>0 Avecune efficacité supérieure à la moyenne pour l'ensemble des objets.
Faisons une analyse post-régression.
Le coefficient en x de la régression directe est égal à 3,57692 >0, donc avec une augmentation (diminution) de la production, la consommation d'électricité augmente (diminue). Augmentation de la production de 1 000 unités. donne une augmentation moyenne de la consommation électrique de 3,57692 milliers de kWh.
2. Le terme libre de la régression directe est de 3,19231, par conséquent, l'influence d'autres facteurs augmente l'impact de la production de produits sur la consommation d'électricité en termes absolus de 3,19231 milliers de kWh.
3. Le coefficient de corrélation de 0,8235 révèle une dépendance très étroite de la consommation d'électricité à la production de produits.
Il est facile de faire des prédictions à l’aide de l’équation du modèle de régression. Pour ce faire, les valeurs de x - le volume de production - sont substituées dans l'équation de régression et la consommation d'électricité est prédite. Dans ce cas, les valeurs de x peuvent être prises non seulement dans une plage donnée, mais également en dehors de celle-ci.
Faisons une prévision de la consommation d'énergie possible dans une usine avec un volume de production de 4,5 mille unités.
3,57692*4,5 + 3,19231= 19,288 45 mille kWh.
LISTE DES SOURCES UTILISÉES
1. Zakharenkov S.N. Statistiques socio-économiques : manuel et guide pratique. -Mn. : BSEU, 2002.
2. Efimova M.R., Petrova E.V., Rumyantsev V.N. Théorie générale des statistiques. - M. : INFRA-M., 2000.
3. Eliseeva I.I. Statistiques. - M. : Perspectives, 2002.
4. Théorie générale de la statistique / Sous général. éd. O.E. Basina, A.A. Spirine. - M. : Finances et Statistiques, 2000.
5. Statistiques socio-économiques : pédagogiques et pratiques. allocation / Zakharenkov S.N. et autres - Mn. : Université d'État d'Erevan, 2004.
6. Statistiques socio-économiques : manuel. allocation. / Éd. Nesterovitch S.R. - Mn. : BSEU, 2003.
7. Teslyuk I.E., Tarlovskaya V.A., Terlizhenko N. Statistiques - Minsk, 2000.
8. Kharchenko L.P. Statistiques. - M. : INFRA-M, 2002.
9. Kharchenko L.P., Dolzhenkova V.G., Ionin V.G. Statistiques. - M. : INFRA-M, 1999.
10. Statistiques économiques / Éd. Yu.N. Ivanova-M., 2000.
Publié sur Allbest.ru
...Documents similaires
Calcul de la moyenne arithmétique d'une série de distributions d'intervalles. Détermination de l'indice général du volume physique du chiffre d'affaires commercial. Analyse du changement absolu coût total produits en raison de changements de volume physique. Calcul du coefficient de variation.
test, ajouté le 19/07/2010
L'essence du commerce de gros, de détail et public. Formules de calcul des indices de chiffre d'affaires individuels et agrégés. Calcul des caractéristiques d'une série de distributions d'intervalles - moyenne arithmétique, mode et médiane, coefficient de variation.
travail de cours, ajouté le 10/05/2013
Calcul du volume des ventes prévu et réel, pourcentage de réalisation du plan, variation absolue du chiffre d'affaires. Détermination de la croissance absolue, des taux de croissance moyens et de l'augmentation des revenus monétaires. Calcul de moyennes structurelles : modes, médianes, quartiles.
test, ajouté le 24/02/2012
Série d'intervalles de répartition des banques par volume de bénéfices. Trouver le mode et la médiane de la série de distribution d'intervalles résultante méthode graphique et par des calculs. Calcul des caractéristiques des séries de distributions d'intervalles. Calcul de la moyenne arithmétique.
test, ajouté le 15/12/2010
Formules pour déterminer les valeurs moyennes d'une série d'intervalles - modes, médianes, dispersion. Calcul d'indicateurs analytiques de séries dynamiques à l'aide de schémas en chaîne et de base, de taux de croissance et d'incréments. Le concept d'indice consolidé des coûts, des prix, des dépenses et du chiffre d'affaires.
travail de cours, ajouté le 27/02/2011
Concept et objectif, ordre et règles de construction d'une série de variations. Analyse de l'homogénéité des données dans les groupes. Indicateurs de variation (fluctuation) d'un trait. Détermination de l'écart linéaire et carré moyen, du coefficient d'oscillation et de variation.
test, ajouté le 26/04/2010
La notion de mode et de médiane comme caractéristiques typiques, l'ordre et les critères de leur détermination. Recherche du mode et de la médiane dans des séries de variations discrètes et à intervalles. Quartiles et déciles comme caractéristiques supplémentaires d'une série statistique de variation.
test, ajouté le 11/09/2010
Construction d'une série de distributions d'intervalles basée sur des caractéristiques de regroupement. Caractéristiques de l'écart de la distribution de fréquence par rapport à une forme symétrique, calcul des indicateurs d'aplatissement et d'asymétrie. Analyse des indicateurs bilan ou compte de résultat.
test, ajouté le 19/10/2014
Conversion de séries empiriques en séries discrètes et à intervalles. Détermination de la valeur moyenne d'une série discrète à l'aide de ses propriétés. Calcul utilisant une série discrète d'indicateurs de mode, médiane, variation (dispersion, écart, coefficient d'oscillation).
test, ajouté le 17/04/2011
Construction d'une série statistique de répartition des organisations. Détermination graphique du mode et des valeurs médianes. L'étroitesse de la corrélation à l'aide du coefficient de détermination. Détermination de l'erreur d'échantillonnage du nombre moyen d'employés.