De variantie voor de gegroepeerde gegevens wordt bepaald door de formule. Dispersie van een discrete willekeurige variabele
Verspreiding in statistieken wordt gevonden als individuele waarden van het kenmerk in het kwadraat van. Afhankelijk van de initiële gegevens wordt deze bepaald door de formules van eenvoudige en gewogen varianties:
1. (voor niet-gegroepeerde gegevens) wordt berekend met de formule:
2. Gewogen variantie (voor de variatiereeks):
waarbij n de frequentie is (herhaalbaarheid van factor X)
Een voorbeeld van het vinden van de variantie
Deze pagina beschrijft een standaard voorbeeld van het vinden van de variantie, je kunt ook bij andere taken kijken om het te vinden.
Voorbeeld 1. Van een groep van 20 correspondentiestudenten zijn de volgende gegevens beschikbaar. Het is noodzakelijk om een intervalreeks van de kenmerkverdeling te bouwen, de gemiddelde waarde van het kenmerk te berekenen en de variantie ervan te bestuderen
Laten we een intervalgroepering maken. Laten we het bereik van het interval definiëren met de formule:
waarbij X max de maximale waarde is van het groeperingskenmerk;
X min is de minimumwaarde van het groeperingskenmerk;
n is het aantal intervallen:
We accepteren n = 5. De stap is: h = (192 - 159) / 5 = 6,6
Laten we een intervalgroepering samenstellen
Voor verdere berekeningen bouwen we een hulptabel:
X'i is het midden van het interval. (bijvoorbeeld het midden van het interval 159 - 165,6 = 162,3)
De gemiddelde lengte van studenten wordt bepaald door de formule van het rekenkundig gewogen gemiddelde:
Laten we de variantie definiëren met de formule:
De variantieformule kan als volgt worden getransformeerd:
Uit deze formule volgt dat variantie is het verschil tussen het gemiddelde van de kwadraten van de opties en het kwadraat en het gemiddelde.
Verspreiding in de reeks variaties met gelijke intervallen door de methode van momenten kan op de volgende manier worden berekend met behulp van de tweede eigenschap van de variantie (alle opties delen door de waarde van het interval). Variantie bepalen, berekend door de methode van momenten, volgens de volgende formule is minder omslachtig:
waarbij i de grootte van het interval is;
A - voorwaardelijke nul, wat handig is om het midden van het interval met de hoogste frequentie te gebruiken;
m1 is het kwadraat van het eerste orde moment;
m2 - tweede orde moment
(als in een statistische populatie het attribuut verandert zodat er slechts twee elkaar uitsluitende opties zijn, dan wordt een dergelijke variabiliteit alternatief genoemd) kan worden berekend met de formule:
Als we de variantie q = 1 - p in deze formule substitueren, krijgen we:
Soorten dispersie
Totale variantie meet de variatie van een eigenschap over de populatie als geheel onder invloed van alle factoren die deze variatie veroorzaken. Het is gelijk aan het gemiddelde kwadraat van de afwijkingen van individuele waarden van het attribuut x van de totale gemiddelde waarde van x en kan worden gedefinieerd als eenvoudige variantie of gewogen variantie.
kenmerkt willekeurige variatie, d.w.z. een deel van de variatie dat te wijten is aan de invloed van niet-verantwoorde factoren en niet afhankelijk is van de attribuutfactor die aan de groepering ten grondslag ligt. Deze variantie is gelijk aan het gemiddelde kwadraat van de afwijkingen van de individuele waarden van de eigenschap binnen de groep X van het rekenkundig gemiddelde van de groep en kan berekend worden als een enkelvoudige variantie of als een gewogen variantie.
Dus, intragroep variantie maatregelen variatie van een kenmerk binnen een groep en wordt bepaald door de formule:
waarbij xi het groepsgemiddelde is;
ni is het aantal eenheden in de groep.
Zo vertonen verschillen binnen de groep die moeten worden bepaald bij het bestuderen van de invloed van de kwalificaties van werknemers op het niveau van arbeidsproductiviteit in een winkel, variaties in de output in elke groep die worden veroorzaakt door alle mogelijke factoren (technische staat van apparatuur, levering van gereedschappen en materialen, leeftijd van de werknemers, arbeidsintensiteit, enz.), behalve verschillen in de kwalificatiecategorie (binnen de groep hebben alle werknemers dezelfde kwalificaties).
Het gemiddelde van de binnen-groepsvarianties weerspiegelt het toeval, dat wil zeggen dat deel van de variatie dat optrad onder invloed van alle andere factoren, met uitzondering van de groeperingsfactor. Het wordt berekend met de formule:
Het kenmerkt de systematische variatie van de effectieve eigenschap, die te wijten is aan de invloed van de eigenschap-factor die ten grondslag ligt aan de groepering. Het is gelijk aan het gemiddelde kwadraat van de afwijkingen van de groepsgemiddelden van het totale gemiddelde. Intergroepsvariantie wordt berekend met behulp van de formule:
Regel voor het optellen van afwijkingen in statistieken
Volgens variantie optelregel de totale variantie is gelijk aan de som van het gemiddelde van de intragroeps- en intergroepsvarianties:
De betekenis van deze regel ligt in het feit dat de totale variantie die optreedt onder invloed van alle factoren gelijk is aan de som van de variantie die ontstaat onder invloed van alle andere factoren, en de variantie die optreedt door de groeperingsfactor.
Met behulp van de formule voor het optellen van varianties is het mogelijk om de derde onbekende uit twee bekende varianties te bepalen, en ook om de sterkte van de invloed van het groeperingsattribuut te beoordelen.
Dispersie-eigenschappen
1. Als alle waarden van het attribuut worden verlaagd (verhoogd) met dezelfde constante waarde, verandert de variantie hiervan niet.
2. Als alle waarden van het attribuut worden verminderd (verhoogd) met hetzelfde aantal keren n, dan zal de variantie dienovereenkomstig afnemen (verhogen) met n ^ 2 keer.
Stappen
Voorbeeldvariantie berekenen
-
Schrijf de voorbeeldwaarden op. In de meeste gevallen zijn alleen steekproeven van bepaalde populaties beschikbaar voor statistici. In de regel analyseren statistici bijvoorbeeld niet de kosten van het onderhoud van het totaal van alle auto's in Rusland - ze analyseren een willekeurige steekproef van enkele duizenden auto's. Zo'n monster zal helpen bij het bepalen van de gemiddelde kosten van een auto, maar hoogstwaarschijnlijk zal de verkregen waarde verre van de echte zijn.
- Laten we bijvoorbeeld het aantal broodjes analyseren dat in 6 dagen in een café is verkocht, in willekeurige volgorde. De steekproef ziet er als volgt uit: 17, 15, 23, 7, 9, 13. Dit is een steekproef, geen populatie, omdat we geen gegevens hebben over de verkochte broodjes voor elke dag dat het café open is.
- Als u een populatie krijgt in plaats van een steekproef van waarden, gaat u verder met de volgende sectie.
-
Noteer de formule om de steekproefvariantie te berekenen. Variantie is een maat voor de spreiding van waarden van een bepaalde hoeveelheid. Hoe dichter de variantiewaarde bij nul ligt, hoe dichter de waarden bij elkaar zijn gegroepeerd. Wanneer u met een steekproef van waarden werkt, gebruikt u de volgende formule om de variantie te berekenen:
- s 2 (\ weergavestijl s ^ (2)) = ∑[(x ik (\ weergavestijl x_ (i))- x) 2 (\ weergavestijl ^ (2))] / (n-1)
- s 2 (\ weergavestijl s ^ (2)) Is de variantie. Dispersie wordt gemeten in vierkante eenheden.
- x ik (\ weergavestijl x_ (i))- elke waarde in de steekproef.
- x ik (\ weergavestijl x_ (i)) trek x̅ af, kwadratisch en voeg de resultaten toe.
- x̅ - steekproefgemiddelde (steekproefgemiddelde).
- n is het aantal waarden in de steekproef.
-
Bereken het gemiddelde van het monster. Het wordt aangeduid als x̅. Het steekproefgemiddelde wordt berekend als een normaal rekenkundig gemiddelde: tel alle waarden in de steekproef bij elkaar op en deel het resultaat vervolgens door het aantal waarden in de steekproef.
- Voeg in ons voorbeeld de waarden in het voorbeeld toe: 15 + 17 + 23 + 7 + 9 + 13 = 84
Deel nu het resultaat door het aantal waarden in de steekproef (in ons voorbeeld zijn dat er 6): 84 ÷ 6 = 14.
Steekproefgemiddelde x̅ = 14. - Het steekproefgemiddelde is de centrale waarde waarrond de waarden in de steekproef zijn verdeeld. Als de waarden in de steekproef zijn gegroepeerd rond het steekproefgemiddelde, dan is de variantie klein; anders is de afwijking groot.
- Voeg in ons voorbeeld de waarden in het voorbeeld toe: 15 + 17 + 23 + 7 + 9 + 13 = 84
-
Trek het steekproefgemiddelde af van elke waarde in de steekproef. Bereken nu het verschil x ik (\ weergavestijl x_ (i))- x̅, waar x ik (\ weergavestijl x_ (i))- elke waarde in de steekproef. Elk verkregen resultaat geeft de mate van afwijking van een bepaalde waarde van het steekproefgemiddelde aan, dat wil zeggen, hoe ver deze waarde van het steekproefgemiddelde af ligt.
- In ons voorbeeld:
x 1 (\ weergavestijl x_ (1))- x̅ = 17 - 14 = 3
x 2 (\ weergavestijl x_ (2))- x̅ = 15 - 14 = 1
x 3 (\ weergavestijl x_ (3))- x̅ = 23 - 14 = 9
x 4 (\ weergavestijl x_ (4))- x̅ = 7 - 14 = -7
x 5 (\ weergavestijl x_ (5))- x̅ = 9 - 14 = -5
x 6 (\ weergavestijl x_ (6))- x̅ = 13 - 14 = -1 - De juistheid van de verkregen resultaten is eenvoudig te verifiëren, aangezien hun som gelijk moet zijn aan nul. Dit komt door de bepaling van het gemiddelde, aangezien negatieve waarden (afstanden van het gemiddelde tot lagere waarden) volledig worden gecompenseerd door positieve waarden (afstanden van het gemiddelde tot grotere waarden).
- In ons voorbeeld:
-
Zoals hierboven vermeld, de som van de verschillen x ik (\ weergavestijl x_ (i))- x̅ moet nul zijn. Dit betekent dat de gemiddelde variantie altijd nul is, wat geen idee geeft van de spreiding van waarden van een hoeveelheid. Om dit probleem op te lossen, kwadrateert u elk verschil x ik (\ weergavestijl x_ (i))- x. Dit zal ertoe leiden dat u alleen positieve getallen krijgt, die, wanneer ze worden toegevoegd, nooit 0 zullen opleveren.
- In ons voorbeeld:
(x 1 (\ weergavestijl x_ (1))- x) 2 = 3 2 = 9 (\ weergavestijl ^ (2) = 3 ^ (2) = 9)
(x 2 (\ weergavestijl (x_ (2))- x) 2 = 1 2 = 1 (\ weergavestijl ^ (2) = 1 ^ (2) = 1)
9 2 = 81
(-7) 2 = 49
(-5) 2 = 25
(-1) 2 = 1 - Je hebt het gekwadrateerde verschil gevonden - x̅) 2 (\ weergavestijl ^ (2)) voor elke waarde in de steekproef.
- In ons voorbeeld:
-
Bereken de som van de kwadraten van de verschillen. Dat wil zeggen, zoek het deel van de formule dat als volgt is geschreven: ∑ [( x ik (\ weergavestijl x_ (i))- x) 2 (\ weergavestijl ^ (2))]. Hier betekent het teken Σ de som van de kwadraten van de verschillen voor elke waarde x ik (\ weergavestijl x_ (i)) in het monster. Je hebt de vierkanten van de verschillen al gevonden (x ik (\ weergavestijl (x_ (i))- x) 2 (\ weergavestijl ^ (2)) voor elke waarde x ik (\ weergavestijl x_ (i)) in het monster; voeg nu gewoon die vierkanten toe.
- In ons voorbeeld: 9 + 1 + 81 + 49 + 25 + 1 = 166 .
-
Deel het resultaat door n - 1, waarbij n het aantal waarden in de steekproef is. Enige tijd geleden, om de variantie van een steekproef te berekenen, deelden statistieken het resultaat eenvoudig door n; in dit geval krijgt u de gemiddelde kwadratische variantie, wat ideaal is om de variantie van een bepaalde steekproef te beschrijven. Maar onthoud dat elke steekproef slechts een kleine fractie is van de totale populatie van waarden. Als je een ander monster neemt en dezelfde berekeningen doet, krijg je een ander resultaat. Het blijkt dat delen door n - 1 (in plaats van alleen n) een nauwkeuriger schatting geeft van de populatievariantie, en dat is waar je in geïnteresseerd bent. Delen door n - 1 is gebruikelijk geworden, dus het is opgenomen in de formule voor het berekenen van steekproefvariantie.
- In ons voorbeeld bevat de steekproef 6 waarden, dat wil zeggen n = 6.
Steekproefvariantie = s 2 = 166 6 - 1 = (\ displaystyle s ^ (2) = (\ frac (166) (6-1)) =) 33,2
- In ons voorbeeld bevat de steekproef 6 waarden, dat wil zeggen n = 6.
-
Het verschil tussen variantie en standaarddeviatie. Merk op dat er een exponent in de formule zit, dus de variantie wordt gemeten in vierkante eenheden van de geanalyseerde hoeveelheid. Soms is het best moeilijk om met zo'n waarde te werken; in dergelijke gevallen wordt de standaarddeviatie gebruikt, die gelijk is aan de vierkantswortel van de variantie. Daarom wordt de steekproefvariantie aangeduid als s 2 (\ weergavestijl s ^ (2)), en de standaarddeviatie van het monster is als s (\ weergavestijl s).
- In ons voorbeeld is de standaarddeviatie van de steekproef s = -33,2 = 5,76.
De variantie van een populatie berekenen
-
Analyseer een aantal waarden. De set bevat alle waarden van de beschouwde hoeveelheid. Als u bijvoorbeeld de leeftijd van inwoners van de regio Leningrad bestudeert, omvat het totaal de leeftijd van alle inwoners van deze regio. Als u met een populatie werkt, is het raadzaam om een tabel te maken en de populatiewaarden daarin in te voeren. Beschouw het volgende voorbeeld:
- In sommige kamers zijn er 6 aquaria. Elk aquarium heeft het volgende aantal vissen:
x 1 = 5 (\ weergavestijl x_ (1) = 5)
x 2 = 5 (\ weergavestijl x_ (2) = 5)
x 3 = 8 (\ weergavestijl x_ (3) = 8)
x 4 = 12 (\ weergavestijl x_ (4) = 12)
x 5 = 15 (\ weergavestijl x_ (5) = 15)
x 6 = 18 (\ weergavestijl x_ (6) = 18)
- In sommige kamers zijn er 6 aquaria. Elk aquarium heeft het volgende aantal vissen:
-
Noteer de formule voor het berekenen van de variantie van de populatie. Aangezien het aggregaat alle waarden van een bepaalde hoeveelheid bevat, kunt u met de onderstaande formule de exacte waarde van de variantie van het aggregaat verkrijgen. Om de variantie van de populatie te onderscheiden van de variantie van de steekproef (waarvan de waarde slechts een schatting is), gebruiken statistici verschillende variabelen:
- σ 2 (\ weergavestijl ^ (2)) = (∑(x ik (\ weergavestijl x_ (i)) - μ) 2 (\ weergavestijl ^ (2))) / N
- σ 2 (\ weergavestijl ^ (2))- variantie van de populatie (lees als "sigma kwadraat"). Dispersie wordt gemeten in vierkante eenheden.
- x ik (\ weergavestijl x_ (i))- elke waarde in totaal.
- Σ is het somteken. Dat wil zeggen, van elke waarde x ik (\ weergavestijl x_ (i)) trek μ af, kwadratisch en voeg de resultaten toe.
- μ is de gemiddelde waarde van de populatie.
- n is het aantal waarden in de algemene bevolking.
-
Bereken het gemiddelde van de bevolking. Bij het werken met de algemene bevolking wordt de gemiddelde waarde ervan aangeduid als μ (mu). Het populatiegemiddelde wordt berekend als een normaal rekenkundig gemiddelde: tel alle waarden in de populatie bij elkaar op en deel het resultaat vervolgens door het aantal waarden in de populatie.
- Houd er rekening mee dat gemiddelden niet altijd worden berekend als rekenkundig gemiddelde.
- In ons voorbeeld is het gemiddelde van de populatie: μ = 5 + 5 + 8 + 12 + 15 + 18 6 (\ displaystyle (\ frac (5 + 5 + 8 + 12 + 15 + 18) (6))) = 10,5
-
Trek het gemiddelde van de populatie af van elke waarde in de populatie. Hoe dichter de verschilwaarde bij nul ligt, hoe dichter de specifieke waarde bij het populatiegemiddelde ligt. Zoek het verschil tussen elke waarde in een populatie en het gemiddelde ervan, en je hebt een eerste idee van de verdeling van waarden.
- In ons voorbeeld:
x 1 (\ weergavestijl x_ (1))- μ = 5 - 10,5 = -5,5
x 2 (\ weergavestijl x_ (2))- μ = 5 - 10,5 = -5,5
x 3 (\ weergavestijl x_ (3))- μ = 8 - 10,5 = -2,5
x 4 (\ weergavestijl x_ (4))- μ = 12 - 10,5 = 1,5
x 5 (\ weergavestijl x_ (5))- μ = 15 - 10,5 = 4,5
x 6 (\ weergavestijl x_ (6))- μ = 18 - 10,5 = 7,5
- In ons voorbeeld:
-
Vier elk resultaat dat je krijgt. Verschilwaarden zullen zowel positief als negatief zijn; als deze waarden op een getallenlijn worden uitgezet, dan zullen ze rechts en links van de gemiddelde waarde van de populatie liggen. Dit is niet goed voor het berekenen van variantie, omdat positieve en negatieve getallen elkaar opheffen. Dus vierkant elk verschil om extreem positieve getallen te krijgen.
- In ons voorbeeld:
(x ik (\ weergavestijl x_ (i)) - μ) 2 (\ weergavestijl ^ (2)) voor elke waarde van de populatie (van i = 1 tot i = 6):
(-5,5)2 (\ weergavestijl ^ (2)) = 30,25
(-5,5)2 (\ weergavestijl ^ (2)), waar x n (\ weergavestijl x_ (n))- de laatste waarde in de algemene bevolking. - Om de gemiddelde waarde van de verkregen resultaten te berekenen, moet u hun som vinden en deze delen door n: (( x 1 (\ weergavestijl x_ (1)) - μ) 2 (\ weergavestijl ^ (2)) + (x 2 (\ weergavestijl x_ (2)) - μ) 2 (\ weergavestijl ^ (2)) + ... + (x n (\ weergavestijl x_ (n)) - μ) 2 (\ weergavestijl ^ (2))) / N
- Laten we nu de bovenstaande uitleg schrijven met behulp van variabelen: (∑ ( x ik (\ weergavestijl x_ (i)) - μ) 2 (\ weergavestijl ^ (2))) / n en verkrijg een formule voor het berekenen van de variantie van de populatie.
- In ons voorbeeld:
Volgens de steekproefenquête werden de deposanten gegroepeerd volgens de grootte van hun deposito in de Sberbank van de stad:
Definiëren:
1) het variatiebereik;
2) de gemiddelde omvang van het deposito;
3) gemiddelde lineaire afwijking;
4) variantie;
5) standaarddeviatie;
6) variatiecoëfficiënt van bijdragen.
Oplossing:
Deze distributiereeks bevat open intervallen. In dergelijke reeksen wordt conventioneel aangenomen dat de waarde van het interval van de eerste groep gelijk is aan de waarde van het interval van de volgende, en dat de waarde van het interval van de laatste groep gelijk is aan de waarde van het interval van de vorige.
De waarde van het interval van de tweede groep is gelijk aan 200, daarom is de waarde van de eerste groep ook gelijk aan 200. De waarde van het interval van de voorlaatste groep is gelijk aan 200, wat betekent dat het laatste interval zal hebben een waarde van 200.
1) Laten we het variatiebereik definiëren als het verschil tussen de grootste en de kleinste waarde van het kenmerk:
Het variatiebereik in de grootte van de aanbetaling is gelijk aan 1000 roebel.
2) De gemiddelde hoogte van de bijdrage wordt bepaald door de formule van het rekenkundig gewogen gemiddelde.
Laten we eerst de discrete waarde van het kenmerk in elk interval definiëren. Om dit te doen, met behulp van de formule voor het rekenkundige eenvoudige gemiddelde, vinden we de middelpunten van de intervallen.
De gemiddelde waarde van het eerste interval is gelijk aan:
de tweede - 500, enz.
Laten we de resultaten van de berekeningen in de tabel invoeren:
Stortingsbedrag, wrijven. | Aantal deposanten, f | Midden van het interval, x | xf |
---|---|---|---|
200-400 | 32 | 300 | 9600 |
400-600 | 56 | 500 | 28000 |
600-800 | 120 | 700 | 84000 |
800-1000 | 104 | 900 | 93600 |
1000-1200 | 88 | 1100 | 96800 |
Totaal | 400 | - | 312000 |
De gemiddelde grootte van een aanbetaling in de Sberbank van de stad is gelijk aan 780 roebel:
3) De gemiddelde lineaire afwijking is het rekenkundig gemiddelde van de absolute afwijkingen van individuele waarden van het attribuut van het totale gemiddelde:
De procedure voor het berekenen van de gemiddelde lineaire afwijking in de intervalverdelingsreeks is als volgt:
1. Bereken het gewogen rekenkundig gemiddelde, zoals weergegeven in item 2).
2. De absolute afwijkingen van de variant van het gemiddelde worden bepaald:
3. De resulterende afwijkingen worden vermenigvuldigd met de frequenties:
4. Zoek de som van de gewogen afwijkingen zonder rekening te houden met het teken:
5. De som van de gewogen afwijkingen wordt gedeeld door de som van de frequenties:
Het is handig om de berekende gegevenstabel te gebruiken:
Stortingsbedrag, wrijven. | Aantal deposanten, f | Midden van het interval, x | |||
---|---|---|---|---|---|
200-400 | 32 | 300 | -480 | 480 | 15360 |
400-600 | 56 | 500 | -280 | 280 | 15680 |
600-800 | 120 | 700 | -80 | 80 | 9600 |
800-1000 | 104 | 900 | 120 | 120 | 12480 |
1000-1200 | 88 | 1100 | 320 | 320 | 28160 |
Totaal | 400 | - | - | - | 81280 |
De gemiddelde lineaire afwijking van de omvang van de deposito's van Sberbank-klanten is 203,2 roebel.
4) Dispersie is het rekenkundig gemiddelde van de kwadraten van de afwijkingen van elke kenmerkwaarde van het rekenkundig gemiddelde.
De berekening van de variantie in de intervalverdelingsreeks gebeurt volgens de formule:
De procedure voor het berekenen van de variantie is in dit geval als volgt:
1. Bepaal het gewogen rekenkundig gemiddelde, zoals weergegeven in paragraaf 2).
2. Zoek de afwijking van de variant van het gemiddelde:
3. Kwadratuur van de afwijking van elke optie van het gemiddelde:
4. Vermenigvuldig de kwadraten van de afwijkingen met de gewichten (frequenties):
5. Vat de ontvangen werken samen:
6. De resulterende som wordt gedeeld door de som van de gewichten (frequenties):
Laten we de berekeningen in de tabel invullen:
Stortingsbedrag, wrijven. | Aantal deposanten, f | Midden van het interval, x | |||
---|---|---|---|---|---|
200-400 | 32 | 300 | -480 | 230400 | 7372800 |
400-600 | 56 | 500 | -280 | 78400 | 4390400 |
600-800 | 120 | 700 | -80 | 6400 | 768000 |
800-1000 | 104 | 900 | 120 | 14400 | 1497600 |
1000-1200 | 88 | 1100 | 320 | 102400 | 9011200 |
Totaal | 400 | - | - | - | 23040000 |
Variatiebereik (of variatiebereik) - dit is het verschil tussen de maximale en minimale waarden van het kenmerk:
In ons voorbeeld is de variatie in de ploegenproductie van arbeiders: in de eerste brigade R = 105-95 = 10 kinderen, in de tweede brigade R = 125-75 = 50 kinderen. (5 keer meer). Dit suggereert dat de output van de 1e brigade meer "stabiel" is, maar dat de tweede brigade meer reserves heeft voor de groei van de output, omdat als alle arbeiders de maximale output voor deze brigade bereiken, kan deze 3 * 125 = 375 onderdelen produceren, en in de 1e brigade slechts 105 * 3 = 315 onderdelen.
Als de extreme waarden van het kenmerk niet typisch zijn voor de populatie, worden de kwartiel- of decielbereiken gebruikt. Het kwartielbereik RQ = Q3-Q1 dekt 50% van de populatie, het decielbereik van de eerste RD1 = D9-D1 dekt 80% van de gegevens, het tweede decielbereik van RD2 = D8-D2 is 60%.
Het nadeel van de indicator van het variatiebereik is, maar dat de waarde ervan niet alle fluctuaties van de eigenschap weerspiegelt.
De eenvoudigste generaliserende indicator die alle fluctuaties in een functie weergeeft, is: gemiddelde lineaire afwijking, wat het rekenkundig gemiddelde is van de absolute afwijkingen van individuele opties van hun gemiddelde:
,
voor gegroepeerde gegevens
,
waarbij xi de waarde is van een kenmerk in een discrete rij of het midden van een interval in een intervalverdeling.
In de bovenstaande formules worden de verschillen in de teller modulo genomen, anders is de teller volgens de eigenschap van het rekenkundig gemiddelde altijd nul. Daarom wordt de gemiddelde lineaire afwijking in de statistische praktijk zelden gebruikt, alleen in die gevallen waarin de sommatie van indicatoren zonder rekening te houden met het teken economisch zinvol is. Met behulp hiervan worden bijvoorbeeld de samenstelling van het personeel, de winstgevendheid van de productie en de omzet van de buitenlandse handel geanalyseerd.
Functievariantie Is het gemiddelde kwadraat van de afwijkingen van de variant van hun gemiddelde waarde:
eenvoudige variantie
,
gewogen variantie
.
De formule voor het berekenen van variantie kan worden vereenvoudigd:
De variantie is dus gelijk aan het verschil tussen het gemiddelde van de kwadraten van de variant en het kwadraat van het gemiddelde van de variant van de populatie:
.
Door de optelling van de kwadraten van de afwijkingen geeft de variantie echter een vertekend beeld van de afwijkingen, daarom wordt deze berekend op basis van het gemiddelde standaardafwijking, die laat zien hoeveel specifieke varianten van een kenmerk gemiddeld afwijken van hun gemiddelde waarde. Berekend door de vierkantswortel van de variantie te nemen:
voor niet-gegroepeerde gegevens
,
voor de variatiereeks
Hoe kleiner de variantie en standaarddeviatie, hoe homogener de populatie, hoe betrouwbaarder (typisch) het gemiddelde zal zijn.
De gemiddelde lineaire en standaarddeviatie zijn benoemde getallen, dat wil zeggen dat ze worden uitgedrukt in de meeteenheden van het attribuut, identiek zijn qua inhoud en qua waarde dicht bij elkaar liggen.
Het wordt aanbevolen om de absolute indicatoren van variatie te berekenen met behulp van tabellen.
Tabel 3 - Berekening van de kenmerken van de variatie (aan de hand van het voorbeeld van de periode van gegevens over de ploegenproductie van de werkploeg)
Aantal arbeiders |
Het midden van de pauze, |
Berekende waarden |
|||||
Totaal: |
Gemiddelde ploegenproductie van arbeiders:
Gemiddelde lineaire afwijking:
Verspreiding van productie:
De standaarddeviatie van de output van individuele werknemers van de gemiddelde output:
.
1 Berekening van variantie volgens de methode van momenten
Het berekenen van varianties brengt omslachtige berekeningen met zich mee (vooral als het gemiddelde wordt uitgedrukt als een groot getal met meerdere decimalen). Berekeningen kunnen worden vereenvoudigd door een vereenvoudigde formule en dispersie-eigenschappen te gebruiken.
De dispersie heeft de volgende eigenschappen:
- als alle waarden van het kenmerk worden verlaagd of verhoogd met dezelfde waarde A, dan zal de variantie hiervan niet afnemen:
,
dan of
Door de eigenschappen van de variantie te gebruiken en eerst alle varianten van de populatie te verminderen met de waarde A, en vervolgens te delen door de waarde van het interval h, verkrijgen we de formule voor het berekenen van de variantie in de variatiereeks met gelijke intervallen manier van momenten:
,
waar is de variantie berekend door de methode van momenten;
h is de waarde van het interval van de variatiereeks;
- nieuwe (geconverteerde) waarden optie;
A - constante waarde, die wordt gebruikt als het midden van het interval met de hoogste frequentie; of de variant met de hoogste frequentie;
- kwadraat van het moment van de eerste orde;
- moment van de tweede orde.
Laten we de variantie berekenen volgens de methode van momenten op basis van de gegevens over de ploegenproductie van de arbeiders van de brigade.
Tabel 4 - Berekening van variantie volgens de methode van momenten
Groepen arbeiders voor ontwikkeling, stuks. |
Aantal arbeiders |
Het midden van de pauze, |
Berekende waarden |
||
Berekeningsprocedure:
- we berekenen de variantie:
2 Berekening van de variantie van een alternatief kenmerk
Onder de kenmerken die door statistieken worden bestudeerd, zijn er die worden gekenmerkt door slechts twee elkaar uitsluitende waarden. Dit zijn alternatieve tekens. Ze krijgen respectievelijk twee kwantitatieve betekenissen: optie 1 en 0. Frequentie van optie 1, aangegeven met p, is het aandeel eenheden met dit kenmerk. Het verschil 1-p = q is een frequentie van opties 0. Dus,
xi |
|
Het rekenkundig gemiddelde van de alternatieve functie
, aangezien p + q = 1.
Variantie van een alternatieve functie
sinds 1-p = q
De variantie van een alternatief kenmerk is dus gelijk aan het product van de fractie eenheden met dit kenmerk en de fractie eenheden die dit kenmerk niet hebben.
Als de waarden 1 en 0 even vaak voorkomen, d.w.z. p = q, bereikt de variantie zijn maximale pq = 0,25.
De variantie van een alternatief kenmerk wordt gebruikt in steekproefenquêtes, bijvoorbeeld productkwaliteit.
3 Intergroepsvariantie. Variantie optelregel
Variantie is, in tegenstelling tot andere kenmerken van variatie, een additieve hoeveelheid. Dat wil zeggen, in het totaal, dat is onderverdeeld in groepen per factor NS , prestatie-eigenschap variantie ja kan worden ontleed in variantie in elke groep (intragroep) en variantie tussen groepen (intergroep). Dan, samen met de studie van de variatie van de eigenschap voor de gehele populatie als geheel, wordt het mogelijk om de variatie in elke groep te bestuderen, maar ook tussen deze groepen.
Totale variantie meet de variatie van een eigenschap Bij gezamenlijk onder invloed van alle factoren die deze variatie hebben veroorzaakt (afwijkingen). Het is gelijk aan het gemiddelde kwadraat van de afwijkingen van individuele waarden van het attribuut Bij van het totale gemiddelde en kan worden berekend als een eenvoudige of gewogen variantie.
Intergroepsvariantie karakteriseert de variatie van de effectieve eigenschap Bij veroorzaakt door de invloed van de tekenfactor NS, die de basis vormt van de groepering. Het kenmerkt de variatie van groepsgemiddelden en is gelijk aan het gemiddelde kwadraat van afwijkingen van groepsgemiddelden van het totale gemiddelde:
,
waar is het rekenkundig gemiddelde van de i-de groep;
- het aantal eenheden in de i-de groep (frequentie van de i-de groep);
- het totale gemiddelde van de bevolking.
Variantie binnen de groep weerspiegelt willekeurige variatie, dat wil zeggen, dat deel van de variatie dat wordt veroorzaakt door de invloed van niet-verantwoorde factoren en niet afhankelijk is van de attribuutfactor die aan de groepering ten grondslag ligt. Het kenmerkt de variatie van individuele waarden ten opzichte van groepsgemiddelden, is gelijk aan het gemiddelde kwadraat van afwijkingen van individuele waarden van het attribuut Bij binnen een groep uit het rekenkundig gemiddelde van deze groep (groepsgemiddelde) en wordt berekend als een enkelvoudige of gewogen variantie voor elke groep:
of ,
waar is het aantal eenheden in de groep.
Op basis van de intragroepsvarianties voor elke groep is het mogelijk om te bepalen: het totale gemiddelde van varianties binnen de groep:
.
De relatie tussen de drie varianties heet variantie toevoeging regels, volgens welke de totale variantie gelijk is aan de som van de intergroepsvariantie en het gemiddelde van de intragroepsvarianties:
Voorbeeld... Bij het bestuderen van de invloed van de looncategorie (kwalificatie) van werknemers op het niveau van hun arbeidsproductiviteit werden de volgende gegevens verkregen.
Tabel 5 - Verdeling van werknemers naar gemiddelde uurproductie.
№ p / p |
Werknemers van de 4e categorie |
Werknemers van de 5e categorie |
|||||
Productie |
Productie |
||||||
1 |
7 |
7-10=-3 |
9 |
1 |
14 |
14-15=-1 |
1 |
In dit voorbeeld worden de arbeiders volgens de factor in twee groepen verdeeld. NS- kwalificaties, die worden gekenmerkt door hun rang. Het productieve teken - ontwikkeling - varieert zowel onder zijn invloed (intergroepsvariatie) als door andere willekeurige factoren (intragroepsvariatie). De uitdaging is om deze variaties te meten aan de hand van drie varianties: totaal, tussen-groep en binnen-groep. De empirische determinatiecoëfficiënt toont de proportie variatie van de effectieve eigenschap Bij onder invloed van een factor NS... De rest van de totale variatie Bij veroorzaakt door een verandering in andere factoren.
In het voorbeeld is de empirische determinatiecoëfficiënt:
of 66,7%,
Dit betekent dat 66,7% van de variatie in arbeidsproductiviteit van werknemers te wijten is aan verschillen in kwalificaties, en 33,3% - de invloed van andere factoren.
Empirische correlatierelatie toont de strakheid van de relatie tussen groepering en effectieve indicatoren. Berekend als de vierkantswortel van de empirische determinatiecoëfficiënt:
De empirische correlatieverhouding, zoals en, kan waarden aannemen van 0 tot 1.
Als er geen verbinding is, dan = 0. In dit geval = 0, dat wil zeggen, de groepsgemiddelden zijn gelijk aan elkaar en er is geen intergroepsvariatie. Dit betekent dat het groeperingsteken is dat de factor geen invloed heeft op de vorming van de algemene variatie.
Als de verbinding functioneel is, dan = 1. In dit geval is de variantie van het groepsgemiddelde gelijk aan de totale variantie (), dat wil zeggen dat er geen variatie binnen de groep is. Dit betekent dat het kenmerk groepering volledig de variatie van het bestudeerde productieve kenmerk bepaalt.
Hoe dichter de waarde van de correlatieverhouding bij één ligt, hoe dichter, dichter bij de functionele afhankelijkheid, de relatie tussen de tekens.
Voor een kwalitatieve beoordeling van de dichtheid van de relatie tussen de borden wordt gebruik gemaakt van de Chaddock-ratio's.
In het voorbeeld , wat wijst op een nauw verband tussen de productiviteit van werknemers en hun kwalificaties.
Spreidingwillekeurige variabele is de maat voor de spreiding van het gegeven willekeurige variabele, dat wil zeggen, haar afwijkingen van de wiskundige verwachting. In de statistiek wordt vaak de notatie (sigma-kwadraat) gebruikt om variantie aan te duiden. De vierkantswortel van de variantie gelijk aan heet standaardafwijking of standaard spread. De standaarddeviatie wordt gemeten in dezelfde eenheden als de willekeurige variabele zelf, en de variantie wordt gemeten in de vierkanten van deze eenheid.
Hoewel het erg handig is om slechts één waarde (zoals gemiddelde of modus en mediaan) te gebruiken om de hele steekproef te schatten, kan deze benadering gemakkelijk tot onjuiste conclusies leiden. De reden voor deze situatie ligt niet in de hoeveelheid zelf, maar in het feit dat één hoeveelheid op geen enkele manier de spreiding van gegevenswaarden weerspiegelt.
Bijvoorbeeld in het voorbeeld:
het gemiddelde is 5.
De steekproef zelf heeft echter geen enkel item met een waarde van 5. Mogelijk moet u weten in hoeverre elk item in de steekproef het gemiddelde benadert. Of, met andere woorden, u moet de variantie van de waarden weten. Als u weet in hoeverre de gegevens zijn veranderd, kunt u deze beter interpreteren gemeen, mediaan- en mode... De mate van verandering in steekproefwaarden wordt bepaald door hun variantie en standaarddeviatie te berekenen.
De variantie en de vierkantswortel van de variantie, de standaarddeviatie genoemd, karakteriseren de gemiddelde afwijking van het steekproefgemiddelde. Van deze twee hoeveelheden is de belangrijkste: standaardafwijking... Deze waarde kan worden gezien als de gemiddelde afstand tussen items van het middelste item in de steekproef.
De variantie is moeilijk zinvol te interpreteren. De vierkantswortel van deze waarde is echter de standaarddeviatie en wordt goed geïnterpreteerd.
De standaarddeviatie wordt berekend door eerst de variantie te bepalen en vervolgens de vierkantswortel van de variantie te berekenen.
Voor de gegevensarray die in de afbeelding wordt weergegeven, worden bijvoorbeeld de volgende waarden verkregen:
Foto 1
Hier is het gemiddelde van de kwadraten van de verschillen 717,43. Om de standaarddeviatie te krijgen, hoef je alleen maar de vierkantswortel van dat getal te nemen.
Het resultaat is ongeveer 26,78.
Houd er rekening mee dat de standaarddeviatie wordt geïnterpreteerd als de gemiddelde afstand van de items tot het steekproefgemiddelde.
De standaarddeviatie laat zien hoe goed het gemiddelde de gehele steekproef beschrijft.
Stel, je bent het hoofd van de productieafdeling voor de assemblage van een pc. Het kwartaalrapport zei dat het in het laatste kwartaal 2500 pc's had. Is dit goed of slecht? U heeft in het rapport gevraagd (of het rapport bevat deze kolom al) om de standaarddeviatie voor deze gegevens weer te geven. Het standaarddeviatiecijfer is bijvoorbeeld 2000. Het wordt u als afdelingshoofd duidelijk dat de productielijn beter aangestuurd moet worden (te grote afwijkingen in het aantal geassembleerde pc's).
Bedenk dat wanneer de standaarddeviatie groot is, de gegevens wijd verspreid zijn over het gemiddelde, en dat wanneer de standaarddeviatie klein is, ze dicht bij het gemiddelde worden gegroepeerd.
De vier statistische functies VAR (), VAR (), STDEV () en STDEV () zijn ontworpen om de variantie en standaarddeviatie van getallen in een celinterval te berekenen. Voordat u de variantie en standaarddeviatie van een gegevensset berekent, moet u bepalen of de gegevens een populatie of een steekproef uit een populatie vertegenwoordigen. In het geval van een steekproef uit de algemene populatie moeten de functies VAR () en STDEV () worden gebruikt, en in het geval van de algemene populatie moeten de functies VAR () en STDEVP () worden gebruikt:
Bevolking | Functie |
| VARP () |
| STANDOTLONP () |
Steekproef | |
| WEERGAVE () |
| STDEV () |
De variantie (evenals de standaarddeviatie), zoals we opmerkten, geeft aan in hoeverre de waarden die in de dataset zijn opgenomen, verspreid zijn over het rekenkundig gemiddelde.
Een kleine variantiewaarde of standaarddeviatie geeft aan dat alle gegevens rond het rekenkundig gemiddelde zijn gecentreerd, terwijl een grote waarde van deze waarden aangeeft dat de gegevens over een groot aantal waarden zijn verspreid.
De variantie is nogal moeilijk zinvol te interpreteren (wat betekent een kleine waarde, een grote waarde?). Uitvoering Opdrachten 3 stelt u in staat om in een grafiek visueel de betekenis van variantie voor een gegevensset weer te geven.
Taken
· Oefening 1.
· 2.1. Geef begrippen: variantie en standaarddeviatie; hun symbolische aanduiding in de statistische gegevensverwerking.
· 2.2. Maak een werkblad volgens figuur 1 en maak de nodige berekeningen.
· 2.3. Geef de basisformules die in de berekeningen worden gebruikt
· 2.4. Leg alle notatie (,,) uit
· 2.5. Leg de praktische betekenis van variantie en standaarddeviatie uit.
Taak 2.
1.1. Geef begrippen: algemene populatie en steekproef; wiskundige verwachting en rekenkundig gemiddelde van hun symbolische aanduiding bij statistische gegevensverwerking.
1.2. Maak volgens figuur 2 een werkblad en maak berekeningen.
1.3. Geef de basisformules die in de berekeningen zijn gebruikt (voor de algemene populatie en de steekproef).
Afbeelding 2
1.4. Leg uit waarom het mogelijk is om zulke rekenkundige gemiddelde waarden in steekproeven als 46.43 en 48.78 te verkrijgen (zie het bestand Appendix). Conclusies trekken.
Taak 3.
Er zijn twee voorbeelden met verschillende datasets, maar het gemiddelde zal hetzelfde zijn:
figuur 3
3.1. Maak een werkblad volgens figuur 3 en maak de nodige berekeningen.
3.2. Geef de basisberekeningsformules.
3.3. Bouw grafieken op in overeenstemming met figuren 4, 5.
3.4. Leg de resulterende afhankelijkheden uit.
3.5. Voer vergelijkbare berekeningen uit voor deze twee voorbeelden.
Origineel monster 11119999
Selecteer de waarden van het tweede monster zodat het rekenkundig gemiddelde voor het tweede monster hetzelfde is, bijvoorbeeld:
Kies zelf de waarden voor het tweede monster. Ontwerp berekeningen en grafieken zoals Figuren 3, 4, 5. Toon de basisformules die in de berekeningen zijn gebruikt.
Trek de juiste conclusies.
Alle taken moeten worden opgesteld in de vorm van een rapport met alle nodige foto's, grafieken, formules en korte uitleg.
Let op: de opbouw van grafieken moet worden uitgelegd met afbeeldingen en korte uitleg.