Population vs Sample Standard Deviation
I statistik bruges flere indekser til at beskrive et datasæt, der svarer til dets centrale tendens, spredning og skævhed. Standardafvigelse er et af de mest almindelige mål for spredning af data fra midten af datasættet.
På grund af praktiske vanskeligheder vil det ikke være muligt at gøre brug af data fra hele befolkningen, når en hypotese testes. Derfor anvender vi dataværdier fra stikprøver til at drage konklusioner om populationen. I en sådan situation kaldes disse estimatorer, da de estimerer populationsparameterværdierne.
Det er ekstremt vigtigt at bruge upartiske estimatorer i slutninger. En estimator siges at være upartisk, hvis den forventede værdi af denne estimator er lig med populationsparameteren. For eksempel bruger vi stikprøvegennemsnittet som en upartisk estimator for populationsgennemsnittet. (Matematisk kan det påvises, at den forventede værdi af stikprøvegennemsnittet er lig med populationsgennemsnittet). I tilfælde af at estimere populationens standardafvigelse, er stikprøvens standardafvigelse også en upartisk estimator.
Hvad er populationsstandardafvigelse?
Når data fra hele befolkningen kan tages i betragtning (f.eks. i tilfælde af en folketælling), er det muligt at beregne befolkningens standardafvigelse. For at beregne standardafvigelsen for populationen beregnes først afvigelserne af dataværdier fra populationens middelværdi. Kvadratisk middelværdi af afvigelser kaldes populationens standardafvigelse.
I en klasse på 10 elever kan data om eleverne nemt indsamles. Hvis en hypotese testes på denne population af studerende, er der ikke behov for at bruge stikprøveværdier. For eksempel er vægten af de 10 elever (i kilogram) målt til at være 70, 62, 65, 72, 80, 70, 63, 72, 77 og 79. Så er gennemsnitsvægten af de ti personer (i kilogram) (70+62+65+72+80+70+63+72+77+79)/10, hvilket er 71 (i kilogram). Dette er gennemsnittet for befolkningen.
Nu for at beregne populationens standardafvigelse, beregner vi afvigelser fra middelværdien. De respektive afvigelser fra middelværdien er (70 – 71)=-1, (62 – 71)=-9, (65 – 71)=-6, (72 – 71)=1, (80 – 71)=9, (70 – 71)=-1, (63 – 71)=-8, (72 – 71)=1, (77 – 71)=6 og (79 – 71)=8. Summen af afvigelseskvadrater er (-1)2 + (-9)2 + (-6)2 + 1 2 + 92 + (-1)2 + (-8)2+ 12 + 62 + 82 =366. Populationens standardafvigelse er √(366/10)=6,05 (i kilogram). 71 er den nøjagtige middelvægt af klassens elever og 6.05 er den nøjagtige standardafvigelse for vægt fra 71.
Hvad er prøvestandardafvigelse?
Når data fra en stikprøve (størrelse n) bruges til at estimere populationens parametre, beregnes prøvens standardafvigelse. Først beregnes dataværdiernes afvigelser fra prøvegennemsnittet. Da stikprøvegennemsnittet bruges i stedet for populationsgennemsnittet (som er ukendt), er det ikke passende at tage den kvadratiske middelværdi. For at kompensere for brugen af stikprøvegennemsnit divideres summen af kvadrater af afvigelser med (n-1) i stedet for n. Prøvens standardafvigelse er kvadratroden af dette. I matematiske symboler er S=√{∑(xi-ẍ)2 / (n-1)}, hvor S er prøvens standardafvigelse, ẍ er prøvegennemsnittet, og xi er datapunkterne.
Antag nu, at befolkningen i det foregående eksempel er eleverne på hele skolen. Så vil klassen kun være et eksempel. Hvis denne prøve bruges i estimeringen, vil prøvens standardafvigelse være √(366/9)=6.38 (i kg), da 366 blev divideret med 9 i stedet for 10 (prøvestørrelsen). Faktum at observere er, at dette ikke er garanteret at være den nøjagtige populationsstandardafvigelsesværdi. Det er kun et skøn for det.
Hvad er forskellen mellem populationsstandardafvigelse og stikprøvestandardafvigelse?
• Populationsstandardafvigelse er den nøjagtige parameterværdi, der bruges til at måle spredningen fra midten, hvorimod prøvestandardafvigelsen er en upartisk estimator for det.
• Populationens standardafvigelse beregnes, når alle data vedrørende hvert individ i populationen er kendt. Ellers beregnes prøvens standardafvigelse.
• Populationens standardafvigelse er givet ved σ=√{ ∑(xi-µ)2/ n} hvor µ er populationens middelværdi og n er populationsstørrelsen, men prøvestandardafvigelse er givet ved S=√{ ∑(xi-ẍ)2 / (n-1)} hvor ẍ er stikprøvegennemsnittet, og n er stikprøvestørrelsen.