Forskellen mellem central tendens og spredning

Video: Forskellen mellem central tendens og spredning

Video: Kryo-Elektronenmikroskopie | Forschungszentrum caesar 2024, November

2024 Forfatter: Alex Aldridge | [email protected]. Sidst ændret: 2023-12-17 13:35

Central tendens vs spredning

I beskrivende og inferentielle statistikker bruges flere indekser til at beskrive et datasæt svarende til dets centrale tendens, spredning og skævhed: de tre vigtigste egenskaber, der bestemmer den relative form af fordelingen af et datasæt.

Hvad er central tendens?

Central tendens henviser til og lokaliserer centrum for fordelingen af værdier. Gennemsnit, tilstand og median er de mest almindeligt anvendte indekser til at beskrive den centrale tendens i et datasæt. Hvis et datasæt er symmetrisk, så falder både medianen og middelværdien af datasættet sammen med hinanden.

Med et datasæt beregnes middelværdien ved at tage summen af alle dataværdierne og derefter dividere den med antallet af data. For eksempel er vægten af 10 personer (i kilogram) målt til at være 70, 62, 65, 72, 80, 70, 63, 72, 77 og 79. Så kan middelvægten af de ti personer (i kilogram) være beregnes som følger. Summen af vægtene er 70 + 62 + 65 + 72 + 80 + 70 + 63 + 72 + 77 + 79=710. Middelværdi=(sum) / (antal data)=710 / 10=71 (i kilogram). Det er underforstået, at outliers (datapunkter, der afviger fra den normale tendens) har en tendens til at påvirke gennemsnittet. I tilstedeværelse af afvigende værdier vil middel alene ikke give et korrekt billede af centrum af datasættet.

Medianen er det datapunkt, der findes i den nøjagtige midte af datasættet. En måde at beregne medianen på er at ordne datapunkterne i stigende rækkefølge og derefter lokalisere datapunktet i midten. For eksempel, hvis det tidligere datasæt én gang er bestilt, ser ud som 62, 63, 65, 70, 70, 72, 72, 77, 79, 80. Derfor er (70+72)/2=71 i midten. Heraf ses det, at medianen ikke behøver at være i datasættet. Medianen påvirkes ikke af tilstedeværelsen af afvigende værdier. Medianen vil derfor tjene som et bedre mål for central tendens i tilstedeværelsen af outliers.

Tilstanden er den hyppigst forekommende værdi i datasættet. I det foregående eksempel forekommer værdien 70 og 72 begge to gange, og begge er således tilstande. Dette viser, at der i nogle distributioner er mere end én modal værdi. Hvis der kun er én tilstand, siges datasættet at være unimod alt, i dette tilfælde er datasættet bimod alt.

Hvad er spredning?

Spredning er mængden af spredning af data om centrum af distributionen. Område og standardafvigelse er de mest almindeligt anvendte mål for spredning.

Rækken er simpelthen den højeste værdi minus den laveste værdi. I det foregående eksempel er den højeste værdi 80 og den laveste værdi er 62, så området er 80-62=18. Men området giver ikke et tilstrækkeligt billede af spredningen.

For at beregne standardafvigelsen beregnes først afvigelserne af dataværdier fra middelværdien. Den kvadratiske middelværdi af afvigelser kaldes standardafvigelsen. I det foregående eksempel er de respektive afvigelser fra middelværdien (70 – 71)=-1, (62 – 71)=-9, (65 – 71)=-6, (72 – 71)=1, (80 – 71)=9, (70 – 71)=-1, (63 – 71)=-8, (72 – 71)=1, (77 – 71)=6 og (79 – 71)=8. Summen af kvadrater med afvigelse er (-1)² + (-9)² + (-6)²+ 1² + 9² + (-1)² + (-8) 2 ^{+ 1}2 ^{+ 6}2 ^{+ 8}2^{=366 Standardafvigelsen er √(366/10)=6,05 (i kilogram). Medmindre datasættet er meget skævt, kan det ud fra dette konkluderes, at størstedelen af dataene er i intervallet 71±6,05, og det er det faktisk i dette særlige eksempel.}

Hvad er forskellen mellem central tendens og spredning?

• Central tendens henviser til og lokaliserer centrum for fordelingen af værdier

• Spredning er mængden af spredning af data om midten af et datasæt.