Alle numeriske datasæt har en gennemsnitsværdi, der repræsenterer vægten af deres arrayværdi. Der findes mange forskellige typer af gennemsnit! I dag vil vi præsentere dig for 3 af de mest populære gennemsnitsværdier: Gennemsnit, median og mode.

Eksempel på værdier for central tendens i graf

Middelværdi, median og mode er gennemsnitsværdier eller central tendens for et numerisk datasæt. Før vi går i dybden med hvert enkelt begreb, skal vi se på nedenstående eksempel:

Observation af pizza-priser i NY og LA

Det første mål, vi vil studere, er middelværdien, også kendt som gennemsnit. Gennemsnit kan beregnes ved at lægge alle datapunkter sammen og dividere med antallet af datapunkter.

Middelværdiformel

Anvendes på N.Y. observation er gennemsnittet af pizza-priserne i NY:

Findelse af gennemsnittet af pizza-priserne i NY

Note: Gennemsnit er det mest almindelige mål for central tendens, men det har en stor ulempe, fordi det let påvirkes af outliers – hvilken værdi er signifikant større end andre værdier i datasættet.

Median

Median er den midterste værdi i et sorteret datasæt; findes ved at ordne alle datapunkter og vælge det i midten (eller, hvis der er to midterste tal, tage gennemsnittet af disse to tal). Lad os finde medianen for vores datasæt.

Finding Median of pizza prices in NY and LA

Som du kan se, har vi i alt 11 observationer for NY, så den midterste position er på indeks 6, hvilket kan beregnes som (11+1)/2=6. Så medianen af pizzapriserne i NY er 6,00 $

Hvad er der med LA? Vi har 10 observationer i LA, så den midterste position er mellem 5. og 6., hvilket kan beregnes som (10+1)/2=5,5. Så medianen af pizza-priserne i LA er 5,50 $

Bemærk: Medianen påvirkes ikke af outliers (66,00 $)

Mode

Mode er det hyppigste tal – dvs. det tal, der forekommer det højeste antal gange.

Finding af Mode for pizzapriser i NY og LA

For datasættet for NY kan du se, at $3,00 optræder to gange, og det har den største forekomst. Så Mode for pizzapriserne i NY er 3,00 $

For datasættet i LA kan du se, at intet tal optræder to gange (eller mere). Så vi kan sige, at der ikke er nogen mode for pizza priser i LA.

Generelt er der 2 eller 3 modes er ret hyppigt. Du kan vælge en af dem afhængigt af formålet med dit arbejde.

Hvilken måling er den bedste?

Der findes ikke nogen bedste, men det er helt sikkert værst at bruge kun én måling!

Disse måleværdier for central tendens bør bruges sammen og ikke hver for sig. Afhængigt af særlige scenarier er nogle af måleværdierne mere meningsfulde end andre, men det er bedre at bruge dem sammen end hver for sig.

Finding af middelværdi, median og modus i Microsoft Excel og Python

Excel er den mest populære software og nem at bruge til at arbejde med data, som Microsoft leverer i deres Office-pakke. I Excel er der 3 formler til at finde Middelværdi, Median og Mode:

Middelværdi, Median og Mode formler i Excel

Bemærk: your_data_set er intervallet for dit datasæt, bør være 1-dimensionelt array.

Python er mere kraftfuld og fleksibel end Excel. Men det er et programmeringssprog, så du skal installere et IDE for at kompilere din kode. Vi anbefaler stærkt at bruge Spyder til at gøre det.

Først skal du importere statistikbibliotek

…herefter kan du kalde statistics biblioteket ved hjælp af dets korte navn som stats. Du skal oprette et array, der indeholder datasæt for NY og LA som pr. linje 2. og 9. Derefter kan du finde Mean, Median og Mode ved hjælp af statistics foruddefinerede funktioner:

Lad os tjekke Variable explorer-vinduerne i Spyder:

Variable explorer vinduer i Spyder

Du kan finde ud af, at Mean, Median og Mode for NY datasæt er 11, 6 og 3, hvilket er nøjagtig det samme som de værdier, vi fik fra manuel beregning og Excel. Det er det samme for middelværdi og median for LA-datasættet, bortset fra mode for LA. Hvorfor? Lad os udskrive værdien af mode_la

print(mode_la)

Der er nemlig ingen mode for pizza-priserne i LA. Som vi nævnte før, optræder alle værdier i datasættet for LA ikke to gange eller mere. Så vi kan sige, at “der er ingen mode for datasættet for LA”.

Slutning:

  • Middelværdi: den gennemsnitlige værdi.
  • Median: den midterste værdi i et sorteret datasæt.
  • Mode: den mest fremtrædende værdi i datasættet.
  • Der findes ikke noget bedste mål (blandt middelværdi, median og mode), men det er absolut værst at bruge kun ét!

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.