Alle numeriske datasæt har en gennemsnitsværdi, der repræsenterer vægten af deres arrayværdi. Der findes mange forskellige typer af gennemsnit! I dag vil vi præsentere dig for 3 af de mest populære gennemsnitsværdier: Gennemsnit, median og mode.
Middelværdi, median og mode er gennemsnitsværdier eller central tendens for et numerisk datasæt. Før vi går i dybden med hvert enkelt begreb, skal vi se på nedenstående eksempel:
Det første mål, vi vil studere, er middelværdien, også kendt som gennemsnit. Gennemsnit kan beregnes ved at lægge alle datapunkter sammen og dividere med antallet af datapunkter.
Anvendes på N.Y. observation er gennemsnittet af pizza-priserne i NY:
Note: Gennemsnit er det mest almindelige mål for central tendens, men det har en stor ulempe, fordi det let påvirkes af outliers – hvilken værdi er signifikant større end andre værdier i datasættet.
Median
Median er den midterste værdi i et sorteret datasæt; findes ved at ordne alle datapunkter og vælge det i midten (eller, hvis der er to midterste tal, tage gennemsnittet af disse to tal). Lad os finde medianen for vores datasæt.
Som du kan se, har vi i alt 11 observationer for NY, så den midterste position er på indeks 6, hvilket kan beregnes som (11+1)/2=6. Så medianen af pizzapriserne i NY er 6,00 $
Hvad er der med LA? Vi har 10 observationer i LA, så den midterste position er mellem 5. og 6., hvilket kan beregnes som (10+1)/2=5,5. Så medianen af pizza-priserne i LA er 5,50 $
Bemærk: Medianen påvirkes ikke af outliers (66,00 $)
Mode
Mode er det hyppigste tal – dvs. det tal, der forekommer det højeste antal gange.
For datasættet for NY kan du se, at $3,00 optræder to gange, og det har den største forekomst. Så Mode for pizzapriserne i NY er 3,00 $
For datasættet i LA kan du se, at intet tal optræder to gange (eller mere). Så vi kan sige, at der ikke er nogen mode for pizza priser i LA.
Generelt er der 2 eller 3 modes er ret hyppigt. Du kan vælge en af dem afhængigt af formålet med dit arbejde.
Hvilken måling er den bedste?
Der findes ikke nogen bedste, men det er helt sikkert værst at bruge kun én måling!
Disse måleværdier for central tendens bør bruges sammen og ikke hver for sig. Afhængigt af særlige scenarier er nogle af måleværdierne mere meningsfulde end andre, men det er bedre at bruge dem sammen end hver for sig.
Finding af middelværdi, median og modus i Microsoft Excel og Python
Excel er den mest populære software og nem at bruge til at arbejde med data, som Microsoft leverer i deres Office-pakke. I Excel er der 3 formler til at finde Middelværdi, Median og Mode:
Bemærk: your_data_set
er intervallet for dit datasæt, bør være 1-dimensionelt array.
Python er mere kraftfuld og fleksibel end Excel. Men det er et programmeringssprog, så du skal installere et IDE for at kompilere din kode. Vi anbefaler stærkt at bruge Spyder til at gøre det.
Først skal du importere statistikbibliotek
…herefter kan du kalde statistics
biblioteket ved hjælp af dets korte navn som stats
. Du skal oprette et array, der indeholder datasæt for NY og LA som pr. linje 2. og 9. Derefter kan du finde Mean, Median og Mode ved hjælp af statistics
foruddefinerede funktioner:
Lad os tjekke Variable explorer-vinduerne i Spyder: