Minden numerikus adathalmaznak van egy átlagértéke, amely a tömbérték súlyát jelenti. Az átlagnak sokféle típusa létezik! Ma a 3 legnépszerűbb átlagértéket mutatjuk be: Középérték, medián és módusz.
A középérték, a medián és a módusz egy numerikus adathalmaz átlagértékei vagy központi tendenciái. Mielőtt mélyebben belemerülnénk az egyes kifejezésekbe, nézzük meg az alábbi példát:
Az első mérték, amelyet tanulmányozni fogunk, az átlag, más néven átlag. Az átlagot úgy lehet kiszámítani, hogy az összes adatpontot összeadjuk és elosztjuk az adatpontok számával.
Az N.Y. megfigyelésre, a pizzaárak átlaga NY-ban:
Megjegyz: Az átlag a központi tendencia legelterjedtebb mérőszáma, de hatalmas hátránya van, mert könnyen befolyásolják a kiugró értékek – amelyik érték jelentősen nagyobb, mint az adathalmaz más értékei.
Medián
A medián egy rendezett adathalmaz középső értéke; az összes adatpont rendezésével és a középső érték kiválasztásával találjuk meg (vagy ha két középső szám van, akkor e két szám átlagát vesszük). Keressük meg az adathalmazunk mediánját.
Amint látható, NY-re összesen 11 megfigyelésünk van, így a középső pozíció a 6. indexen van, ami (11+1)/2=6-nak számítható. Tehát a pizzaárak mediánja NY-ban $6.00
Mi a helyzet LA-ben? LA-ben 10 megfigyelésünk van, így a középső pozíció az 5. és a 6. között van, ami kiszámítható (10+1)/2=5,5. Tehát a pizzaárak mediánja LA-ben $5,50
Megjegyezzük: a mediánt nem befolyásolják a kiugró értékek ($66,00)
Mód
A módusz a leggyakoribb szám – vagyis az a szám, amely a legtöbbször fordul elő.
A NY-i adathalmaz esetében látható, hogy a $3,00 kétszer fordul elő, és ez a leggyakrabban megjelenő. Akkor a pizzaárak módusza NY-ben $3.00
A LA adathalmaz esetében láthatjuk, hogy egyetlen szám sem jelenik meg kétszer (vagy többször). Akkor azt mondhatjuk, hogy nincs módusza a pizzaáraknak LA-ben.
Általában 2 vagy 3 módusza van elég gyakran. Ezek közül választhatsz egyet a munkád céljától függően.
Melyik mérőszám a legjobb?
Nincs legjobb, de ha csak egyet használsz, az biztosan a legrosszabb!
A központi tendencia ezen mérőszámait inkább együtt kell használni, mint egymástól függetlenül. Az adott forgatókönyvektől függően a mérőértékek közül némelyik jelentősebb, mint a többi, de együtt használni őket jobb, mint külön-külön.
A középérték, medián és módusz meghatározása Microsoft Excelben és Pythonban
Az Excel a legnépszerűbb szoftver, és könnyen használható a Microsoft által az Office csomagban biztosított adatokkal való munkához. Az Excelben 3 képlet áll rendelkezésre az átlag, a medián és a módusz megtalálására:
Megjegyzés: your_data_set
az adathalmazod tartománya, 1 dimenziós tömbnek kell lennie.
A python sokkal erősebb és rugalmasabb, mint az Excel. De ez egy programozási nyelv, ezért telepítenie kell egy IDE-t a kód lefordításához. Erősen ajánlott ehhez a Spyder használata.
Először is importálnia kell a statisztikai könyvtárat
…utána meghívhatja a statistics
könyvtárat a rövid stats
nevével. Létre kell hoznia egy tömböt, amely a 2. és 9. sor szerinti NY és LA adatkészletet tartalmazza. Ezután a statistics
előre definiált függvények segítségével megkeresheti az átlagot, a mediánt és a móduszt:
Nézzük meg a Spyderben a Variable explorer ablakokat:
Megtudhatjuk, hogy a Mean, Median, and Mode for NY data set is 11, 6, and 3 which exactly the same with values we got from manual calculation and Excel. Ugyanez a helyzet az LA adathalmaz átlaga és mediánja esetében is, kivéve az LA adathalmaz móduszát. Miért? Nyomtassuk ki a mode_la
Mert nincs módusz a pizzaárakra LA-ben. Mint már említettük, az LA-re vonatkozó adathalmaz minden értéke nem jelenik meg kétszer vagy annál nagyobb mértékben. Tehát azt mondhatjuk, hogy “nincs módusz az LA adathalmazra”.
Következtetés:
- Egy átlag: az átlagos érték.
- Medián: a rendezett adathalmaz középső értéke.
- Módus: az adathalmaz legmegjelenőbb értéke.
- Nincs legjobb mérték (az átlag, a medián és a módusz között), de ha csak egyet használunk, az mindenképpen a legrosszabb!