Minden numerikus adathalmaznak van egy átlagértéke, amely a tömbérték súlyát jelenti. Az átlagnak sokféle típusa létezik! Ma a 3 legnépszerűbb átlagértéket mutatjuk be: Középérték, medián és módusz.

Példa a központi tendencia értékekre grafikonon

A középérték, a medián és a módusz egy numerikus adathalmaz átlagértékei vagy központi tendenciái. Mielőtt mélyebben belemerülnénk az egyes kifejezésekbe, nézzük meg az alábbi példát:

Pizzaárak megfigyelése NY-ben és LA-ben

Az első mérték, amelyet tanulmányozni fogunk, az átlag, más néven átlag. Az átlagot úgy lehet kiszámítani, hogy az összes adatpontot összeadjuk és elosztjuk az adatpontok számával.

Az átlag képlet

Az N.Y. megfigyelésre, a pizzaárak átlaga NY-ban:

A pizzaárak átlagának meghatározása NY-ban

Megjegyz: Az átlag a központi tendencia legelterjedtebb mérőszáma, de hatalmas hátránya van, mert könnyen befolyásolják a kiugró értékek – amelyik érték jelentősen nagyobb, mint az adathalmaz más értékei.

Medián

A medián egy rendezett adathalmaz középső értéke; az összes adatpont rendezésével és a középső érték kiválasztásával találjuk meg (vagy ha két középső szám van, akkor e két szám átlagát vesszük). Keressük meg az adathalmazunk mediánját.

A pizzaárak mediánjának megtalálása NY-ben és LA-ben

Amint látható, NY-re összesen 11 megfigyelésünk van, így a középső pozíció a 6. indexen van, ami (11+1)/2=6-nak számítható. Tehát a pizzaárak mediánja NY-ban $6.00

Mi a helyzet LA-ben? LA-ben 10 megfigyelésünk van, így a középső pozíció az 5. és a 6. között van, ami kiszámítható (10+1)/2=5,5. Tehát a pizzaárak mediánja LA-ben $5,50

Megjegyezzük: a mediánt nem befolyásolják a kiugró értékek ($66,00)

Mód

A módusz a leggyakoribb szám – vagyis az a szám, amely a legtöbbször fordul elő.

A pizzaárak móduszának megtalálása NY-ben és LA-ben

A NY-i adathalmaz esetében látható, hogy a $3,00 kétszer fordul elő, és ez a leggyakrabban megjelenő. Akkor a pizzaárak módusza NY-ben $3.00

A LA adathalmaz esetében láthatjuk, hogy egyetlen szám sem jelenik meg kétszer (vagy többször). Akkor azt mondhatjuk, hogy nincs módusza a pizzaáraknak LA-ben.

Általában 2 vagy 3 módusza van elég gyakran. Ezek közül választhatsz egyet a munkád céljától függően.

Melyik mérőszám a legjobb?

Nincs legjobb, de ha csak egyet használsz, az biztosan a legrosszabb!

A központi tendencia ezen mérőszámait inkább együtt kell használni, mint egymástól függetlenül. Az adott forgatókönyvektől függően a mérőértékek közül némelyik jelentősebb, mint a többi, de együtt használni őket jobb, mint külön-külön.

A középérték, medián és módusz meghatározása Microsoft Excelben és Pythonban

Az Excel a legnépszerűbb szoftver, és könnyen használható a Microsoft által az Office csomagban biztosított adatokkal való munkához. Az Excelben 3 képlet áll rendelkezésre az átlag, a medián és a módusz megtalálására:

Az átlag, a medián és a módusz képletei az Excelben

Megjegyzés: your_data_set az adathalmazod tartománya, 1 dimenziós tömbnek kell lennie.

A python sokkal erősebb és rugalmasabb, mint az Excel. De ez egy programozási nyelv, ezért telepítenie kell egy IDE-t a kód lefordításához. Erősen ajánlott ehhez a Spyder használata.

Először is importálnia kell a statisztikai könyvtárat

…utána meghívhatja a statistics könyvtárat a rövid stats nevével. Létre kell hoznia egy tömböt, amely a 2. és 9. sor szerinti NY és LA adatkészletet tartalmazza. Ezután a statistics előre definiált függvények segítségével megkeresheti az átlagot, a mediánt és a móduszt:

Nézzük meg a Spyderben a Variable explorer ablakokat:

Variable explorer windows in Spyder

Megtudhatjuk, hogy a Mean, Median, and Mode for NY data set is 11, 6, and 3 which exactly the same with values we got from manual calculation and Excel. Ugyanez a helyzet az LA adathalmaz átlaga és mediánja esetében is, kivéve az LA adathalmaz móduszát. Miért? Nyomtassuk ki a mode_la

print(mode_la)

Mert nincs módusz a pizzaárakra LA-ben. Mint már említettük, az LA-re vonatkozó adathalmaz minden értéke nem jelenik meg kétszer vagy annál nagyobb mértékben. Tehát azt mondhatjuk, hogy “nincs módusz az LA adathalmazra”.

Következtetés:

  • Egy átlag: az átlagos érték.
  • Medián: a rendezett adathalmaz középső értéke.
  • Módus: az adathalmaz legmegjelenőbb értéke.
  • Nincs legjobb mérték (az átlag, a medián és a módusz között), de ha csak egyet használunk, az mindenképpen a legrosszabb!

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.