Zjištění střední hodnoty cen pizzy v NY Pozn: Průměr je nejběžnější míra centrální tendence, ale má velkou nevýhodu, protože je snadno ovlivnitelný odlehlými hodnotami – která hodnota je výrazně větší než ostatní hodnoty v souboru dat.
Medián
Medián je střední hodnota setříděného souboru dat; zjistí se seřazením všech datových bodů a výběrem toho uprostřed (nebo pokud jsou uprostřed dvě čísla, vezme se průměr těchto dvou čísel). Zjistíme medián našeho souboru dat.
Zjištění mediánu cen pizzy v NY a LA
Jak vidíte, máme celkem 11 pozorování pro NY, takže prostřední pozice je na indexu 6, což lze vypočítat jako (11+1)/2=6. Medián cen pizzy v NY je tedy 6,00 dolarů
A co LA? V LA máme 10 pozorování, takže střední pozice je mezi 5. a 6. místem, což lze vypočítat jako (10+1)/2=5,5. Medián cen pizzy v LA je tedy 5,50 dolarů
Poznámka: Medián není ovlivněn odlehlými hodnotami (66,00 dolarů)
Modus
Modus je nejčastější číslo – tedy číslo, které se vyskytuje nejvícekrát.
Zjištění Mode cen pizzy v NY a LA
U datového souboru NY je vidět, že 3,00 USD se objevuje dvakrát a má největší výskyt. Pak Mode of pizza prices in NY is $3.00
Pro datový soubor LA můžete vidět, že žádné číslo se nevyskytuje dvakrát (nebo vícekrát). Pak můžeme říci, že žádný mód cen pizzy v LA neexistuje.
Obecně se 2 nebo 3 módy vyskytují poměrně často. Můžete si vybrat jeden z nich, záleží na účelu vaší práce.
Která míra je nejlepší?
Není nejlepší, ale použití pouze jedné je rozhodně nejhorší!“
Tyto míry centrální tendence by se měly používat spíše společně než samostatně. Záleží na konkrétních scénářích, některá z hodnot měření je významnější než jiná, ale použít je společně je lepší než jednotlivě.
Zjištění průměru, mediánu a módu v Microsoft Excel a Python
Excel je nejoblíbenější software a snadno se používá pro práci s daty, které poskytuje společnost Microsoft ve svém balíku Office. V Excelu existují 3 vzorce pro zjištění průměru, mediánu a modu:
Vzorce pro zjištění průměru, mediánu a modu v Excelu
Poznámka: your_data_set
je rozsah vašeho souboru dat, mělo by to být 1rozměrné pole.
Python je výkonnější a flexibilnější než Excel. Je to však programovací jazyk, takže si musíte nainstalovat IDE, abyste mohli kód zkompilovat. Vřele doporučujeme použít k tomu program Spyder.
Nejprve musíte importovat knihovnu statistik
… poté můžete zavolat knihovnu statistics
pomocí jejího krátkého názvu jako stats
. Musíte vytvořit pole, které bude obsahovat sadu dat pro NY a LA podle 2. a 9. řádku. Pak můžete zjistit průměr, medián a modus pomocí předdefinovaných funkcí statistics
:
Podíváme se do oken průzkumníka proměnných v programu Spyder:
Okna průzkumníka proměnných ve Spyderu
Zjistíte, že průměr, medián a modus pro soubor dat NY je 11, 6 a 3, což se přesně shoduje s hodnotami, které jsme získali z ručního výpočtu a z Excelu. Stejné jsou i hodnoty Mean a Median pro datovou sadu LA s výjimkou Mode pro LA. Proč? Vypíšeme hodnotu mode_la
print(mode_la
)
Protože pro ceny pizzy v LA neexistuje žádný mód. Jak jsme již uvedli, všechny hodnoty datového souboru pro LA se nevyskytují dvakrát nebo vícekrát. Můžeme tedy říci, že „pro soubor dat LA neexistuje žádný modus“.
Závěr:
Medián: průměrná hodnota.
Medián: střední hodnota setříděného souboru dat.
Mód: nejvzhlednější hodnota souboru dat.
Neexistuje nejlepší míra (mezi Mean, Median a Mode), ale použití pouze jedné je rozhodně nejhorší!
.