Každý číselný soubor dat má průměrnou hodnotu, která představuje váhu jeho hodnoty pole. Existuje mnoho různých typů průměrů! Dnes vám představíme 3 nejoblíbenější průměrné hodnoty:

Příklad hodnot centrální tendence v grafu

Mean, Median a Mode jsou průměrné hodnoty neboli centrální tendence číselného souboru dat. Než se pustíme do hlubšího zkoumání jednotlivých pojmů, podívejme se na následující příklad:

Pozorování cen pizzy v New Yorku a Los Angeles

První mírou, kterou budeme studovat, je průměr známý také jako střední hodnota. Průměr lze vypočítat sečtením všech datových bodů a vydělením počtem datových bodů.

Střední vzorec

Použijeme pro N.Y. pozorování, střední hodnota cen pizzy v NY je:

Zjištění střední hodnoty cen pizzy v NY

Pozn: Průměr je nejběžnější míra centrální tendence, ale má velkou nevýhodu, protože je snadno ovlivnitelný odlehlými hodnotami – která hodnota je výrazně větší než ostatní hodnoty v souboru dat.

Medián

Medián je střední hodnota setříděného souboru dat; zjistí se seřazením všech datových bodů a výběrem toho uprostřed (nebo pokud jsou uprostřed dvě čísla, vezme se průměr těchto dvou čísel). Zjistíme medián našeho souboru dat.

Zjištění mediánu cen pizzy v NY a LA

Jak vidíte, máme celkem 11 pozorování pro NY, takže prostřední pozice je na indexu 6, což lze vypočítat jako (11+1)/2=6. Medián cen pizzy v NY je tedy 6,00 dolarů

A co LA? V LA máme 10 pozorování, takže střední pozice je mezi 5. a 6. místem, což lze vypočítat jako (10+1)/2=5,5. Medián cen pizzy v LA je tedy 5,50 dolarů

Poznámka: Medián není ovlivněn odlehlými hodnotami (66,00 dolarů)

Modus

Modus je nejčastější číslo – tedy číslo, které se vyskytuje nejvícekrát.

Zjištění Mode cen pizzy v NY a LA

U datového souboru NY je vidět, že 3,00 USD se objevuje dvakrát a má největší výskyt. Pak Mode of pizza prices in NY is $3.00

Pro datový soubor LA můžete vidět, že žádné číslo se nevyskytuje dvakrát (nebo vícekrát). Pak můžeme říci, že žádný mód cen pizzy v LA neexistuje.

Obecně se 2 nebo 3 módy vyskytují poměrně často. Můžete si vybrat jeden z nich, záleží na účelu vaší práce.

Která míra je nejlepší?

Není nejlepší, ale použití pouze jedné je rozhodně nejhorší!“

Tyto míry centrální tendence by se měly používat spíše společně než samostatně. Záleží na konkrétních scénářích, některá z hodnot měření je významnější než jiná, ale použít je společně je lepší než jednotlivě.

Zjištění průměru, mediánu a módu v Microsoft Excel a Python

Excel je nejoblíbenější software a snadno se používá pro práci s daty, které poskytuje společnost Microsoft ve svém balíku Office. V Excelu existují 3 vzorce pro zjištění průměru, mediánu a modu:

Vzorce pro zjištění průměru, mediánu a modu v Excelu

Poznámka: your_data_set je rozsah vašeho souboru dat, mělo by to být 1rozměrné pole.

Python je výkonnější a flexibilnější než Excel. Je to však programovací jazyk, takže si musíte nainstalovat IDE, abyste mohli kód zkompilovat. Vřele doporučujeme použít k tomu program Spyder.

Nejprve musíte importovat knihovnu statistik

… poté můžete zavolat knihovnu statistics pomocí jejího krátkého názvu jako stats. Musíte vytvořit pole, které bude obsahovat sadu dat pro NY a LA podle 2. a 9. řádku. Pak můžete zjistit průměr, medián a modus pomocí předdefinovaných funkcí statistics:

Podíváme se do oken průzkumníka proměnných v programu Spyder:

Okna průzkumníka proměnných ve Spyderu

Zjistíte, že průměr, medián a modus pro soubor dat NY je 11, 6 a 3, což se přesně shoduje s hodnotami, které jsme získali z ručního výpočtu a z Excelu. Stejné jsou i hodnoty Mean a Median pro datovou sadu LA s výjimkou Mode pro LA. Proč? Vypíšeme hodnotu mode_la

print(mode_la)

Protože pro ceny pizzy v LA neexistuje žádný mód. Jak jsme již uvedli, všechny hodnoty datového souboru pro LA se nevyskytují dvakrát nebo vícekrát. Můžeme tedy říci, že „pro soubor dat LA neexistuje žádný modus“.

Závěr:

  • Medián: průměrná hodnota.
  • Medián: střední hodnota setříděného souboru dat.
  • Mód: nejvzhlednější hodnota souboru dat.
  • Neexistuje nejlepší míra (mezi Mean, Median a Mode), ale použití pouze jedné je rozhodně nejhorší!

.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.