Każdy numeryczny zestaw danych ma średnią wartość, która reprezentuje wagę jego wartości tablicowej. Istnieje wiele różnych typów średniej! Dzisiaj przedstawimy Ci 3 z najbardziej popularnych wartości średnich: Mean, Median i Mode.

Mean, Median i Mode to wartości średnie lub tendencja centralna liczbowego zbioru danych. Przed przejściem do głębokiego nurkowania w każdym z terminów, spójrzmy na poniższy przykład:

Pierwszą miarą, którą będziemy badać jest średnia znana również jako średnia. Średnia może być obliczona przez dodanie wszystkich punktów danych i podzielenie przez liczbę punktów danych.

Zastosuj do obserwacji N.Y. obserwacji, średnia cen pizzy w NY wynosi:

Uwaga: Średnia jest najbardziej powszechną miarą tendencji centralnej, ale ma ogromny minus, ponieważ łatwo wpływają na nią wartości odstające – która wartość jest znacznie większa niż inne wartości w zbiorze danych.
Mediana
Mediana jest środkową wartością posortowanego zestawu danych; znaleziona przez uporządkowanie wszystkich punktów danych i wybranie tego w środku (lub jeśli są dwie środkowe liczby, biorąc średnią tych dwóch liczb). Znajdźmy medianę naszego zestawu danych.

Jak widać, mamy w sumie 11 obserwacji dla NY, więc środkowa pozycja znajduje się na indeksie 6, który można obliczyć jako (11+1)/2=6. Zatem mediana cen pizzy w Nowym Jorku wynosi $6.00
A co z Los Angeles? Mamy 10 obserwacji w LA, więc środkowa pozycja jest pomiędzy 5 a 6, co można obliczyć jako (10+1)/2=5,5. Zatem mediana cen pizzy w Los Angeles wynosi $5.50
Uwaga: na medianę nie mają wpływu wartości skrajne ($66.00)
Mode
Mode to najczęstsza liczba – czyli liczba, która występuje najwięcej razy.

Dla zestawu danych NY, można zobaczyć $3.00 pojawia się dwa razy i ma najwięcej wystąpień. Następnie Mode of pizza prices in NY is $3.00
Dla zestawu danych LA, można zobaczyć, że żadna liczba pojawia się dwa razy (lub więcej). Wtedy możemy powiedzieć, że nie ma trybu cen pizzy w LA.
Generalnie istnieją 2 lub 3 tryby są dość często. Możesz wybrać jeden z nich zależy w celu swojej pracy.
Która miara jest najlepsza?
Nie ma najlepszej, ale używanie tylko jednego jest zdecydowanie najgorsze!
Te wartości pomiaru tendencji centralnej powinny być używane razem, a nie niezależnie. W zależności od konkretnych scenariuszy, niektóre z wartości pomiaru są bardziej znaczące niż inne, ale używanie ich razem jest lepsze niż pojedynczo.
Znajdowanie średniej, mediany i trybu w Microsoft Excel i Python
Excel jest najbardziej popularnym oprogramowaniem i łatwym w użyciu do pracy z danymi dostarczanymi przez Microsoft w ich pakiecie Office. W Excelu są 3 formuły, aby znaleźć średnią, medianę i tryb:

Uwaga: your_data_set
jest zakresem twojego zestawu danych, powinna być tablicą 1-wymiarową.
Python jest bardziej potężny i elastyczny niż Excel. Ale jest to język programowania, więc musisz zainstalować IDE, aby skompilować swój kod. Zalecamy użycie Spydera, aby to zrobić.
Po pierwsze, musisz zaimportować bibliotekę statystyk
…po tym, możesz wywołać bibliotekę statistics
używając jej skróconej nazwy jako stats
. Musisz utworzyć tablicę, która zawiera zestaw danych dla NY i LA, jak w linii 2. i 9. Następnie możesz znaleźć średnią, medianę i tryb używając statistics
predefiniowanych funkcji:
Sprawdźmy okna eksploratora zmiennych w Spyderze:

Możemy dowiedzieć się, że Średnia, Mediana i Tryb dla zbioru danych NY to 11, 6 i 3, które dokładnie pokrywają się z wartościami, które uzyskaliśmy z obliczeń ręcznych i Excela. To samo jest dla średniej i mediany dla zestawu danych LA, z wyjątkiem trybu dla LA. Dlaczego? Wypiszmy wartość mode_la

mode_la
)Bo nie ma trybu dla cen pizzy w LA. Jak wspomnieliśmy wcześniej, wszystkie wartości z zestawu danych dla LA nie pojawiają się dwa razy lub więcej. Więc możemy powiedzieć „nie ma Mode dla LA zestaw danych”.
Wniosek:
- Mean: średnia wartość.
- Median: środkowa wartość posortowanego zestawu danych.
- Mode: najbardziej występująca wartość zestawu danych.
- Nie ma najlepszej miary (wśród Mean, Median i Mode), ale używanie tylko jednej jest zdecydowanie najgorsze!
.