Każdy numeryczny zestaw danych ma średnią wartość, która reprezentuje wagę jego wartości tablicowej. Istnieje wiele różnych typów średniej! Dzisiaj przedstawimy Ci 3 z najbardziej popularnych wartości średnich: Mean, Median i Mode.

Przykład wartości tendencji centralnej na wykresie

Mean, Median i Mode to wartości średnie lub tendencja centralna liczbowego zbioru danych. Przed przejściem do głębokiego nurkowania w każdym z terminów, spójrzmy na poniższy przykład:

Obserwacja cen pizzy w NY i LA

Pierwszą miarą, którą będziemy badać jest średnia znana również jako średnia. Średnia może być obliczona przez dodanie wszystkich punktów danych i podzielenie przez liczbę punktów danych.

Wzór na średnią

Zastosuj do obserwacji N.Y. obserwacji, średnia cen pizzy w NY wynosi:

Znalezienie średniej cen pizzy w NY

Uwaga: Średnia jest najbardziej powszechną miarą tendencji centralnej, ale ma ogromny minus, ponieważ łatwo wpływają na nią wartości odstające – która wartość jest znacznie większa niż inne wartości w zbiorze danych.

Mediana

Mediana jest środkową wartością posortowanego zestawu danych; znaleziona przez uporządkowanie wszystkich punktów danych i wybranie tego w środku (lub jeśli są dwie środkowe liczby, biorąc średnią tych dwóch liczb). Znajdźmy medianę naszego zestawu danych.

Znalezienie mediany cen pizzy w NY i LA

Jak widać, mamy w sumie 11 obserwacji dla NY, więc środkowa pozycja znajduje się na indeksie 6, który można obliczyć jako (11+1)/2=6. Zatem mediana cen pizzy w Nowym Jorku wynosi $6.00

A co z Los Angeles? Mamy 10 obserwacji w LA, więc środkowa pozycja jest pomiędzy 5 a 6, co można obliczyć jako (10+1)/2=5,5. Zatem mediana cen pizzy w Los Angeles wynosi $5.50

Uwaga: na medianę nie mają wpływu wartości skrajne ($66.00)

Mode

Mode to najczęstsza liczba – czyli liczba, która występuje najwięcej razy.

Odnalezienie trybu cen pizzy w NY i LA

Dla zestawu danych NY, można zobaczyć $3.00 pojawia się dwa razy i ma najwięcej wystąpień. Następnie Mode of pizza prices in NY is $3.00

Dla zestawu danych LA, można zobaczyć, że żadna liczba pojawia się dwa razy (lub więcej). Wtedy możemy powiedzieć, że nie ma trybu cen pizzy w LA.

Generalnie istnieją 2 lub 3 tryby są dość często. Możesz wybrać jeden z nich zależy w celu swojej pracy.

Która miara jest najlepsza?

Nie ma najlepszej, ale używanie tylko jednego jest zdecydowanie najgorsze!

Te wartości pomiaru tendencji centralnej powinny być używane razem, a nie niezależnie. W zależności od konkretnych scenariuszy, niektóre z wartości pomiaru są bardziej znaczące niż inne, ale używanie ich razem jest lepsze niż pojedynczo.

Znajdowanie średniej, mediany i trybu w Microsoft Excel i Python

Excel jest najbardziej popularnym oprogramowaniem i łatwym w użyciu do pracy z danymi dostarczanymi przez Microsoft w ich pakiecie Office. W Excelu są 3 formuły, aby znaleźć średnią, medianę i tryb:

Mean, Median, and Mode formulas in Excel

Uwaga: your_data_set jest zakresem twojego zestawu danych, powinna być tablicą 1-wymiarową.

Python jest bardziej potężny i elastyczny niż Excel. Ale jest to język programowania, więc musisz zainstalować IDE, aby skompilować swój kod. Zalecamy użycie Spydera, aby to zrobić.

Po pierwsze, musisz zaimportować bibliotekę statystyk

…po tym, możesz wywołać bibliotekę statistics używając jej skróconej nazwy jako stats. Musisz utworzyć tablicę, która zawiera zestaw danych dla NY i LA, jak w linii 2. i 9. Następnie możesz znaleźć średnią, medianę i tryb używając statistics predefiniowanych funkcji:

Sprawdźmy okna eksploratora zmiennych w Spyderze:

Okna eksploratora zmiennych w Spyderze

Możemy dowiedzieć się, że Średnia, Mediana i Tryb dla zbioru danych NY to 11, 6 i 3, które dokładnie pokrywają się z wartościami, które uzyskaliśmy z obliczeń ręcznych i Excela. To samo jest dla średniej i mediany dla zestawu danych LA, z wyjątkiem trybu dla LA. Dlaczego? Wypiszmy wartość mode_la

print(mode_la)

Bo nie ma trybu dla cen pizzy w LA. Jak wspomnieliśmy wcześniej, wszystkie wartości z zestawu danych dla LA nie pojawiają się dwa razy lub więcej. Więc możemy powiedzieć „nie ma Mode dla LA zestaw danych”.

Wniosek:

  • Mean: średnia wartość.
  • Median: środkowa wartość posortowanego zestawu danych.
  • Mode: najbardziej występująca wartość zestawu danych.
  • Nie ma najlepszej miary (wśród Mean, Median i Mode), ale używanie tylko jednej jest zdecydowanie najgorsze!

.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.