Care set de date numerice are o valoare medie care reprezintă ponderea valorii matricei sale. Există multe tipuri diferite de medie! Astăzi vă vom prezenta 3 dintre cele mai populare valori medii: Media, Mediana și Modul.
Exemplu de valori de tendință centrală în grafic
Media, Mediana și Modul sunt valori medii sau tendința centrală a unui set de date numerice. Înainte de a intra în profunzimea fiecărui termen, să analizăm exemplul de mai jos:
Observarea prețurilor la pizza în NY și LA
Prima măsură pe care o vom studia este media, cunoscută și ca medie. Media poate fi calculată prin însumarea tuturor punctelor de date și împărțirea la numărul de puncte de date.
Formula mediei
Aplic-o la N.Y. observație, media prețurilor la pizza în New York este:
Căutarea mediei prețurilor la pizza în New York
Nota: Media este cea mai comună măsură a tendinței centrale, dar are un dezavantaj uriaș, deoarece este ușor influențată de valorile aberante – care valoare este semnificativ mai mare decât alte valori din setul de date.
Mediana
Mediana este valoarea de mijloc a unui set de date sortate; se găsește prin ordonarea tuturor punctelor de date și prin alegerea celui din mijloc (sau dacă există două numere de mijloc, luând media celor două numere). Să găsim mediana setului nostru de date.
Căutarea medianei prețurilor la pizza în NY și LA
După cum vedeți, avem un total de 11 observații pentru NY, astfel încât poziția de mijloc se află la indicele 6, care poate fi calculat ca (11+1)/2=6. Așadar, mediana prețurilor la pizza în New York este de 6,00 $
Cum rămâne cu LA? Avem 10 observații în LA, astfel încât poziția mediană este între 5 și 6, ceea ce poate fi calculat ca (10+1)/2=5,5. Deci Mediana prețurilor la pizza în LA este $5.50
Nota: Mediana nu este afectată de valorile aberante ($66.00)
Mode
Mode este cel mai frecvent număr – adică numărul care apare de cel mai mare număr de ori.
Căutarea Modei prețurilor la pizza în NY și LA
Pentru setul de date din NY, puteți vedea că $3.00 apare de două ori și are cea mai mare apariție. Atunci Mode of pizza prices in NY is $3.00
Pentru setul de date din LA, se poate observa că niciun număr nu apare de două ori (sau mai multe). Atunci putem spune că nu există un mod al prețurilor la pizza în LA.
În general, există 2 sau 3 moduri sunt destul de frecvente. Puteți alege unul dintre ele depinde în scopul lucrării dumneavoastră.
Ce măsură este cea mai bună?
Nu există cea mai bună, dar folosirea doar a uneia este cu siguranță cea mai rea!
Aceste valori de măsurare a tendinței centrale ar trebui să fie folosite împreună mai degrabă decât independent. Depinde de scenarii particulare, unele dintre valorile de măsurare sunt mai semnificative decât altele, dar utilizarea lor împreună este mai bună decât cea individuală.
Finding Mean, Median, and Mode in Microsoft Excel and Python
Excel este cel mai popular software și ușor de utilizat pentru a lucra cu datele furnizate de Microsoft în pachetul lor Office. În Excel, există 3 formule pentru a găsi Media, Mediana și Modul:
Formule pentru a găsi Media, Mediana și Modul în Excel
Nota: your_data_set
este intervalul setului dvs. de date, ar trebui să fie o matrice de 1 dimensiune.
Python este mai puternic și mai flexibil decât Excel. Dar este un limbaj de programare, deci trebuie să instalați un IDE pentru a vă compila codul. Vă recomandăm să folosiți Spyder pentru a face acest lucru.
În primul rând, trebuie să importați biblioteca de statistică
…după aceea, puteți apela biblioteca statistics
folosind numele scurt al acesteia ca stats
. Trebuie să creați o matrice care să conțină setul de date pentru NY și LA, conform liniei 2 și 9. Apoi puteți găsi Media, Mediana și Modul folosind funcțiile predefinite statistics
:
Să verificăm ferestrele de explorare a variabilelor din Spyder:
Fereastra de explorare a variabilelor în Spyder
Puteți afla că Media, Mediana și Modul pentru setul de date NY sunt 11, 6 și 3, care sunt exact aceleași cu valorile pe care le-am obținut din calculul manual și din Excel. Același lucru este valabil și pentru media și mediana pentru setul de date LA, cu excepția modului pentru LA. De ce? Să tipărim valoarea mode_la
print(mode_la
)
Pentru că nu există un mod pentru prețurile la pizza în LA. După cum am menționat anterior, toate valorile din setul de date pentru LA nu apar de două ori sau mai mari. Deci putem spune că „nu există un mod pentru setul de date din LA”.
Concluzie:
Mediana: valoarea medie.
Mediana: valoarea de mijloc a unui set de date sortate.
Mode: cea mai aparentă valoare a unui set de date.
Nu există cea mai bună măsură (între Medie, Mediană și Mod), dar folosirea doar a uneia este cu siguranță cea mai proastă!
.