Jokaiseen numeeriseen datajoukkoon kuuluu keskiarvo, joka edustaa sen joukkoarvon painoa. Keskiarvoja on monenlaisia! Tänään esittelemme 3 suosituinta keskiarvoa: Keskiarvo, mediaani ja moodi.

Esimerkki sentraalisen taipumuksen arvoista kuvaajassa

Keskiarvo (Mean), mediaani (Median) ja moodi (Mode) ovat numeerisen aineistojoukon keskiarvoja eli keskitendenssiä. Ennen kuin syvennytään kuhunkin termiin, tarkastellaan alla olevaa esimerkkiä:

Havainto pizzojen hinnoista NY:ssä ja LA:ssa

Ensimmäinen mittari, jota tarkastelemme, on keskiarvo, joka tunnetaan myös nimellä keskiarvo. Keskiarvo voidaan laskea laskemalla kaikki datapisteet yhteen ja jakamalla se datapisteiden lukumäärällä.

Keskiarvon kaava

Sovelletaan NY. havaintoon, pizzojen hintojen keskiarvo NY:ssä on:

Pizzojen hintojen keskiarvon löytäminen NY:ssä

Huom: Keskiarvo on yleisin keskisuuntauksen mittari, mutta sillä on suuri haittapuoli, koska siihen vaikuttavat helposti poikkeavat arvot (outliers) – mikä arvo on huomattavasti suurempi kuin muut aineiston arvot.

Keskiarvo

Keskiarvo on lajitellun datajoukon keskimmäinen arvo; se löydetään järjestämällä kaikki datapisteet ja poimimalla niistä keskimmäinen (tai jos keskimmäisiä lukuja on kaksi, otetaan näiden kahden luvun keskiarvo). Etsitään aineistomme mediaani.

Etsitään pizzojen hintojen mediaani NY:ssä ja LA:ssa

Kuten huomaatte, NY:n osalta meillä on yhteensä 11 havaintoa, joten keskimmäinen asema on indeksillä 6., joka voidaan laskea seuraavasti: (11 + 1)/2 = 6. Pizzan hinnan mediaani NY:ssä on siis 6,00 dollaria

Mikä on LA:n tilanne? Meillä on 10 havaintoa LA:ssa, joten keskiasema on 5. ja 6. sijan välissä, mikä voidaan laskea (10+1)/2=5,5. Pizzan hinnan mediaani LA:ssa on siis 5,50 dollaria

Huomautus: mediaaniin eivät vaikuta poikkeavat luvut (66,00 dollaria)

Mode

Mode on yleisimmin esiintyvä luku – eli luku, joka esiintyy eniten.

Pizzojen hintojen moodin löytäminen NY:ssä ja LA:ssa

NY:n datajoukosta nähdään, että $ 3,00 esiintyy kahdesti, ja se esiintyy eniten. Sitten pizzan hintojen moodi NY:ssä on $3.00

LA:n datajoukon osalta näet, että mikään numero ei esiinny kahdesti (tai useammin). Silloin voidaan sanoa, ettei pizzan hintojen moodia LA:ssa ole.

Yleisesti 2 tai 3 moodia on melko usein. Voit valita niistä yhden riippuen työsi tarkoituksesta.

Mikä mittaustapa on paras?

Ei ole olemassa parasta, mutta vain yhden käyttäminen on ehdottomasti huonointa!

Keskisuuntauksen mittausarvoja tulisi käyttää mieluummin yhdessä kuin erikseen. Riippuu tietyistä skenaarioista, jotkut mittausarvot ovat merkityksellisempiä kuin toiset, mutta niiden käyttäminen yhdessä on parempi kuin erikseen.

Keskiarvon, mediaanin ja moodin löytäminen Microsoft Excelissä ja Pythonissa

Excel on suosituin ohjelmisto ja helppokäyttöisin Microsoftin Office-paketissaan tarjoamien tietojen käsittelyyn. Excelissä on 3 kaavaa keskiarvon, mediaanin ja moodin löytämiseksi:

Keskiarvon, mediaanin ja moodin kaavat Excelissä

Huomautus: your_data_set on tietokokonaisuutesi vaihteluväli, sen pitäisi olla 1-ulotteinen joukko.

Python on tehokkaampi ja joustavampi kuin Excel. Mutta se on ohjelmointikieli, joten sinun on asennettava IDE, jotta voit kääntää koodisi. Suosittelemme käyttämään siihen Spyderia.

Ensin sinun on tuotava tilastokirjasto

…sen jälkeen voit kutsua statistics-kirjastoa käyttämällä sen lyhyttä nimeä stats. Sinun on luotava matriisi, joka sisältää NY:n ja LA:n tietokokonaisuudet 2. ja 9. rivin mukaisesti. Sitten voit löytää keskiarvon, mediaanin ja moodin käyttämällä statistics:n valmiita funktioita:

Tarkistetaan Spyderin Variable explorer -ikkunat:

Variable explorer windows in Spyder

Havaitaan, että NY-tietokannan keskiarvo (Mean), mediaani (Median) ja moodi (Mode) ovat 11, 6 ja 3, jotka ovat täsmälleen samoja kuin manuaalisen laskennan ja Excelin avulla saadut arvot. Sama pätee myös LA-tietoaineiston keskiarvoon ja mediaaniin, lukuun ottamatta LA:n moodia. Miksi? Tulostetaan arvo mode_la

print(mode_la)

Koska LA:n pizzan hinnoille ei ole moodia. Kuten aiemmin mainitsimme, kaikki LA:n datasarjan arvot eivät esiinny kahdesti tai sitä suurempina. Voimme siis sanoa: ”LA:n datajoukossa ei ole moodia”.

Johtopäätökset:

  • Keskiarvo: keskiarvo.
  • Mediaani: lajitellun datajoukon keskimmäinen arvo.
  • Moodi: datajoukon eniten esiintyvä arvo.
  • Ei ole olemassa parasta mittaria (keskiarvon, mediaanin ja moodin välillä), mutta vain yhden käyttäminen on ehdottomasti huonointa!

Vastaa

Sähköpostiosoitettasi ei julkaista.