Todos os conjuntos de dados numéricos têm um valor médio que representa o peso do seu valor de array. Existem muitos tipos diferentes de média! Hoje vamos apresentar-lhe 3 dos valores médios mais populares: Média, Mediana e Modo.

>

>>

>>

Exemplo de valores de tendência central no gráfico
>

>

Média, Mediana e Modo são valores médios ou tendência central de um conjunto de dados numéricos. Antes de mergulhar fundo em cada termo, vamos dar uma olhada no exemplo abaixo:

>

>

>

Observação dos preços de pizza em NY e LA

A primeira medida que vamos estudar é a média também conhecida como média. A média pode ser calculada somando todos os pontos de dados e dividindo pelo número de pontos de dados.

>

>

>

>

Fórmula de comportamento
>

>

Aplicar ao N.Y. observação, a média dos preços de pizza em NY é:

>

>

>

>

>

Finding Mean of pizza prices in NY
>

Note: A média é a medida mais comum da tendência central, mas tem um enorme lado negativo porque é facilmente afetada por outliers – cujo valor é significativamente maior do que outros valores do conjunto de dados.

Mediana

Mediana é o valor médio de um conjunto de dados ordenado; encontrado ordenando todos os pontos de dados e escolhendo o do meio (ou se houver dois números médios, pegando a média desses dois números). Vamos encontrar a Mediana do nosso conjunto de dados.

>

>>

>

Encontrar a Mediana dos preços de pizza em NY e LA
>>

Como pode ver, temos um total de 11 observações para NY, por isso a posição do meio está no índice de 6, que pode ser calculado como (11+1)/2=6. Então a mediana do preço da pizza em NY é $6,00

O que há em Los Angeles? Temos 10 observações em Los Angeles, portanto a posição do meio está entre a 5ª e a 6ª, que pode ser calculada como (10+1)/2=5,5. Então a mediana do preço da pizza em Los Angeles é $5,50

Nota: A mediana não é afetada por outliers ($66,00)

Modo

Modo é o número mais freqüente – ou seja, o número que ocorre o maior número de vezes.

>

Finding Mode of pizza prices in NY and LA
>

Para o conjunto de dados de NY, você pode ver $3,00 aparece duas vezes e tem a maior aparência. Então a modalidade de preços de pizza em NY é $3,00

Para o conjunto de dados de LA, você pode ver que nenhum número aparece duas vezes (ou mais). Então podemos dizer que não há modo de preços de pizza em LA.

Generalmente há 2 ou 3 modos são bastante frequentes. Você pode escolher um deles depende da finalidade do seu trabalho.

Qual a melhor medida?

Não há melhor, mas usar apenas um é definitivamente pior!

Estes valores de medida de tendência central devem ser usados em conjunto e não independentemente. Depende de cenários particulares, alguns dos valores de medição são mais significativos do que outros, mas usá-los juntos é melhor do que individualmente.

Finding Mean, Median, and Mode in Microsoft Excel and Python

Excel é o software mais popular e fácil de usar para trabalhar com dados fornecidos pela Microsoft em seu pacote Office. No Excel, há 3 fórmulas para encontrar Média, Mediana e Modo:

>

>

>

Fórmulas de Modo, Mediana e Modo no Excel

Nota: your_data_set é o intervalo do seu conjunto de dados, deve ser de 1 dimensão de array.

Python é mais poderoso e flexível do que o Excel. Mas é uma linguagem de programação, então você precisa instalar um IDE para compilar seu código. É altamente recomendável usar Spyder para fazê-lo.

Primeiro, você precisa importar a biblioteca de estatísticas

>

….depois disso, você pode chamar a biblioteca statistics usando seu nome abreviado como stats. Você precisa criar um array que contenha um conjunto de dados para NY e LA como por linha 2ª e 9ª. Depois você pode encontrar Mean, Median, and Mode usando statistics funções predefinidas:

Vamos verificar as janelas Variable explorer em Spyder:

>

>

>

>>

>

>

>

Variáveis janelas exploradoras em Spyder
>>

Pode descobrir que a Média, Mediana e Modo para o conjunto de dados de NY é 11, 6, e 3, que é exatamente o mesmo com os valores que obtivemos do cálculo manual e Excel. É o mesmo para a Média, e a Mediana para o conjunto de dados LA, exceto a Mode para LA. Por quê? Vamos imprimir o valor de mode_la

print(mode_la)

Porque não há modo para preços de pizza em LA. Como mencionamos anteriormente, todos os valores do conjunto de dados para LA não aparecem duas vezes ou mais. Então podemos dizer “não há modo para o conjunto de dados LA”.

Conclusão:

  • Mean: o valor médio.
  • Median: o valor médio de um conjunto de dados ordenado.
  • Modo: o valor mais aparente de um conjunto de dados.
  • Não há melhor medida (entre Média, Mediana e Modo), mas usar apenas uma é definitivamente o pior!

Deixe uma resposta

O seu endereço de email não será publicado.