Tout ensemble de données numériques possède une valeur moyenne qui représente le poids de la valeur de son tableau. Il existe de nombreux types de moyenne différents ! Aujourd’hui, nous allons vous présenter 3 des valeurs moyennes les plus populaires : Moyenne, Médiane et Mode.
Moyenne, Médiane et Mode sont des valeurs moyennes ou tendance centrale d’un ensemble de données numériques. Avant de plonger en profondeur dans chaque terme, regardons l’exemple ci-dessous :
La première mesure que nous allons étudier est la moyenne également connue sous le nom de moyenne. La moyenne peut être calculée en additionnant tous les points de données et en les divisant par le nombre de points de données.
Appliquez à l’observation de N.Y. la moyenne des prix des pizzas à New York est:
Note : La moyenne est la mesure la plus courante de la tendance centrale, mais elle a un énorme inconvénient car elle est facilement affectée par les valeurs aberrantes – quelle valeur est significativement plus grande que les autres valeurs de l’ensemble des données.
Médiane
La médiane est la valeur centrale d’un ensemble de données triées ; on la trouve en ordonnant tous les points de données et en choisissant celui du milieu (ou s’il y a deux nombres centraux, en prenant la moyenne de ces deux nombres). Trouvons la médiane de notre ensemble de données.
Comme vous pouvez le voir, nous avons un total de 11 observations pour NY, donc la position du milieu est à l’indice 6, ce qui peut être calculé comme (11+1)/2=6. Donc, la médiane des prix des pizzas à New York est de 6,00 $
Qu’en est-il de LA ? Nous avons 10 observations à LA, donc la position médiane est entre la 5e et la 6e place, ce qui peut être calculé comme (10+1)/2=5,5. Donc la médiane des prix des pizzas à LA est de 5,50 $
Note : la médiane n’est pas affectée par les valeurs aberrantes (66,00 $)
Mode
Mode est le nombre le plus fréquent – c’est-à-dire le nombre qui apparaît le plus grand nombre de fois.
Pour l’ensemble des données de NY, vous pouvez voir que $3,00 apparaît deux fois et qu’il a le plus d’apparition. Alors le mode des prix des pizzas à NY est $3.00
Pour l’ensemble de données de LA, vous pouvez voir qu’aucun nombre n’apparaît deux fois (ou plus). Alors nous pouvons dire qu’il n’y a pas de mode des prix des pizzas à LA.
Généralement il y a 2 ou 3 modes sont assez fréquents. Vous pouvez choisir l’un d’eux dépend dans le but de votre travail.
Quelle est la meilleure mesure ?
Il n’y a pas de meilleur, mais l’utilisation d’un seul est certainement le pire!
Ces valeurs de mesure de la tendance centrale devraient être utilisées ensemble plutôt qu’indépendamment. Dépend des scénarios particuliers, certains de la valeur de mesure est plus significatif que d’autres, mais les utiliser ensemble est mieux que l’individu.
Finding Mean, Median, and Mode in Microsoft Excel and Python
Excel est le logiciel le plus populaire et facile à utiliser pour travailler avec des données fournies par Microsoft dans leur paquet Office. Dans Excel, il existe 3 formules pour trouver la moyenne, la médiane et le mode :
Note : your_data_set
est la plage de votre ensemble de données, devrait être un tableau à 1 dimension.
Python est plus puissant et plus flexible qu’Excel. Mais c’est un langage de programmation, vous devez donc installer un IDE pour compiler votre code. Nous recommandons fortement d’utiliser Spyder pour le faire.
D’abord, vous devez importer la bibliothèque de statistiques
…après cela, vous pouvez appeler la bibliothèque statistics
en utilisant son nom court comme stats
. Vous devez créer un tableau qui contient les données pour NY et LA selon les lignes 2 et 9. Ensuite, vous pouvez trouver la moyenne, la médiane et le mode en utilisant les fonctions prédéfinies de statistics
:
Vérifions les fenêtres de l’explorateur de variables dans Spyder :
Vous pouvez découvrir que la moyenne, la médiane et le mode pour l’ensemble des données de NY sont 11, 6 et 3, ce qui est exactement la même chose que les valeurs que nous avons obtenues par le calcul manuel et Excel. C’est la même chose pour la moyenne et la médiane de l’ensemble de données de LA, sauf pour le mode de LA. Pourquoi ? Imprimons la valeur de mode_la
Parce qu’il n’y a pas de mode pour les prix des pizzas à LA. Comme nous l’avons mentionné précédemment, toutes les valeurs de l’ensemble de données pour LA n’apparaissent pas deux fois ou plus. Donc nous pouvons dire « il n’y a pas de mode pour l’ensemble de données de LA ».
Conclusion:
- Moyenne : la valeur moyenne.
- Médiane : la valeur moyenne d’un ensemble de données triées.
- Mode : la valeur la plus apparente d’un ensemble de données.
- Il n’y a pas de meilleure mesure (parmi la moyenne, la médiane et le mode), mais l’utilisation d’une seule est certainement la pire !
.