Historique
La boîte à moustaches, ou box plot en anglais, a été introduite pour la première fois par le statisticien américain John W. Tukey en 1970. Ce statisticien a été un professeur émérite à l'Université de Princeton, reconnu pour ses contributions majeures à la statistique et à la science des données.
La boîte à moustaches fournit une visualisation concise et informative de la distribution statistique des données, en mettant en évidence les mesures clés telles que la médiane, les quartiles et les valeurs aberrantes.
Depuis son introduction, la boîte à moustaches est devenue un outil largement utilisé en statistique, en science des données et en dataviz. Elle est particulièrement utile dans le cadre de l'analyse exploratoire des données, où elle permet aux chercheurs, aux statisticiens et aux analystes de données de prendre rapidement des décisions éclairées sur la distribution d'un ensemble de données.
L'utilisation de la boîte à moustaches s'est étendue à de nombreux domaines, y compris la recherche, les sciences sociales, l'économie et d'autres disciplines où l'analyse des données est cruciale. Elle fait partie intégrante de l'arsenal d'outils visuels utilisés pour comprendre la structure des données et identifier les tendances, les modèles et les points aberrants.
Chronologie de l’histoire de la dataviz
Pourquoi des boîtes à moustaches (Boxplot)
Une boîte à moustaches, également appelée diagramme en boîte ou boxplot, donne des informations clés sur la distribution statistiques des données sans avoir à examiner l'ensemble des points individuels.
La boîte à moustaches permet de détecter la présence d'asymétrie, de valeurs aberrantes et la dispersion globale. Elle est d’autant plus utile pour un ensemble de données, en facilitant la comparaison de leurs distributions statistiques.
Définition de la boite à moustaches
- Minimum : la valeur minimale dans l'ensemble du jeu de données
- Quartile : Prenons un ensemble de personnes et leurs salaires. Trions ces valeurs de salaire par valeurs croissantes ; les quartiles sont les salaires où de cette distribution est partagée en quatre parties égales en nombre d’individus.
- Premier quartile (Q1) : le premier quartile est la valeur qui contient cette première partition de l'ensemble de données..
- Médiane : la médiane est la valeur qui divise l'ensemble des données en deux parties égales. La médiane est considérée comme le deuxième quartile (Q2).
- Troisième quartile (Q3) : Le troisième quartile est la médiane de la moitié supérieure des données.
- Maximum : la valeur maximale dans l'ensemble du jeu de données.
- Échelle interquartile (IQR) : La différence entre le troisième quartile et le premier quartile est connue sous le nom d’intervalle interquartile. (IQR = Q3-Q1).
- Moustaches (whiskers) : Les moustaches s'étendent à partir de la boîte jusqu'aux valeurs les plus extrêmes qui ne sont pas considérées comme des outliers. Elles peuvent être calculées de différentes manières, par exemple en utilisant une plage interquartile, une plage fixe ou d'autres méthodes statistiques. En l’absence d’indication, la valeur de la moustache supérieure = Q3+(1,5 . IQR) et celle de la moustache inférieure = Q1-(1,5 . IQR).
- Valeur aberrante (outlier) : les données situées à l'extrême haut ou bas des données ordonnées sont testées comme étant les valeurs aberrantes si elles sont supérieures à Q3+(1,5 . IQR) ou inférieures à Q1-(1,5 . IQR).
Exemple de la distribution normale
Limites
Les boîtes à moustaches présentent certaines limites qu'il est important de prendre en compte :
- Les boîtes à moustaches ne fournissent pas d'informations sur la forme spécifique de la distribution des données. Elles ne sont pas idéales pour représenter des données avec des caractéristiques complexes, comme des pics multiples.
- Les boites à moustaches montrent la médiane et les plages interquartiles, elles ne présentent pas toutes les données individuelles. Cela peut entraîner une perte d'informations importantes sur la dispersion réelle des données.
- Les boîtes à moustaches peuvent sous-estimer la dispersion des données en présence de valeurs aberrantes. Dans certains cas, les valeurs aberrantes peuvent ne pas être évidentes sur une boîte à moustaches.
- Les boîtes à moustaches ne fournissent pas d'informations sur la fréquence des différentes valeurs, ce qui peut être important dans certaines analyses.
- Si les variables dans les données ont des échelles différentes, la comparaison directe des boîtes à moustaches peut être biaisée.
Les variantes à la boîte à moustaches
Boîte à moustaches améliorée
- Une amélioration consiste à représenter toutes les données sur l’axe ou autour de ce dernier, ce qui permet de visualiser la distribution des données.
- Une autre amélioration consiste à superposer l’histogramme du jeu de données
Diagrammes en violon (violin plot)
Les diagrammes en violon combinent une boîte à moustaches avec un tracé de densité, ce qui permet de visualiser la distribution des données de manière plus détaillée. Ils sont particulièrement utiles pour représenter des distributions bimodales (distribution statistique avec plusieurs bosses, le mode statistique) ou asymétriques. À titre de comparaison, une distribution normale est unimodale et symétrique.
Recommandations
Les données
Une seule variable quantitative (appelée aussi donnée univariée), comme une mesure physique ou financière…
Recommandation 1
Attention à ne pas interpréter les moustaches inférieures et supérieures comme les extrema (minimum et maximum) du jeu de données.
Préciser les références utilisées pour le calcul des moustaches.
Recommandation 2
N’hésitez pas en enrichir la boîte à moustaches si nécessaire à l’analyse.
Faire apparaitre les outliers ou l’ensemble des points sous forme de nuage de points, de tracé de densité ou autres, voire ajouter une barre pour la moyenne (en pointillé par exemple).
Recommandation 3
Assurez-vous de comparer des boîtes à moustaches sur des échelles similaires pour une interprétation correcte.
Testez vous-même
Explorez l’historique des températures minimales et maximales moyennes de chaque mois de 1933 à 2024 à Paris et Perpignan.
Exemples
Les exemples ci-dessous présentent des réalisations basiques. Pensez à sélectionner l’onglet correspondant au diagramme.
Explications complémentaires
EXCEL
- lien de téléchargement du fichier exemple_excel_guidelines.xlsx
GOOGLE SHEET (on line)
- lien de téléchargement du fichier guideline_exemple
TABLEAU SOFTWARE
CALC OpenOffice
- lien de téléchargement du fichier Exemple OpenOfficeCalc
Les langages de programmation
Observablehq : Boites à moustaches
Python : Boites à moustaches
Javascript : Boites à moustaches