Boites à moustaches - Boxplot
Boites à moustaches - Boxplot

Boites à moustaches - Boxplot

Tags

Historique

La boîte à moustaches, ou box plot en anglais, a été introduite pour la première fois par le statisticien américain John W. Tukey en 1970. Ce statisticien a été un professeur émérite à l'Université de Princeton, reconnu pour ses contributions majeures à la statistique et à la science des données.
La boîte à moustaches fournit une visualisation concise et informative de la distribution statistique des données, en mettant en évidence les mesures clés telles que la médiane, les quartiles et les valeurs aberrantes.
Depuis son introduction, la boîte à moustaches est devenue un outil largement utilisé en statistique, en science des données et en dataviz. Elle est particulièrement utile dans le cadre de l'analyse exploratoire des données, où elle permet aux chercheurs, aux statisticiens et aux analystes de données de prendre rapidement des décisions éclairées sur la distribution d'un ensemble de données.
L'utilisation de la boîte à moustaches s'est étendue à de nombreux domaines, y compris la recherche, les sciences sociales, l'économie et d'autres disciplines où l'analyse des données est cruciale. Elle fait partie intégrante de l'arsenal d'outils visuels utilisés pour comprendre la structure des données et identifier les tendances, les modèles et les points aberrants.
Chronologie de l’histoire de la dataviz

Pourquoi des boîtes à moustaches (Boxplot)

 
notion image
 
Une boîte à moustaches, également appelée diagramme en boîte ou boxplot, donne des informations clés sur la distribution statistiques des données sans avoir à examiner l'ensemble des points individuels. La boîte à moustaches permet de détecter la présence d'asymétrie, de valeurs aberrantes et la dispersion globale. Elle est d’autant plus utile pour un ensemble de données, en facilitant la comparaison de leurs distributions statistiques.

Définition de la boite à moustaches

 
notion image
 
  • Minimum : la valeur minimale dans l'ensemble du jeu de données
  • Quartile : Prenons un ensemble de personnes et leurs salaires. Trions ces valeurs de salaire par valeurs croissantes ; les quartiles sont les salaires où de cette distribution est partagée en quatre parties égales en nombre d’individus.
  • Premier quartile (Q1) : le premier quartile est la valeur qui contient cette première partition de l'ensemble de données..
  • Médiane : la médiane est la valeur qui divise l'ensemble des données en deux parties égales. La médiane est considérée comme le deuxième quartile (Q2).
  • Troisième quartile (Q3) : Le troisième quartile est la médiane de la moitié supérieure des données.
  • Maximum : la valeur maximale dans l'ensemble du jeu de données.
  • Échelle interquartile (IQR) : La différence entre le troisième quartile et le premier quartile est connue sous le nom d’intervalle interquartile. (IQR = Q3-Q1).
  • Moustaches (whiskers) : Les moustaches s'étendent à partir de la boîte jusqu'aux valeurs les plus extrêmes qui ne sont pas considérées comme des outliers. Elles peuvent être calculées de différentes manières, par exemple en utilisant une plage interquartile, une plage fixe ou d'autres méthodes statistiques. En l’absence d’indication, la valeur de la moustache supérieure = Q3+(1,5 . IQR) et celle de la moustache inférieure = Q1-(1,5 . IQR).
  • Valeur aberrante (outlier) : les données situées à l'extrême haut ou bas des données ordonnées sont testées comme étant les valeurs aberrantes si elles sont supérieures à Q3+(1,5 . IQR) ou inférieures à Q1-(1,5 . IQR).

Exemple de la distribution normale

 
Boxplot d’une distribution normale
Boxplot d’une distribution normale

Limites

Les boîtes à moustaches présentent certaines limites qu'il est important de prendre en compte :
  • Les boîtes à moustaches ne fournissent pas d'informations sur la forme spécifique de la distribution des données. Elles ne sont pas idéales pour représenter des données avec des caractéristiques complexes, comme des pics multiples.
  • Les boites à moustaches montrent la médiane et les plages interquartiles, elles ne présentent pas toutes les données individuelles. Cela peut entraîner une perte d'informations importantes sur la dispersion réelle des données.
  • Les boîtes à moustaches peuvent sous-estimer la dispersion des données en présence de valeurs aberrantes. Dans certains cas, les valeurs aberrantes peuvent ne pas être évidentes sur une boîte à moustaches.
  • Les boîtes à moustaches ne fournissent pas d'informations sur la fréquence des différentes valeurs, ce qui peut être important dans certaines analyses.
  • Si les variables dans les données ont des échelles différentes, la comparaison directe des boîtes à moustaches peut être biaisée.

Les variantes à la boîte à moustaches

Boîte à moustaches améliorée

  • Une amélioration consiste à représenter toutes les données sur l’axe ou autour de ce dernier, ce qui permet de visualiser la distribution des données.
notion image
 
  • Une autre amélioration consiste à superposer l’histogramme du jeu de données
notion image
 

Diagrammes en violon (violin plot)

Les diagrammes en violon combinent une boîte à moustaches avec un tracé de densité, ce qui permet de visualiser la distribution des données de manière plus détaillée. Ils sont particulièrement utiles pour représenter des distributions bimodales (distribution statistique avec plusieurs bosses, le mode statistique) ou asymétriques. À titre de comparaison, une distribution normale est unimodale et symétrique.
notion image
 
 

Recommandations

Les données

Une seule variable quantitative (appelée aussi donnée univariée), comme une mesure physique ou financière…

Recommandation 1

Attention à ne pas interpréter les moustaches inférieures et supérieures comme les extrema (minimum et maximum) du jeu de données. Préciser les références utilisées pour le calcul des moustaches.

Recommandation 2

N’hésitez pas en enrichir la boîte à moustaches si nécessaire à l’analyse. Faire apparaitre les outliers ou l’ensemble des points sous forme de nuage de points, de tracé de densité ou autres, voire ajouter une barre pour la moyenne (en pointillé par exemple).

Recommandation 3

Assurez-vous de comparer des boîtes à moustaches sur des échelles similaires pour une interprétation correcte.

Testez vous-même

Explorez l’historique des températures minimales et maximales moyennes de chaque mois de 1933 à 2024 à Paris et Perpignan.

Outils

Sélection d’outils

Nous vous proposons des diagrammes, des variantes et des lignes directrices, mais peut-on les mettre en œuvre concrètement  avec les outils graphiques ?
La liste des logiciels de visualisation de données est longue et en faire une analyse exhaustive serait fastidieuse et peu pratique à utiliser. Nous avons choisi quelques outils connus, facile d’accès pour des débutants et qui permettent d’exporter les graphiques dans un format vectoriel .svg (sauf pour l’outil Tableau Software).
Dans ce format, les diagrammes se composent d’un ensemble d’objets graphique (polygones, lignes, cercles et textes) qu’il est possible d’importer dans des outils de présentation tels que PowerPoint, Draw ou des outils vectoriels dédiés comme Illustrator ou son équivalent libre Inkscape. Il est alors possible de faire manuellement des modifications qui ne sont pas ou difficilement réalisables avec l’outil de dataviz.

Exemples

Les exemples qui sont proposés présentent des réalisations basiques. Pensez à sélectionner l’onglet correspondant au diagramme à barres.
  EXCEL
EXCEL
Non testé : Les boîtes à moustaches ne sont pas disponible sur la version de base d’Excel (2019). Il faut télécharger une extension payante XLSTAT.
  GOOGLE SHEET  (on line)
GOOGLE SHEET (on line)
En savoir +
  • Tous les types de diagrammes à secteurs sont réalisables (n’hésitez pas à regarder des tutoriels pour les construire si besoin).
  • Pour transférer un graphique au format .svg, sélectionnez le graphique dans l’onglet puis en haut à droite du graphique, cliquez sur l’icone puis télécharger au format .svg.
  TABLEAU SOFTWARE
Le site Tableau public propose de nombreux exemples de réalisation de boites à moustaches.
TABLEAU SOFTWARE Le site Tableau public propose de nombreux exemples de réalisation de boites à moustaches.
En savoir +
  • L’outil Tableau ne propose pas d’exportation au format .svg mais au format .pdf. Dans ce format, avec les outils vectoriels, l’extraction des formes du graphique reste possible mais pas très pratique.
  CALC OpenOffice
CALC OpenOffice
Non testé : Il est possible de créer une boite à moustaches avec CALC mais c’est une construction manuelle rébarbative.
  RAWgraph (on line)
RAWgraph (on line)
En savoir +
  • Cet outil en ligne simple permet de réaliser des boite à moustaches.
  • Sa simplicité d’utilisation et sa fonction d’exportation au format .svg le place comme une possible alternative à des outils plus complexes.
🔡
Les langages de programmation
Sachez enfin, qu’avec les librairies graphiques associées aux langages de programmation R, Python ou JavaScript, il est possible de réaliser tous les diagrammes et les recommandations.
Liens vers le code de graphiques basiques :
JavaScript Observablehq (1) R (R Graph Gallery)(2), Python (Python Graph Gallery)(2), JavaScript d3.js (d3.js Graph Gallery)(2) . (1) Notebooks observablehq de l’association TDV (2) Site de Yan Holtz (en anglais) et Le site The Data Visualization Catalogue propose aussi des exemples réalisés avec de multiples outils ou langages de programmation (en anglais).