Diagrammes de dispersion - Nuage de points
Diagrammes de dispersion - Nuage de points

Diagrammes de dispersion - Nuage de points

Tags

Historique

Nous pourrions attribuer le nuage de points à Francis Galton (1863). Il représente des observations (la taille d’un enfant et de ses parents) sous forme de points sur un repère cartésien, il a constaté une corrélation : plus ses parents sont grands, plus il y a de chance que leur progéniture le soit. Graphiquement, il cherche à faire passer une droite qui passe au plus près de points du nuage. Si Galton propose le modèle de régression linéaire, la représentation par nuage de point est plus ancienne.
Le premier nuage de points pourrait être inventé par l’astronome germano-britannique, William Herschel, le découvreur de l’astre de Georges III, plus connu sous le nom d’Uranus. Dans son article de 1833, il construit un nuage du point pour prévoir l’orbite d’une étoile double dans la constellation de la Vierge. Il fait figurer la position apparente de l’étoile dans le ciel et l’année d’observation. Il propose de tracer une courbe qui peut permettre de définir la prochaine position de l’étoile.

Pourquoi des nuages de points

Pourquoi les utiliser?

  • Les nuages de points appelés aussi diagrammes de dispersion, conviennent pour examiner la relation entre deux (ou plus) variables.
  • Ils sont rapides à construire.
    • Faciliter l’exploration des données.
    • Analyser visuellement la relation entre deux variables.
  • Ils sont faciles à comprendre. Ce sont des diagrammes très utilisés. D’après Tufte (1983), plus des trois quarts des publications scientifiques utilisent les nuages de points.
  • Dans un second temps, les nuages de points permettent de :
    • Évaluer l’ajustement d’un modèle de régression.
    • Prédire la valeur d’une variable inconnue.
    • Voir les valeurs aberrantes et les observations inhabituelles.
  • Ils peuvent aussi être utilisés pour représenter une série temporelle quand les mesures ont été prises à des temps irréguliers. Au contraire, si sur l’axe X, les intervalles sont réguliers, il est possible d’utiliser un diagramme en lignes.

Pourquoi ne pas les utiliser?

  • Il est moins adapté à des variables qualitatives.
  • Lorsqu’il n’y a aucune corrélation, utiliser un nuage de point peut être trompeur : il n’y a aucune relation entre les variables choisies. Dans ce cas, un diagramme en barre est plutôt souhaitable.
  • Ne pas confondre corrélation et causalité. Les phénomènes peuvent être liés, mais cela ne veut pas dire qu’il est causé seulement par une variable. D’autres facteurs peuvent jouer. Il ne faut pas tirer de règle générale.
  • Les variations de l'échelle utilisée sur les axes peuvent altérer la perception de la corrélation.

Le nuage de points et ses variantes

A - Nuages de points à deux variables

Après avoir défini un repère cartésien, sur l’axe vertical, les ordonnées, nous plaçons la variable dite dépendante, celle qui va permettre être expliquée par la variable dite indépendante. Par exemple, si nous essayons d’expliquer la hauteur de l’arbre par la taille de son tronc, la hauteur est sur l’axe vertical et la taille sur l’axe horizontal.
 
notion image

B - Nuages de points à plus de deux variables

Nuages de points en 3D

lorsque l’on a plus de deux variables à représenter dans le jeu de données, un graphe en trois dimensions permet de représenter un jeu de données de trois variables
notion image
Avantages
  • Présenter rapidement un jeu de données avec 3 variables
  • Adapté dans le cadre d’une visualisation interactive et exploratoire
Limitations
  • Dans un cadre d’une visualisation statique ou plus généralement, les informations que vous jugez pertinentes doivent être présentées facilement à l’utilisateur, sinon ce dernier risque de passer à côté du message que vous voulez lui faire passer.
    • Choisir les bons angles de vue
    • Mettre les points intéressants en évidence, soit avec une légende ou en couleur
  • Le graphe n’est pas toujours lisible compte tenu de la superposition des points et de la perspective.
  • Enfin, la mise en œuvre peut être complexe
    • Nuages de points en couleur

      Pour représenter la troisième variable et rester en deux dimensions, La variable graphique couleur est utilisée.
      notion image
      Avantage
    • C’est la variable graphique la plus visuelle
    • Limitation
    • Nombre de couleurs
    •  

      Nuage de points avec différents symboles

      Pour représenter la troisième variable et rester en deux dimensions, La variable graphique symbole est utilisée.
      notion image
      Avantage
    • Adapté aux personnes qui ne peuvent pas percevoir facilement la couleur (daltoniens) ou si le visualisation doit être imprimée en noir et blanc
    • Limitation
    • Moins lisible que la couleur
    • Nuage de points avec différentes tailles

      Pour représenter la troisième variable et rester en deux dimensions, La variable graphique taille est utilisée.
      notion image
      Avantage
    • Permet de représenter de grandes variations de valeurs à travers le rayon des cercles
    • Limitations
    • Moins lisible que la couleur ou les symboles
    • Choix délicat de l’échelle des rayons des cercles pour éviter les superpositions

C - Nuages de points - multiples petits

Dans toutes les solutions précédentes, les points peuvent se superposer ou les groupes de points créés peuvent être mélangés. Il est possible de limiter ce problème en utilisant de “multiples petits”. La troisième variable constitue alors le séparateur des différents graphes en multiples petits.
notion image
 

Testez par vous-même

Nous utilisons les données sur les pingouins d'Allison Horst. C'est un jeu de données recueilli par le docteur Kristen Gorman et maintenu par Allison Horst qui décrit les pingouins de la base de recherche américaine Palmer en Antarctique. Chaque pingouin est caractérisé par son espèce, son île d'origine, la longueur et l'épaisseur de son bec, la longueur de ses nageoires, sa masse et son sexe. Choisissez la ou les variables à représenter
 
Explorez un grand nombre de données - Résultats du marathon de New York en 2011
Version html : http://datasens.fr/demo/scatterplot/scatter_plot_formation.html

Recommandations

Les données

  • variables numériques

Recommandation 1

  • Ajouter des cercles ou des annotations qui permettent de mettre en évidence des zones d’intérêt et une courbe de régression pour identifier des liens entre les variables

Recommandation 2

  • Quand la densité des points est trop grande, jouer sur la transparence ou modifier le symbole en fonction de la densité.

Recommandation 3

  • Préférer les multiples petits pour améliorer la lisibilité
    • Lorsque le nombre de points représentés est trop élevé
    • Quand il y a trop de variables en jeu.

Exemples

Les exemples ci-dessous présentent des réalisations basiques. Pensez à sélectionner l’onglet correspondant au diagramme.
Explications complémentaires
 
  EXCEL
EXCEL
  • lien de téléchargement du fichier exemple_excel_guidelines.xlsx
 
  GOOGLE SHEET  (on line)
GOOGLE SHEET (on line)
  • lien de téléchargement du fichier guideline_exemple
 
  TABLEAU SOFTWARE
TABLEAU SOFTWARE
Le site Tableau public propose de nombreux exemples de réalisation de diagrammes de dispersion
 
  CALC OpenOffice
CALC OpenOffice
  • lien de téléchargement du fichier Exemple OpenOfficeCalc
 
  RAWgraph (on line)
RAWgraph (on line)
  • lien de téléchargement du fichier exemple.
 
🔡
Les langages de programmation
Observablehq : Diagrammes de dispersion