3 points par GN⁺ 2023-11-21 | 2 commentaires | Partager sur WhatsApp

Bons et mauvais exemples de visualisation de données

  • Un essai d'opinion sur la visualisation de données, avec des exemples et des explications de bonnes et de mauvaises visualisations

Ne créez pas de graphiques en barres pour séparer des moyennes

  • Les graphiques de séparation des moyennes sont fréquents dans les publications scientifiques, mais les graphiques en barres ne conviennent pas pour montrer si deux groupes ayant des distributions et des écarts-types similaires sont réellement identiques.
  • L'article souligne qu'il faut vérifier plusieurs points avant d'utiliser un graphique en barres.

Ne créez pas de violon plots pour de petites tailles d’échantillon

  • Avec de petits échantillons, la distribution et les quartiles peuvent fortement varier, ce qui rend les violon plots peu pertinents.
  • Des expériences montrent que la distribution se stabilise lorsque la taille de l’échantillon atteint 50 ou plus.

N’utilisez pas d’échelle de couleurs divergente pour des données unidirectionnelles

  • Utiliser une échelle de couleurs divergente pour des données unidirectionnelles est une erreur majeure en visualisation de données.
  • Une échelle de couleurs doit représenter des valeurs particulières qui ont un sens.

Ne représentez pas les résultats d’expériences multifactorielle avec des graphiques en barres

  • Pour transmettre efficacement les résultats d’expériences multifactorielle, il faut concevoir avec soin le regroupement et la séparation selon les facteurs.

Ne créez pas de heatmaps sans réordonner les lignes et les colonnes

  • Une heatmap doit être construite efficacement en tenant compte de l’ordre des lignes et des colonnes.
  • Le clustering permet de réordonner les lignes et les colonnes, mais ce n’est pas la seule méthode.

Ne créez pas de heatmaps sans vérifier les valeurs aberrantes

  • Dans une heatmap, ne pas vérifier les valeurs aberrantes peut fortement affecter l’interprétation des données.

N’oubliez pas de vérifier l’étendue des données à chaque niveau de facteur

  • Dans les expériences multifactorielle, l’étendue de la variable de réponse peut varier fortement selon les niveaux de facteur.

Ne créez pas de graphes de réseau sans tester plusieurs layouts

  • L’apparence d’un graphe de réseau est un élément clé de son efficacité.
  • Changer le layout peut faciliter l’interprétation d’un graphe de réseau.

Ne confondez pas visualisation basée sur la position et visualisation basée sur la longueur

  • Confondre visualisation basée sur la position et visualisation basée sur la longueur peut induire en erreur.
  • Ne pas partir de 0 pour un graphique en barres est une erreur majeure en visualisation de données.

Ne créez pas de camemberts

  • Les camemberts sont critiqués parce que les humains ne sont pas très doués pour lire les angles et les aires.
  • Si vous voulez représenter des données par la longueur, mieux vaut transformer le donut chart en graphique en barres empilées.

Ne créez pas de donut charts concentriques

  • Les donut charts concentriques peuvent mal représenter les données, car la longueur des arcs de l’anneau extérieur est bien plus grande que celle de l’anneau intérieur.
  • Une alternative simple et efficace consiste à transformer le donut chart en graphique en barres empilées.

N’utilisez pas d’échelles de couleurs rouge/vert ni arc-en-ciel

  • Il faut utiliser des échelles de couleurs adaptées au daltonisme et qui conservent bien l’information en niveaux de gris, en tenant compte notamment du daltonisme rouge-vert.

N’oubliez pas de réordonner les graphiques en barres empilées

  • Lorsqu’il y a beaucoup d’échantillons et de classes, il faut optimiser l’ordre des graphiques en barres empilées pour les rendre efficaces.

L’avis de GN⁺

Le point le plus important de ce texte est de mieux faire prendre conscience des erreurs fréquentes en visualisation de données et des moyens de les éviter. La visualisation de données est un outil puissant pour transmettre des informations complexes de manière compréhensible, mais une mauvaise utilisation peut induire en erreur. Ce texte offre des recommandations intéressantes et utiles à toute personne souhaitant présenter des données de façon précise et claire.

2 commentaires

 
xguru 2023-11-21

Le titre est amusant. Si vous consultez l’article original, vous verrez aussi un exemple de graphique, ce qui le rend plus facile à suivre.

 
GN⁺ 2023-11-21
Commentaires Hacker News
  • Avis selon lequel certains graphiques peuvent être choisis délibérément pour masquer le manque de points de données ou une distribution suspecte.
  • Ne pas régler les valeurs aberrantes au maximum dans une carte thermique est un problème courant dans les visualisations de statistiques de jeux vidéo, et cela est souvent presque inutile pour diagnostiquer de vrais problèmes de température.
  • Le fait qu'un axe de graphique ne commence pas à 0 n'est pas nécessairement trompeur, et un avis partage une expérience de déception face à ce type d'affirmation.
  • Un bon aperçu des erreurs fréquentes en visualisation de données, qu'on aimerait partager avec ses collègues, avec en plus une recommandation de ressources fondées sur la recherche sur la perception humaine.
  • Recommandation supplémentaire en visualisation de données : "The Visual Display of Quantitative Information" d'Edward Tufte, publié en 1983.
  • Avis suggérant que beaucoup de leçons sur la visualisation de données ne sont pas nouvelles, et recommandant de consulter "Graphic presentation" de Willard C. Brinton, publié en 1939.
  • Le conseil "Friends don’t let friends use diverging color scales" recommande de ne pas utiliser d'échelles de couleurs divergentes pour des données unidirectionnelles.
  • Partage d'un lien vidéo affirmant, avec une opinion négative sur les violin plots, que les violin plots ne devraient pas exister.
  • Présentation de la conférence "How Humans See Data", qui rassemble plusieurs idées fondées sur la recherche sur la manière dont les humains perçoivent les données.
  • Mention d'un guide expliquant comment classer les types de données et choisir le style de graphique ou de diagramme le plus adapté à chacun, avec le regret de ne pas l'avoir mis en favori.