30. mars 2021 de Ralf Schmidt
Les pièges de la visualisation des données. Ou: pourquoi le camembert n’est pas seulement mauvais pour la ligne - Partie 1
«La hausse des chiffres concernant l’infection peut s’expliquer simplement par la hausse du nombre de tests». Nous avons certainement tous entendu ce genre de déclaration, et bien d’autres encore au cours des derniers mois, et cela permet de clarifier deux choses: d’une part, la pandémie nous a tous transformés en analystes (amateurs) de données, et d’autre part, l’interprétation de chiffres clés, même clairs, semble être tout sauf anodine. La façon dont les données sont présentées est un élément crucial de leur interprétation. Selon moi, il s’agit d’une raison suffisante pour examiner de plus près les pièges de la visualisation des données.
Le flot d’informations auquel nous sommes constamment confrontés rend plus nécessaire que jamais la présentation des données de manière à transmettre leur message de manière efficace et intuitive. Chaque fois que cela s’avère possible, nous devons veiller à rendre justice aux capacités considérables de notre outil dédié à la réflexion, plutôt que de l’embrouiller avec des représentations peu claires et trompeuses.
Mais ce n’est qu’un côté de la médaille. De l’autre côté se trouvent les personnes qui souhaitent prendre des décisions à partir de données. Pour ces dernières aussi, il est important de garder un œil sur l’évolution des chiffres d’affaires, l’état d’esprit des clients et l’environnement du marché. Conformément à la devise «Ne vous fiez pas aux statistiques que vous n’avez pas falsifiées vous-même», les interprétations de mêmes données peuvent être totalement différentes en fonction de la manière de les présenter. C’est utile pour ceux qui ont une compréhension élémentaire de leur propre perception dans ce contexte et qui ne doivent pas se fier uniquement à leur intuition.
Le problème des angles
L’un des exemples les plus connus et pourtant peu abordé est celui du graphique circulaire, souvent appelé «camembert». Les diagrammes circulaires sont très populaires, même si les personnes éprouvent beaucoup de difficultés à «lire» et à hiérarchiser les angles. Prenons l’exemple suivant:
Qui est capable, à première vue, de déterminer le segment le plus important dans chacun des trois diagrammes? Même si c’est possible, nous ne pouvons pas en deviner les proportions. Le résultat est complètement différent lorsque les données sont présentées sous forme de diagrammes à barres:
On reconnaît immédiatement ici quelle est la plus petite barre, et quelle est la plus grande. Pour plus de clarté et de compréhension, il est donc préférable de renoncer au diagramme circulaire au profit d’un diagramme à barres. Un autre problème se pose lorsque certaines catégories ne doivent pas être affichées. Le diagramme circulaire est alors composé de segments dont la somme des pourcentages n’est pas égale à 100.
Deux axes Y et leurs conséquences
Alors que la saisie de l’information peut s’avérer problématique dans le cas des diagrammes circulaires, dans le cas suivant, il s’agit de l’interprétation de ce qui est présenté. Il s’agit de diagrammes linéaires avec deux axes Y différents. Ils constituent un excellent moyen de présenter un important volume d’informations dans un seul graphique, avec l’avantage en plus de pouvoir comparer visuellement et directement les progressions des deux courbes. Cependant, si les deux axes Y ont des ordres de grandeur différents, cela peut rapidement conduire à des conclusions erronées.
Le graphique présenté donne immédiatement l’impression que le PIB allemand évolue parallèlement à celui du monde entier et suit le même schéma temporel. Mais la prudence est de mise ici! Car l’ordre de grandeur et la plage représentée par les deux courbes sont fondamentalement différents. En réalité, la hausse de la courbe bleue sur le parcours indiqué est de 80%, mais celle de la courbe rouge n’est que de 40%. Pour que cette différence soit claire, les deux axes Y doivent au moins commencer à zéro.
Il est maintenant bien plus clair que la courbe bleue augmente plus que la courbe rouge. Mais ce type de représentation brouille également notre volonté intrinsèque de mettre les objets en corrélation. Il arrivera donc plus d’une fois que les observateurs concluent: au départ, le PIB de l’Allemagne était plus élevé, puis en 2011, il a été dépassé par le PIB international. Cette conclusion, elle aussi, peut être contrecarrée par une méthode de présentation différente:
En utilisant une échelle indexée comme axe des Y, les deux courbes peuvent toujours être tracées sur un seul graphique sans compromettre la clarté des différences dans l’évolution temporelle.
Axes Y - 2e round
Le problème souligné avec l’utilisation de deux axes était en partie la représentation des courbes dans différentes plages de valeurs. Ce qui nous amène directement à la question de la représentation des données, qui fait l’objet d’un débat animé: est-il possible d’interrompre/de comprimer l’axe Y ou la bonne pratique consiste-t-elle à représenter toute la plage? La réponse, bien sûr, est un «non» catégorique, mais voyons tout de même un exemple où l’utilisation d’une section influence fortement le message représenté. Voyons le diagramme à barres suivant:
Quel succès! Les ventes ont littéralement explosé et la tendance est à la hausse... C’est du moins l’impression que donne le diagramme. Mais il faut noter que l’axe Y ne représente que les valeurs comprises entre 80 et 150, ce qui signifie qu’en fait toutes les barres sont coupées en bas. Jetons un coup d’œil aux chiffres de vente sans couper les barres:
Bien évidemment, on note toujours une tendance positive, mais la dynamique est complètement différente. D’une manière générale, la hauteur de la barre transmet un message et, par conséquent, la totalité de la barre doit être visible. Pour les graphiques linéaires, où l’accent est souvent mis sur l’évolution relative, il est plus acceptable de comprimer l’axe des Y afin d’améliorer la visualisation.
Conclusion
Ces exemples montrent qu’une bonne présentation ne se limite pas au choix des couleurs. Dans notre volonté de fournir des informations claires, nous devons faire en sorte que l’observateur puisse tirer aussi facilement que possible les bonnes conclusions d’une représentation. Mais «bon» et «correct» ne sont évidemment pas des critères absolus, et ce qui est adapté dans un cas ne l’est pas forcément dans un autre. Il s’agit donc de prendre une décision consciente en faveur d’un mode de représentation particulier ou contre celui-ci. Et bien sûr, nous pouvons très bien en discuter, même en dégustant un bon camembert. Je suis impatiente d’avoir vos retours, même critiques, et de connaître votre point de vue ou d’autres exemples. À la prochaine!