adesso Blog

Imaginez la situation suivante: Vous venez d’acheter une raquette et une balle, pour un total de 1,10 €. Si la raquette coûte 1 € de plus que la balle, quel est le prix de la balle?

Si vous répondez 10 centimes de manière intuitive, vous n’êtes pas le seul! Plus de 50% des participants à l’étude de Shane Frederick ont malheureusement mal répondu à cette question. La bonne réponse est: 5 centimes.

Vous vous demandez quel est le rapport avec la visualisation des données? Nous allons y venir de suite... après une rapide rétrospective.

Lors de la première partie de cette série, nous avons abordé les erreurs courantes commises lors de l’affichage des données, en fournissant ainsi une introduction claire sur le thème des «données». Elles sont omniprésentes et nous en avons fait un élément central de notre économie dans notre effort pour rendre tangible la complexité des flux de données disponibles afin d’en tirer de nouveaux enseignements. Mais la route est longue et parsemée d’embûches!

Penchons-nous simplement sur l’approvisionnement en données et son intégration: même l’exemple simple d’une entreprise de logistique qui souhaite optimiser automatiquement les itinéraires de ses véhicules devient rapidement très complexe. Les données de localisation et de circulation doivent être recueillies en temps réel, les informations routières doivent être enrichies d’informations supplémentaires telles que des données topographiques, puis tous les ensembles de données doivent être rapprochés. La validation des données, leur préparation ou même leur analyse sont confrontées à des défis similaires, et ils méritent tous d’être étudiés plus en détail dans les articles suivants.

L’étape décisive, cependant, consiste à interpréter les informations extraites, ce qui se fait souvent par le biais de visualisations et nous amène directement au cœur de cet article. Cette fois-ci, l’accent est mis sur le fait que la visualisation d’une représentation équivaut inévitablement à une interprétation et que cette résonance peut s’avérer problématique.

Illustration de la problématique liée à l’interprétation d’une visualisation: les données visualisées dans le graphique a) déclenchent inévitablement une interprétation des données par l’observateur - ici représentée par une ligne de tendance droite dans le graphique b). Cependant, cette interprétation n’est pas nécessairement correcte et peut même contredire la tendance réelle du graphique c), voire entraîner de graves conséquences.

Le système lent et le système rapide

Le fait d’expliquer pourquoi nous rencontrons des problèmes avec des tâches comme celle évoquée au départ permet de répondre également à la question du rapport avec la visualisation des données. Le prix Nobel Daniel Kahneman a très clairement décrit deux «modes de fonctionnement» de notre cerveau: le fonctionnement du système rapide et celui du système de pensée lent et logique. Le système rapide nous aide à réagir efficacement aux stimuli qui nous affectent en permanence et à en tirer inconsciemment des conclusions. Ce système est toutefois soumis à des biais cognitifs qui doivent être corrigés de manière «fastidieuse» par le système lent. Comme les visualisations de données sont aussi interprétées de manière immédiate et inconsciente par le système rapide, il est extrêmement important de garder ce contexte à l’esprit afin de parvenir activement à une interprétation logiquement cohérente des données «avec l’aide» du système lent mais réfléchi. Les exemples suivants sont destinés à vous sensibiliser davantage et à renforcer votre prise de conscience des imprécisions de vos propres chaînes déductives.

Et cela peut s’avérer très utile. Car assez souvent, les représentations ne permettent aucune conclusion fondée, mais elles la suggèrent... et exigent la plus grande concentration de la part de l’observateur.

Confusion fois Pi au carré

Un bon exemple de visualisation qui transmet «secrètement» son intention est l’illustration suivante du Produit national brut de divers pays en 2016 (qui a effectivement été utilisé de la sorte par les sources officielles).

Un cercle d’une taille impressionnante illustre la force de l’économie américaine par rapport aux trois autres nations. Il semble crier: «Vous pouvez oublier les valeurs concrètes! Vous êtes tout à fait capable de comparer divers cercles.»

Oui, j’en suis capable! Mais malheureusement pas au point de voir immédiatement la mise à l’échelle des différents cercles. En effet, dans ce cas, le rayon de chaque cercle a été mis à l’échelle en fonction de la performance économique. Il s’agit d’une information importante, comme l’illustre la figure suivante. Car les mêmes chiffres donnent une image différente lorsque l’aire du cercle, et non son rayon, est mise à l’échelle.

Les cercles sont maintenant beaucoup plus proches en taille et la différence entre les pays semble donc moindre. Bien sûr, il n’y a rien de mal à utiliser des propriétés différentes comme le rayon ou la surface pour la mise à l’échelle. Cela illustre simplement très bien la facilité avec laquelle notre première impression est façonnée par la présentation plutôt que par les chiffres réels, car le système rapide essaie de nous aider du mieux qu’il peut.

Pour le puriste qui se préoccupe avant tout de la compréhension et de la clarté des données communiquées, la question justifiée se pose: pourquoi les données devraient-elles absolument être représentées sous forme de cercles? Comme nous l’avons vu dans la partie précédente, les cercles ne sont pas notre plus grand atout: ni lorsqu’il s’agit d’estimer les angles, ni lorsque la surface est utilisée comme repère de comparaison des valeurs. Comme souvent, la réponse est «Google...» non, «faites confiance au diagramme à barres.»

#showyourdata

Mais les diagrammes à barres ont également leurs limites. Surtout lorsqu’ils ne représentent pas des valeurs pures, mais plutôt des mesures telles que la médiane ou la moyenne et qu’ils sont accompagnés de barres d’erreur. Ensuite, chaque barre est représentative de la répartition sous-jacente des points de données, ce qui peut s’avérer problématique, comme le montre cette illustration reprise d’un article scientifique:

La hauteur des deux barres dans la section A du graphique indique la valeur moyenne de la répartition respective. Toutefois, les sections B-E montrent très clairement que ces valeurs moyennes (ainsi que les barres d’erreur associées) peuvent être générées par des nuages de données très différents. Les points de données individuels peuvent B) être répartis de manière symétrique autour de la moyenne, C) contenir des valeurs aberrantes qui influencent fortement la moyenne, D) être produits de manière bimodale (ou, bien sûr, multimodale) dans des plages de valeurs délimitées, ou E) varier fortement en nombre entre les répartitions de comparaison.

Tous ces aspects jouent un rôle central dans l’interprétation des données, mais ne sont pas visibles dans la représentation sous forme de barres. L’observateur qui ne dispose que de la section A n’a pas accès à la vérité sous-jacente concernant les répartitions. Au lieu de cela, l’affirmation selon laquelle les deux moyennes présentent des différences significatives gagne en importance.

En règle générale, il est recommandé d’examiner tous les points de données dans la mesure du possible! Cela permet de tirer ses propres conclusions avant d’activer la «machine à interpréter» à la vue des barres.

Conclusion

Les bonnes représentations ne sont pas une évidence et ne doivent donc pas être considérées comme acquises. Que ce soit par des décisions conscientes ou inconscientes, une visualisation peut influencer l’évaluation des données présentées, et donc avoir des conséquences importantes. Les observateurs en particulier sont souvent inconscients du poids des représentations et consomment les informations données sans vraiment les trier consciemment. Mais étant donné le rôle central que jouent les données dans notre société, nous devrions prendre le temps d’activer notre système lent lors de leur interprétation.

Bien évidemment, la visualisation des données n’est qu’un aspect de leur interprétation. Et le chemin que nous avons emprunté avec les exemples présentés mène tout droit aux inconvénients des statistiques. Si vous souhaitez vous pencher un peu plus sur la question, vous pouvez utiliser le paradoxe de Simpson pour découvrir des résultats étonnants donnés par des agrégations finalement simples; ou laisser Tyler Vigen vous démontrer de manière impressionnante que la consommation de margarine peut expliquer le taux de divorce, seulement si vous êtes prêt à mettre sur le même plan corrélation et causalité. Vous voyez, la fin de cet article n’est que le début de notre travail qui consiste à développer une meilleure compréhension de l’interprétation des données. Mais si nous parvenons à être vigilants, nous avons déjà franchi l’étape la plus importante.

Et nous pouvons sans tarder exercer notre vigilance dans un nouveau domaine. Dans le prochain article, j’aborderai le problème des approches modernes de l’IA qui nécessitent tellement de données d’entrée qu’il est impossible de les traiter de manière structurée, et il n’est donc pas toujours évident de savoir sur quoi l’algorithme est réellement basé.

Autres parties de cette série de blog

Photo Ralf Schmidt

Auteur Ralf Schmidt

Ralf Schmidt est consultant professionnel Digital & Innovation et membre de la communauté de pratique Data & AI chez adesso Suisse SA. Il est expert en analyse et intégration de données en mettant l’accent sur la transformation des entreprises en une organisation "data-driven" (guidée par les données).

Sauvegarder cette page. Supprimer cette page.