Blogue

juin 2017

Et si on parlait de stats ?

  • Article

Le type de visualisation de données qu’on utilise dépend ultimement du type de données disponibles et de ce que l’on cherche à accomplir. Explorons les différents types de données et les façons dont on les met généralement de l’avant dans le cadre d’une visualisation.

Factoids et factlets

Factoid ou factlet ? Ces deux termes, qui désignent tous les deux une information brève, n’ont pas d’équivalents français, ce qui n’empêche pas les médias d’expression anglaise de s’en emparer. Selon CNN, un factoid est une « information peu connue – triviale, mais intéressante ». Il semble toutefois y avoir un débat sémantique à ce sujet. 

Voici de quelle façon se prononce le New York Times : 

« …factoid a trois sens. Le premier est accusatoire : ‘désinformation qui prétend être un fait ; ou, une fausse statistique’. Le deuxième est neutre : ‘apparemment, mais pas nécessairement, factuel’ ; le troisième est la version de CNN : ‘information peu connue – triviale, mais intéressante’. » 

Présumons donc que nous sommes en présence de factlets : des faits brefs. 

Voici un exemple : 

« Aux Etats-Unis, l’inégalité des revenus, ou l’écart entre les riches et le reste de la population, s’accroît de façon soutenue depuis plusieurs années… En 2009, les PDG des grandes entreprises touchaient en moyenne 263 fois la compensation moyenne des travailleurs américains. » 

(www.inequality.org) 

Les factlets sont éminemment partageables parce qu’ils sont courts et intéressants. Ils sont souvent contre-intuitifs ou surprenants, et on pourrait sans problème les mentionner en passant dans une conversation. On retrouve généralement les factlets dans les communiqués de presse, les tweets et les articles. Les graphistes les utilisent souvent dans les infographiques.  

Statistiques

Les statistiques prennent souvent la forme de pourcentages, comme 62% (soixante-deux pourcent), mais le même concept peut être exprimé comme 62/100, ou 0.62, selon ce qui est le plus percutant dans le contexte de la visualisation.  

Données agrégées

Les données agrégées comprennent des statistiques à grande échelle qui couvrent une sélection d’éléments (années, pays, groupes de personnes, etc.)

Parce qu’elles sont souvent représentées visuellement, les données agrégées permettent à l’utilisateur de repérer rapidement les tendances. Fournir les statistiques en tant que telles permet aussi les comparaisons détaillées, particulièrement si l’on offre des options de filtres interactifs qui permettent à l’utilisateur d’explorer les données. 

Les données agrégées sont le plus souvent utilisées dans les articles, les rapports, les diagrammes et les visualisations de données plus sophistiquées.

Données brutes

Les données brutes ne sont pas belles à voir. Elles ressemblent à ceci :   

Les données brutes peuvent être difficiles à comprendre sans les connaissances et les outils nécessaires pour les explorer et découvrir des résultats intéressants. Quand c’est le cas, on peut les transformer en quelque chose qui ressemble à ceci :  

Si vous voulez jeter un œil dans les coulisses, là où sont préparées et normalisées les bases de données, je vous recommande le très bon billet sur les APIs que mon partenaire d’affaires Sébastien a rédigé chez O’Reilly. 

Voici un extrait : 

« …les données sont rarement disponibles dans un format idéal. Très souvent, les bases de données contiennent une multitude de formats (les dates sont souvent coupables dans ce cas-ci : bien souvent, les AAAA-MM-JJ cohabitent avec les JJ/MM/AAAA, et même souvent avec les MM/JJ/AAAA). Résultat ? Il faut presque toujours normaliser les données pour s’assurer que tous les champs sont dans le même format. La normalisation n’est cependant pas la seule tâche. Si on veut que nos données restent à jour, il faut aussi s’assurer que le format des données les plus récentes n’a pas changé depuis la dernière fois (champs mélangés, ajoutés, retirés, etc.). Dans un tel cas, il faudrait créer un logiciel pour valider les nouvelles données. Cela nécessite une manière automatisée d’extraire les données. Une fois qu’on a obtenu des données valides et normalisées, on peut éventuellement transformer les données dans un format adéquat en vue des visualisations. »

Big data

Lors d’une conférence d’affaires, quelqu’un avait comparé le big data au sexe quand on est adolescent : tout le monde en parle ; personne ne sait vraiment comment ça fonctionne ; tout le monde pense que tous les autres le font ; donc tout le monde prétend le faire.  

On parle beaucoup du big data dernièrement, et nombreux sont ceux qui s’interrogent sur l’impact que cela aura sur leur organisation. Évidemment, le volume de données continuera de croître, mais la question en suspens est : qu’en fera-t-on ? 

Mais les grosses bases de données ne sont pas toujours les meilleures : on peut créer des trames narratives tout aussi convaincantes avec de petites bases de données. Le plus important est la qualité de la base de données (La base de données a-t-elle été nettoyée ? Y a-t-il des éléments manquants ? Quelle histoire est racontée ? Est-ce que les données sont valides et correctes ?). 

Au bout du compte, si la base de données n’est pas fiable, la visualisation de données ne le sera pas non plus. 

Auteur

Rebecca Galloway