Compte-rendu de la formation « Initiation au data journalisme » du 31 mars 2017, menée par Tatiana Kalouguine.
9 journalistes étaient présents (sur un nombre plus important d’inscrits) pour cette formation dont le titre rappelait qu’elle s’adressait à des novices. De ce point de vue, elle était parfaite. Ce compte-rendu peut sembler peu clair pour les personnes n’ayant pas assisté à l’atelier, mais il importe de laisser une trace. Après un tour de table pour connaître le niveau et les attentes de chacun, Tatiana Kalouguine a déroulé sa formation qu’elle maîtrise. Elle précise que d’autres modules plus fournis sont possibles sur 3 jours ou même 1 semaine.
Déroulé
- Qu’est-ce que le data journalisme (fonds et forme)
- À quoi sert le data journalisme
- Où trouver les sources ?
- Tirer quelque chose des sources et créer une data viz (de façon succincte)
Au passage, elle rappelle que face aux difficultés énoncées par certains journalistes pour obtenir des données, il est important de saisir la CADA, créée en 1978, la commission d’accès aux documents administratifs. Même si aucune réponse ne peut être fournie rapidement, cette instance a pour responsabilité de contacter les pourvoyeurs d’infos et de les obliger à rendre accessibles les données.
1. Qu’est-ce que le data journalisme
Trouver des infos, en tirer un angle, recouper les données, les mettre en forme, donner à comprendre la complexité, utiliser les bases pour aller en profondeur, utiliser les moyens informatiques pour collecter, traiter et transmettre, faire du journalisme sur la base des nombres plutôt que des interviews collectées (Simon Rogers du Guardian)... Plusieurs définitions suivant les journalistes… À noter que la data visualisation n’est pas systématiquement associée au data journalisme. C’est le point de vue défendu par JM Manach par exemple.
2. À quoi sert-il ?
Sortir de l’anecdote, montrer les tendances derrière une actu, rendre intelligibles des sujets complexes, remettre les faits dans leur contexte, donner des ordres de grandeur, prouver une hypothèse en reliant des données… Là encore, foison de propositions.
Pour la dernière, cf. le travail de Steve Doig sur les dégâts causés par l’ouragan Andrew aux USA où il a pu mettre en évidence que ce sont les habitations les plus récentes qui ont été les plus touchées parce que les matériaux de construction étaient moins bons. Et pourquoi étaient-ils moins bons ? Parce que les bénéfices dégagés servaient à financer des campagnes électorales.
3. Où trouver les sources ?
Nous avons appris à scrapper des données, autrement dit à aller les avaler. Les données sont partout : sur les sites marchands, sur les sites d’échanges, les sites de locations, etc. Une fois aspirées, on peut faire des corrélations. Attention, corrélation n’est pas causalité. Et faire de la visualisation de corrélations peut amener à des contre-vérités. Ex. : vous cherchez la part des maisons individuelles louées sur Airbnb puis vous cherchez les propriétaires qui acceptent les clients avant 12 h et vous en déduisez que quand on loue une maison c’est qu’on veut arriver de bonne heure !
Plusieurs exemples sont fournis et analysés pendant la session. Et plusieurs modes de transmission sont présentés aussi. La data viz est aujourd’hui foisonnante d’idées nouvelles.
Parmi les sources, UNData, Dataeuropa, Amnesty (aller voir sur les sites en bas de page si vous ne voyez pas « ressources » qui est souvent un accès aux données brutes), les ministères, datagouv, certaines communes… Pour ces sources l’aspiration sera assez aisée. Pour d’autres sites, les données sont cachées. Dans ce cas, courrier à la CADA ! La démarche qui consiste à exiger le respect de la loi et la mise à dispo des données s’appelle le Wobbing. Une rencontre annuelle à Bruxelles y est dédiée. Sur twitter, aller voir aussi twitter wobbing, liste gérée par Brigitte Alfter.
On peut aussi crééer sa propre source en faisant appel au public et en demandant de renseigner un champ. On créer un formulaire et roule ma poule. Ex « combien de médecins dans votre ville ? »
4. Traiter la donnée
Tableurs Excel, Numbers (pour apple), Google Spreadsheet ou des logiciels élaborés comme « R ».
Cela permet de faire de la collecte de données (scrapping pour mettre dans un format cohérent), de nettoyer les données quand elles ne sont pas structurées ou en unités différentes, d’analyser puis de faire de la visualisation.
Ensuite, Tatiana propose une séance de TP avec des chiffres sur la mortalité précoce chez les personnes ayant une tumeur. (issu du site score santé, qui contient beaucoup de données médicales) On apprend à se familiariser avec Swarperwiki, Convextra et Infogr.am