Publié le 19/07/2021 par Véronique Méliot | Mis à jour le : 16/12/2021 | 10 min de lecture
Sujets : Articque Platform, Carte d'actualité, Cartographie, Data
Atlas Covid-19 : la DataPrep pour optimiser les liaisons avec les données
Lors de la Journée du Géodécisionnel 2021, Martin Lienesch, coordinateur du pôle Projets, et Mélissa Billon, statisticienne stagiaire et étudiante en M1 Economiste d’entreprise à Tours, ont présenté l’Atlas Covid-19 réalisé par Articque. Cet Atlas a été créé au début de la pandémie et est mis à jour quotidiennement.
Ils sont également revenus sur le travail conséquent de R&D réalisé pour faire la data preparation (ou « DataPrep ») des données open data représentées dans cet Atlas et automatiser sa mise à jour.
Sommaire
- Pourquoi utiliser la carte pour suivre une épidémie ?
- Epidémiologie et open data : une masse de données à exploiter
- La DataPrep : organiser les données pour gagner du temps
- Les gains de la DataPrep
- Présentation de l’Atlas France et Monde
- Pour aller plus loin dans l’analyse : l’étude de Melissa Billon sur le COVID-19 aux Etats-Unis
- Conclusion
1. Pourquoi utiliser la carte pour suivre une épidémie ?
Martin Lienesch a commencé par exposer les différents usages de la carte lors d’une situation épidémique. C’est d’abord un medium de communication : avec la pandémie de Covid-19, le grand public s’est habitué à voir les données phares de l’épidémie représentées sur des cartes. Celles-ci viennent appuyer les informations données par le gouvernement et justifier ses décisions. Et pour cause : la carte est un support visuel et pédagogique, qui permet de représenter les informations de manière efficace et rapidement lisible.
Dans le cas d’une épidémie, c’est aussi un outil géodécisionnel, et ce depuis le XIXème siècle. Le premier usage géodécisionnel de la carte a eu lieu lors de l’épidémie de choléra de Londres en 1854, où John Snow a représenté sur une carte du quartier de Soho les différents points d’eau et les cas mortels de choléra. Cette carte a permis d’établir une corrélation entre ces deux données, et donc de comprendre les tenants et aboutissants de l’épidémie. Cette découverte a influencé les décideurs politiques : c’est en effet l’un des éléments qui a poussé la ville de Londres à entamer de grands travaux pour construire le premier réseau d’égouts moderne en Europe.
Dans le cas d’une épidémie, la carte permet donc de prendre du recul pour faire apparaître des corrélations révélatrices entre différentes données sans lien entre elles a priori. C’est aussi un excellent medium de communication.
2. Epidémiologie et open data : une masse de données à exploiter
L’accès à la donnée a évolué depuis le XIXème siècle : nous sommes à une époque où la compréhension des citoyens est essentielle pour la décision politique. Pour cela, ils doivent avoir accès à une information libre et non biaisée. Dans cette logique, les temps sont à l’open data : les Etats européens, ainsi que de nombreux pays à travers le monde, publient leurs données pour les rendre accessibles au grand public. La directive européenne Inspire (2007) pousse par exemple l’inter-opérabilité des bases de données pour faciliter la diffusion et la réutilisation de l’information géographique en Europe.
On dispose donc de nombreuses bases de données ouvertes qui créent un écosystème favorable à l’exploitation toujours plus poussée de ces données. L’équipe de Martin Lienesch a ainsi utilisé des données disponibles sur Data gouv et sur Our world in data pour réaliser l’Atlas Articque sur le Covid-19.
Cependant, disposer de toutes ces données ne veut pas dire qu’elles sont prêtes à être intégrées directement dans un outil de cartographie tel qu’Articque Platform ou Cartes & Données Online. Les retravailler reste indispensable.
3. La DataPrep : organiser les données pour gagner du temps
Au début de la création de l’Atlas COVID-19, l’équipe de cartographes d’Articque téléchargeait quotidiennement des fichiers de données issues de sources officielles, qu’elle mettait sur des serveurs. Le problème : cette opération était très chronophage, forcément répétitive, sans compter que les fichiers changeaient parfois de structure d’un jour sur l’autre.
L’équipe Articque a donc eu pour projet de mettre en place la DataPrep pour faire passer ces fichiers de manière automatique dans des bases de données. Cela impliquait aussi de les traiter pour les rendre directement exploitables dans les solutions Articque. L’objectif de cette opération : gagner du temps-homme précieux tout en mettant quotidiennement et automatiquement à jour l’atlas.
Après mise en place de ce process, les étapes sont désormais les suivantes :
Étape 1 : téléchargement des données sur un serveur et intégration en base de données
- Une tâche planifiée lance chaque jour un script sur un serveur de téléchargement des fichiers sources,
- Elle les renomme,
- Elle envoie des alertes automatiques via mail pour indiquer si tout s’est bien téléchargé ou pas.
- Les données sont intégrées en bases de données (PostgreSQL). Là encore, l’équipe reçoit une alerte mail pour dire si tout s’est bien passé.
Étape 2 : mise en forme des données dans la base
Le process fait appel aux fonctions de PostgreSQL pour mettre en forme les données dans la base de donnée en réalisant des opérations de jointure, fusion, filtrage, agrégation afin de passer des tables d’import aux tables de production. La base de données va être mise en forme avec des opérations spatiales ou statistiques pour l’exploiter par la suite dans les cartes.
Étape 3 : Articque Platform prend le relais
Les modules Base de données permettent d’aller chercher ces données mises en forme. On peut réaliser des jointures, calculs, filtres pour les utiliser dans des modèles de représentation et construire l’atlas. Une tâche planifiée génère alors l’Organigramme, qui se met à jour automatiquement tous les matins à 5h.
Ce système permet donc d’avoir une mise à jour automatique des données, quasiment sans aucune intervention humaine. Celle-ci est uniquement nécessaire si les alertes automatiques soulèvent un problème lors du téléchargement des fichiers sources ou de leur intégration en base de données. Dans ce cas, un expert Articque va voir d’où provient le problème pour y remédier (fichiers qui ont changé de format, nouveaux indicateurs présents dans les BDD…)
4. Les gains de la DataPrep
Le résultat, dans Articque Plaform, est un Organigramme assez épuré car toutes les opérations de traitement de données ont lieu lors de la DataPrep. Cela simplifie le travail de l’utilisateur.
En termes de gain de temps, l’équipe est passée d’une demi journée-homme de travail quotidienne à 3 ou 4 jours de travail en tout pour réaliser la DataPrep et créer l’Atlas, qui fonctionne désormais quasi sans intervention humaine. Automatiser le processus a donc eu un avantage indéniable, sans compter que la DataPrep permet de traiter des volumes de donnés largement supérieurs à ce qui était possible avant. Il s’agit donc d’un incontournable dans l’avenir des systèmes d’information (SI).
5. Présentation de l’Atlas France et Monde
L’Atlas réalisé est à la disposition du grand public et propose de nombreux indicateurs essentiels sur la France :
- taux d’incidence,
- tests réalisés,
- hospitalisations,
- progression de la vaccination,
- R effectif (indicateur permettant de savoir si l’épidémie régresse ou se développe),
- Taux de variant Delta,
- localisation des centres de vaccination, avec une fiche au clic donnant accès à de nombreuses informations (adresse, horaires, téléphone, lien vers le site web pour prendre rendez-vous…)
- …
Une animation temporelle permet également de visualiser le développement de l’épidémie dans le temps et dans l’espace. Les données sont disponibles au niveau départemental ou national.
L’Atlas Monde donne également à voir de nombreuses données (il convient cependant d’être plus critique avec les données selon les pays) :
- R effectif,
- nombre de cas de Covid-19,
- nombre de personnes vaccinées,
- évolution dans le temps
- …
6. Pour aller plus loin dans l’analyse : l’étude de Mélissa Billon sur le Covid-19 aux États-Unis
Une fois l’automatisation de l’Atlas Covid-19 France et Monde faite, Mélissa Billon, statisticienne en stage au service Projets d’Articque, a réalisé une étude sur les données disponibles sur les Etats-Unis pour identifier les facteurs de propagation de l’épidémie dans ce pays. Le but était de comprendre comment le Covid-19 se développe, et quel est le degré d’influence des différents facteurs.
Mélissa a choisi d’étudier la pandémie aux Etats-Unis car cela lui donnait accès à des indicateurs qui ne sont pas accessibles en France (ex : données sur les origines ethniques, sur les religions…). Elle a également pu réaliser une étude à une maille plus précise que l’échelle départementale utilisée sur l’Atlas France, en travaillant à la maille des counties américains (l’équivalent de nos municipalités). Elle a utilisé des données disponibles sur des sites gouvernementaux et un système de gestion de base de données relationnelle afin de constituer une seule BDD, qu’elle a ensuite exploitée grâce à Articque Platform. Enfin, elle a réalisé des statistiques descriptives, analyses de données exploratoires et classifications pour enrichir son étude. Elle a utilisé en particulier l’ACP (Analyse en Composantes Principales), pour synthétiser les informations et faire ressortir des corrélations entre variables.
Tout cela s’est traduit dans un Atlas visuel à l’échelle des Etats-Unis, qui présente de nombreux indicateurs :
- nombre de cas de Covid-19 en tout et par 100 000 habitants,
- nombre de morts du Covid-19,
- données de santé : espérance de vie, obésité, assurance maladie,
- données sur les conditions de vie : logement, transports,
- données de population : éducation, taille des familles, religions, origines ethniques, âge…
- données sur la richesse : pauvreté, revenus personnels…
L’analyse de l’ACP donne clairement à voir une division du pays en deux parties, avec, en bleu, des revenus plus élevés et une espérance de vie plus forte, et en jaune, des conditions de vie moins favorables (obésité, espérance de vie plus faible…). Cette division correspond à une inégalité des répartitions des cas de Covid-19, ce qui tend à montrer un lien entre ces différents indicateurs.
Mélissa Billon va désormais étendre son analyse en la comparant avec des études similaires réalisées par Hervé Théry à l’échelle du Brésil afin de repérer des points communs ou des disparités, et de tirer des conclusions supplémentaires.
7. Conclusion
L’Atlas d’Articque sur le suivi de la crise du Covid-19 a été l’occasion pour les équipes de se plonger dans le développement de la DataPrep, avec pour objectif d’automatiser le traitement de larges volumes de données. Cela représente in fine un grand gain de temps pour les équipes.
Ce développement de la DataPrep est désormais l’un des axes principaux de la R&D d’Articque. Le but est de la mettre à la portée des utilisateurs d’Articque Platform, sans qu’ils aient besoin d’être géomaticiens ou spécialistes. Pour en savoir plus sur cette nouveauté, visionnez l’intervention de Jérôme Guyot, Directeur Produits d’Articque, qui en parle lors de la présentation des innovations 2021.
À propos de l’auteur : Véronique Méliot
J’ai rejoint Articque en 2017 pour créer des contenus web sur la cartographie et ses nombreuses applications métier, dans tous les domaines d’activité.