LE MANAGEMENT DES DONNÉES : Transformer les données en informations utiles
COLLECTER, PRÉPARER, ANALYSER ET RESTITUER
Les données sont un composant clé pour un nombre croissant de cas d’usage (use cases), au point que l’approche centrée sur ces derniers ne répond plus aux besoins de souplesse et de rapidité de mise sur le marché (time-to-market).
Passer des données brutes aux données Gold selon votre activité
Regrouper puis clusteriser selon chaque objectif : analytique, opérationnel, ML et data science …
Consommer des données personnalisées, fiables et tracées dans des espaces dédiés
Une évolution vers une logique plus ouverte est nécessaire : fournir des données consommables aux différents acteurs, sans préjuger des cas d’usage qui évoluent dans le temps. Les données deviennent un produit dont la consommation est sous la responsabilité des services qui les produisent.
Dans ce contexte, il ne suffit plus de faire circuler les données, mais de leur donner un sens qui les valorise. D’où la nécessité d’un écosystème dédié, combinant des outils d’intégration et de plateformisation, auxquels s’ajoutent des fonctions de mise en format et de mise en qualité.
Cet écosystème a vu émerger la notion de pipeline de données pour regrouper l’ensemble des étapes, de la collecte au partage des données, directement consommées par les opérationnels.
Une évolution vers une logique plus ouverte est nécessaire : fournir des données consommables aux différents acteurs, sans préjuger des cas d’usage qui évoluent dans le temps. Les données deviennent un produit dont la consommation est sous la responsabilité des services qui les produisent.
Dans ce contexte, il ne suffit plus de faire circuler les données, mais de leur donner un sens qui les valorise. D’où la nécessité d’un écosystème dédié, combinant des outils d’intégration et de plateformisation, auxquels s’ajoutent des fonctions de mise en format et de mise en qualité.
Cet écosystème a vu émerger la notion de pipeline de données pour regrouper l’ensemble des étapes, de la collecte au partage des données, directement consommées par les opérationnels.
Cependant, il n’existe pas d’architecture unique qui réponde à toutes les exigences.
Au moins trois éléments sont structurants :
- Le type de données : on gagnera, par exemple, à gérer spécifiquement les données de référence dans des MDM. De même, on ne traite pas les données individuelles mises à jour en temps réel de la même manière que les données populationnelles, qui nécessitent des traitements séquentiels dans le temps.
- Les volumes de données : par exemple, le nombre d’enregistrements d’actifs patrimoniaux n’a rien en commun avec le volume des transactions. De plus, les services BtoB ne sont pas comparables à la vente en magasin de milliers d’articles différents.
- L’exigence de rafraîchissement : les besoins d’analyse s’appuient souvent sur des données froides, tandis que l’animation du parcours client repose sur une logique événementielle utilisant des données chaudes.
Pour l’entreprise, le management des données est devenu un enjeu crucial qui doit allier réponse aux attentes métiers, scalabilité, sécurité et maîtrise des coûts.
La mutualisation des outils de gestion des données en fonction de leurs rôles, au sein d’une plateformisation des données, permet de maîtriser la technologie, de construire une vision à 360° et de renforcer l’efficacité opérationnelle au service d’expériences utilisateurs, internes et externes, réussies. Cela contribue à la performance tout en offrant la flexibilité nécessaire à court et moyen terme.
Le traitement des données
Le management des données se situe entre la gouvernance des données, qui définit les principes (rôles, règles, etc.), et l’architecture qui soutient sa mise en œuvre.
L’ensemble peut être regroupé sous le terme de traitement des données (data processing), dont les principes sont les suivants :
- Inclure des fonctions de transformation :
- Rendre les données brutes interrogeables (via SQL, Python, etc.), quel que soit leur format initial : structuré, semi-structuré ou non structuré.
- Aligner les métadonnées sur le glossaire de l’entreprise, tel qu’il apparaît dans le Data Catalog.
- Assurer la qualité des données : éliminer les bruits, normaliser, appliquer des règles de gestion, dédupliquer, enrichir avec des fournisseurs externes, etc.
- Stocker les données pour faciliter l’accès et les traitements :
- Utiliser un support et un format adaptés aux volumes et à la disponibilité attendus.
- Adopter un modèle qui facilite l’accès et les performances des requêtes.
- Cloisonner par domaine ou workspace pour optimiser les performances de calcul (compute).
- Stocker les données pour faciliter l’accès et les traitements :
- Analytique : préparer les données et créer des indicateurs utilisés pour le reporting, les tableaux de bord et toute forme de visualisation.
- Opérationnel : créer des données spécifiques pour chaque type d’acteur et les rendre accessibles, y compris en leur permettant de construire ses propres métadonnées, telles que des indicateurs complémentaires.
- ML et Data Science : fournir une base de données aussi large que possible pour permettre aux experts d’obtenir le meilleur taux de certitude.
- Partage des données : proposer les données dans un format interrogeable, avec une logique de "marketplace" définissant qui a le droit d’accès à quoi.
Maîtrise et sécurisation des données
Une fois les pipelines de données mis en place, des besoins connexes apparaissent pour maîtriser la transformation des données et s’assurer d’un partage sécurisé.
Parmi ces besoins, citons au moins les trois suivants :
- L’observabilité : à mesure que la complexité des systèmes augmente, le maintien de leurs performances et de leur fiabilité devient un défi. C’est là que les capacités de surveillance (monitoring) et d’observabilité jouent un rôle crucial. Ne pas prendre en compte cet aspect expose l’entreprise à des défaillances multiples et à leurs impacts potentiels.
- Le lineage (traçabilité) : il s’agit d’améliorer la connaissance des données afin de mieux analyser et maîtriser les impacts, qu’ils soient souhaités ou non, tout en répondant à un objectif réglementaire : être capable de justifier l’origine de chaque donnée.
- L’anonymisation, la pseudonymisation, le masquage des données : les contraintes juridiques (notamment sur les données sensibles) viennent renforcer la nécessité de maîtriser qui a le droit de voir quoi et à quel niveau de granularité.