LE MANAGEMENT DES DONNÉES : Transformer les données en informations utiles

oil-pipeline-picture

COLLECTER, PRÉPARER, ANALYSER ET RESTITUER

Les données sont un composant clé pour un nombre croissant de cas d’usage (use cases), au point que l’approche centrée sur ces derniers ne répond plus aux besoins de souplesse et de rapidité de mise sur le marché (time-to-market).

Passer des données brutes aux données Gold selon votre activité​

Regrouper puis clusteriser selon chaque objectif : analytique, opérationnel, ML et data science …​

Consommer des données personnalisées, fiables et tracées​ dans des espaces dédiés

Une évolution vers une logique plus ouverte est nécessaire : fournir des données consommables aux différents acteurs, sans préjuger des cas d’usage qui évoluent dans le temps. Les données deviennent un produit dont la consommation est sous la responsabilité des services qui les produisent.

Dans ce contexte, il ne suffit plus de faire circuler les données, mais de leur donner un sens qui les valorise. D’où la nécessité d’un écosystème dédié, combinant des outils d’intégration et de plateformisation, auxquels s’ajoutent des fonctions de mise en format et de mise en qualité.


Cet écosystème a vu émerger la notion de pipeline de données pour regrouper l’ensemble des étapes, de la collecte au partage des données, directement consommées par les opérationnels.

Data Management
Data Management

Une évolution vers une logique plus ouverte est nécessaire : fournir des données consommables aux différents acteurs, sans préjuger des cas d’usage qui évoluent dans le temps. Les données deviennent un produit dont la consommation est sous la responsabilité des services qui les produisent.

Dans ce contexte, il ne suffit plus de faire circuler les données, mais de leur donner un sens qui les valorise. D’où la nécessité d’un écosystème dédié, combinant des outils d’intégration et de plateformisation, auxquels s’ajoutent des fonctions de mise en format et de mise en qualité.


Cet écosystème a vu émerger la notion de pipeline de données pour regrouper l’ensemble des étapes, de la collecte au partage des données, directement consommées par les opérationnels.

Cependant, il n’existe pas d’architecture unique qui réponde à toutes les exigences.

Au moins trois éléments sont structurants :

Pour l’entreprise, le management des données est devenu un enjeu crucial qui doit allier réponse aux attentes métiers, scalabilité, sécurité et maîtrise des coûts.
La mutualisation des outils de gestion des données en fonction de leurs rôles, au sein d’une plateformisation des données, permet de maîtriser la technologie, de construire une vision à 360° et de renforcer l’efficacité opérationnelle au service d’expériences utilisateurs, internes et externes, réussies. Cela contribue à la performance tout en offrant la flexibilité nécessaire à court et moyen terme.

Le traitement des données

Le management des données se situe entre la gouvernance des données, qui définit les principes (rôles, règles, etc.), et l’architecture qui soutient sa mise en œuvre.

L’ensemble peut être regroupé sous le terme de traitement des données (data processing), dont les principes sont les suivants :

Maîtrise et sécurisation des données

Une fois les pipelines de données mis en place, des besoins connexes apparaissent pour maîtriser la transformation des données et s’assurer d’un partage sécurisé.


Parmi ces besoins, citons au moins les trois suivants :

Nos experts vous accompagnent dans la réussite de vos projets data

La Data Quality

Un déficit de qualité des données pénalise l’efficacité des processus internes, mais a aussi des impacts sur l’analyse des performances. Les données étant de plus en plus exposées et partagées, la qualité des données impacte également l’expérience Client, et expose au risque de pénalités pour non-respect des contraintes réglementaires.

La qualité s’inscrit donc dans la gouvernance globale et son amélioration doit tenir compte des enjeux suivants :

Les technologies pour améliorer la qualité des données sont directement liées à ces enjeux :

Notons une évolution majeure des outils : la généralisation du low code – No code, pour définir et simuler des règles de qualité en impliquant les populations métiers et data analysts dès leur conception et pour leur paramétrage.

Data Processing

La Data Processing rassemble l’ensemble des traitements qui transforment des données en informations utiles.  

L’étape initiale de la collecte des données s’est complexifiée avec le nombre de types de sources possibles : bases de données, applications mais aussi médias sociaux, capteurs IoT etc. Il reste néanmoins possible de mutualiser les ressources selon des logiques « d’APIsation » des sources et des outils middleware.

La préparation des données combine la mise en qualité avec l’organisation et la structuration des données. Elle se décline potentiellement à toutes les étapes, aussi bien dans les phases d’ingestion des données brutes que dans la personnalisation pour des domaines ou des acteurs spécifiques.

Les solutions de stockage s’organisent le plus souvent sur plusieurs couches afin de faciliter l’ingénierie et l’analyse. L’organisation des données persistées doit répondre aux objectifs métiers. Il convient selon ces objectifs de proposer des types de Datasets différents, complétés, de vues ou de virtualisations, au sein d’une architecture personnalisée.

L’analyse des données débouche sur la préparation des données pour des solutions de visualisation, mais aussi se déploie suivant des logiques plus innovantes : Machine Learning, IA etc.

Notons enfin l’émergence de la logique de Marketplace pour structurer le partage des données selon une « clusterisation » des espaces de stockage et une gestion fine des droits d’accès.  

les pipelines de données

Le pipeline se distingue de la simple interface en ce qu’il cumule plusieurs étapes dans un processus automatisé.

Il peut associer plusieurs technologies d’ingestion, de transformation, de stockage et de partage des données.

L’adoption du cloud a permis aux entreprises de bénéficier d’une scalabilité et d’une élasticité sans précédent pour leurs data pipelines, permettant une adaptation dynamique aux variations de volume grâce à des ressources de calcul et de stockage à la demande.

Cet enjeu des volumes se doit d’être concilié avec une évolution forte, surtout dans l’optique d’apporter une qualité de service aux opérationnels, à savoir le traitement des données en temps réel / streaming. D’où l’émergence de réponses technologiques à ces attentes métiers via des solutions qui traitent des flux de messaging volumineux.

Pour être sécurisés et fiables, ces pipelines doivent être gérés au sein d’une gouvernance technique forte : gestion des accès, observabilité, maitrise des coûts variables …

Data Lineage

La traçabilité des données répond à plusieurs objectifs :

Il ne s’agit donc pas seulement de traquer l’origine d’une information mais en plus de maitriser la gouvernance dont elle a bénéficié. Ceci permettra notamment :

La mise en place de pipelines a rendu cet enjeu plus complexe, combiné notamment avec l’utilisation du Cloud, et justifie des outils dédiés. Dans ce contexte, il apparaît de plus en plus intéressant d’intégrer ces modules dans des plateformes étendues de Data gouvernance.