Qu’est-ce qu’un pipeline de données ?

oil-pipeline-picture

QUELLES SONT LEURS DIFFÉRENCES ?

La transformation numérique ou digitale des entreprises est synonyme de coordination des tâches dans un écosystème applicatif intégré.
Il s’agit le plus souvent de fonctions transverses qui échappent à une solution métier bien identifiée. C’est dans ce contexte que la circulation de la data doit être maitrisée pour devenir une information.

La réponse a pris le nom de Pipeline de données : faire circuler la donnée depuis une source vers une cible en lui apportant toute la valeur ajoutée qui la rend utile.

Dans les faits, les étapes d’un pipeline sont très similaires quel que soit le type de donnée, et s’appuient sur des pratiques et des outils mutualisables au sein de l’entreprise.

Décrivons l’état de l’art sous ces 3 aspects : exigences, étapes et outils.

1. Les exigences

La qualité des données : consistance, exactitude et unicité

La traçabilité des données, associée à un monitoring des traitements, et si nécessaire l’observabilité des systèmes

L’utilisabilité des données : des données préparées pour pouvoir être requêtable (structurées ou semi-structurées)

▶ De plus en plus : Le temps réel, notamment événementiel, pour que les données soient toujours à jour.

▶ La disponibilité apportée par la performance des transformations et traitements.

Extraction puis Ingestion

Validation, Transformation, Unicité

▶ Un modèle de stockage qui rende les données requêtables pour l’analyse et l’opérationnel

L’enrichissement, y compris à travers le machine learning

La gouvernance : qui gère et qui a accès à quoi ?

L’activation pour exposer des données directement exploitables.

3. Les outils relèvent de typologies maintenant bien définies. Citons en particulier :

▶ Les outils de centralisation des données : MDM pour les données référentielles, Data Platform pour intégrer les données transactionnelles, BI pour reporting et l’analyse, CDP pour le marketing

Les middlewares ou la logique “fil de l’eau” s’associent aux API, quand les iPaaS ajoutent une capacité d’intégration dans le Cloud ou en mode hybride

Les outils de la qualité des données, du monitoring, de l’observabilité

▶  Les outils de traitement des données dont le machine learning.

Pour autant, les bonnes pratiques divergent selon 2 grandes ambitions :

  • Définir une plateforme centralisée commune des données pour l’entreprise
  • Gouverner les données au service des métiers

 

Nous détaillerons ces 2 cas dans une prochaine intervention. A suivre…

NOTRE EXPERTISE AU SERVICE
DE VOS MÉTIERS