INTÉGRER VOS DONNÉES : DU CYCLE DE VIE AU PARTAGE DE LA VALEUR

white-jigsaw-puzzle-pieces-pink

Qu'est-ce que la Data Integration ?

Le concept de middleware évolue vers la notion de plateforme d’échanges.


Il ne s’agit plus seulement de faire circuler les données, mais de les partager au sein des différents use cases de chaque métier.

Une communication facilitée au sein d'un écosystème d'intégration global

Une agilité opérationnel accrue et une réduction des coûts de développement

Une flexibilité essentielle pour s'adapter aux évolutions technologiques

La complexité des cycles de vie des données a fait naître la notion de pipeline. Cette notion ne se résume pas à une succession d’étapes, mais à des agrégations de sources diverses suivies de préparations des données. Ces données doivent être ensuite rendues disponibles aux métiers, pour l’analyse et les services, favorisant de nouvelles méthodes de travail, inspirées par l’approche Data Mesh.

Dans ce contexte, de plus en plus d’entreprises optent pour une rationalisation des échanges de données : choisir une solution de plateforme d’échanges unique, avec deux objectifs :

La complexité des cycles de vie des données a fait naître la notion de pipeline. Cette notion ne se résume pas à une succession d’étapes, mais à des agrégations de sources diverses suivies de préparations des données. Ces données doivent être ensuite rendues disponibles aux métiers, pour l’analyse et les services, favorisant de nouvelles méthodes de travail, inspirées par l’approche Data Mesh.

Dans ce contexte, de plus en plus d’entreprises optent pour une rationalisation des échanges de données : choisir une solution de plateforme d’échanges unique, avec deux objectifs :

COMMENT INTÉGRER VOS FLUX GRÂCE À UNE PLATEFORME D’ÉCHANGES ?

La volonté de considérer les données comme des produits essentiels de l’entreprise exige une maîtrise des processus qui assurent l’émission, le partage et la bonne réception des données.
Le nombre croissant d’applications nécessite une souplesse technologique pour construire des interfaces faciles à implémenter et évolutives.

Voici quelques évolutions de la manière d’échanger et de partager les données, à prendre en compte selon le contexte de l’entreprise :

COMMENT INTÉGRER VOS FLUX GRÂCE À UNE PLATEFORME D’ÉCHANGES ?

La volonté de considérer les données comme des produits essentiels de l’entreprise exige une maîtrise des processus qui assurent l’émission, le partage et la bonne réception des données.
Le nombre croissant d’applications nécessite une souplesse technologique pour construire des interfaces faciles à implémenter et évolutives.

Voici quelques évolutions de la manière d’échanger et de partager les données, à prendre en compte selon le contexte de l’entreprise :

Nos experts vous accompagnent dans la réussite de vos projets data

Les échanges en mode Batch

Les entreprises ont souvent un grand nombre de flux en mode batch gérés via des ETL. L’évolution des pratiques présente différents défis qui poussent à renouveler ces interfaces :

Les ETL évoluent et répondent plus ou moins à ces défis, certains se rapprochant des iPaaS.

Cependant, les ETL restent souvent des outils distincts d’une plateforme d’échanges. Ils conservent leur attractivité grâce à plusieurs avancées technologiques :

Notons également que les ETL gardent des avantages en termes de simplicité lorsqu’il s’agit d’apporter des transformations simples ou complexes au sein de l’interface entre deux applications, et lorsque les enjeux de gestion n’impliquent pas d’exigences de disponibilité immédiate.

Dans la pratique, l’historique des entreprises se traduit par l’utilisation de différents ETL. La rationalisation autour d’une solution unique présente de nombreux avantages, à condition de bien choisir la solution mutualisée et de rechercher des chemins de migration rapide. La facilité d’implémentation (Low-code / No code) devient dans ce contexte encore plus cruciale.

API et Messaging en temps réel

Les API fournissent une communication synchrone mais aussi standardisée pour l’intégration de services et d’applications. La rationalisation est particulièrement liée aux méthodes HTTP stateless : GET, POST, PUT, DELETE.

Les API REST sont souvent privilégiées pour leur simplicité, mais dans un environnement complexe et volumineux, les API GraphQL offrent plus de flexibilité et une granularité plus fine d’accès aux données, contribuant ainsi à de meilleures performances.

Les API sont particulièrement adaptées pour des requêtes massives sur un dataset, comme par exemple depuis un front digital ou un service mobile. Elles sont également le principal moyen d’interopérer des micro-services dans un système distribué.

Pour des échanges entre un émetteur et un récepteur, le messaging offre la souplesse d’interactions découplées, garantissant l’ordre de livraison des messages et fiabilisant l’échange asynchrone. Contrairement au mode synchrone des API, il offre un délai de latence si court qu’il répond à la quasi-totalité des exigences du temps réel. Il est également adapté au déplacement des données au sein des pipelines.

Dans une logique de rationalisation, le messaging permet le modèle de Publication-Abonnement (Pub/Sub) : les messages sont publiés sur un Topic et consommés par plusieurs abonnés intéressés par tout ou partie de l’information, assurant ainsi une communication distribuée et personnalisée.

La combinaison d’API et de systèmes de messagerie permet de bénéficier des avantages de la communication synchrone et asynchrone :

iPaas et modes d'échanges hybrides

Les iPaaS ont émergé avec les architectures hybrides (On-premise, Cloud et SaaS) pour assurer la connectivité entre ces différents environnements.
Ils présentent également d’autres paradigmes pour l’évolution des échanges de données :

Finalement, les iPaaS offrent une synchronisation à moindre coût : investissement dans des infrastructures, implémentation et maintenance. Ils permettent de mutualiser les ressources tout en réduisant le Time to Market.

Le retour de l'ELT

L’arrivée des technologies du Cloud a permis l’adoption généralisée de solutions de stockage massives et flexibles, dotées d’une grande scalabilité horizontale et d’une puissance de calcul considérable (ex. Snowflake ou Databricks). Pour des ingestions en masse dans ce type de solutions, la puissance de calcul nécessaire aux traitements (T) conduit logiquement à effectuer le load puis le push down dans la plateforme, plutôt que dans le middleware (logique ELT). C’est, en quelque sorte, le retour de l’ELT.

Notons également que la logique Extract/Load se prête mieux à une parallélisation massive, y compris avec des règles simples sur les données entrantes.
Cette évolution est née dans l’univers du Big Data, et les données sont souvent ingérées en masse dans leur format brut dans des Data Lakes tels qu’Amazon S3, Azure Data Lake Storage et Google Cloud Storage.

D’autres cas d’usage nécessitent l’ingestion en masse, comme la réplication de bases de données, les flux de travail d’IA ou les migrations vers le cloud.