QU'EST-CE QU'UNE DATA PLATFORM ?

stacks-of-multi-coloured-shipping-containers-2023

Débloquer le potentiel de vos données

Les données sont souvent silotées dans des applications métiers. La Data Platform permet de les valoriser en les connectant entre elles au sein de différents domaines. Les données se transforment véritablement en « assets », rendant ainsi l’entreprise « data-centric ».

Un écosystème qui privilègie l'accès à des données riches et dignes de confiance

Une maitrise des données:sécurité, observabilité et compliance

La data comme asset pour optimiser l'activité et développer de nouvelles pratiques

La plateformisation, basée sur une architecture centralisée, se construit autour de workspaces et permet de dépasser la logique des « use cases » métiers pour rendre chacun maître de ses objectifs. La donnée devient un « produit » disponible et fiable.

La plateforme permet une maîtrise des données :

Mais aussi leur gouvernance :

La plateformisation, basée sur une architecture centralisée, se construit autour de workspaces et permet de dépasser la logique des « use cases » métiers pour rendre chacun maître de ses objectifs. La donnée devient un « produit » disponible et fiable.

La plateforme permet une maîtrise des données :

Mais aussi leur gouvernance :

3 couches de données

La plateforme est un hub qui ingère en entrée et propage en sortie des données après leur transformation. On distingue classiquement 3 « layers » dans le processus de traitement des données :

  1. Le stockage, autrement appelé Bronze layer. Le choix d’une couche dédiée au stockage des données, séparée du processing, permet de stocker la valeur dans son format brut. Cette approche offre le maximum de souplesse en termes de types d’ingestion (streaming ou batch), d’une part, et de scalabilité, d’autre part. Cet espace, enfin, est sécurisé au niveau des accès, le plus souvent réservés aux responsables techniques.
  2. Le traitement, ou Silver layer. Il contient une version validée et enrichie des données avec un niveau de confiance élevé. Il est obtenu via des opérations de transformation, jointure, agrégation et mise au format, réalisées avec des frameworks orientés traitement (traitements parallèles, etc.). Les données sont requêtables par les langages les plus courants : SQL, Python, etc.
  3. Le niveau de présentation des données, ou Gold layer. Les données doivent ici être des informations utilisables pour les finalités attendues de la plateforme : l’analytique, le ML ou la donnée comme produit. Les utilisateurs finaux interagissent avec les données selon leur propre langage de requête ou à travers des interfaces ou applications.
  4.  
  1.  

La Data Centricity

La Data Platform vise à centraliser l’ensemble des données de l’entreprise : de référencielles, transactionnelles et comportementales. Un certain nombre de pipelines et de processus automatisés sont mis en place pour :

Datawarehouse, Machine Learning et Fronts Digitaux

Une Data Platform est un cadre intégré qui vise à regrouper les fonctionnalités d’un data lake, d’un data warehouse et d’un data hub. Elle répond aux besoins analytiques, de Data Science ainsi qu’aux services opérationnels.

Découvrez nos contenus Data !

notre ambition est de mettre en place des solutions innovantes qui répondent à vos impératifs métiers.

Data sharing et marketplace

Dès lors que la meilleure version des données est centralisée, le partage de ces données doit être pensé spécifiquement comme un service. Il s’agit d’associer des outils de consommation des données avec une gouvernance stricte des accès. La mise en place d’une marketplace est une réponse qui satisfait autant le besoin de collaboration interne que la publication, voire la monétisation, des données vers des acteurs externes à l’entreprise.

La marketplace peut également être considérée comme l’un des aboutissements de la logique Data Mesh, permettant de présenter les données comme des produits.

Warehouse et Workspace

Faut-il opposer warehouse et workspace ? Au-delà des querelles sémantiques, distinguons trois besoins différents :

Machine Learning

Le Machine Learning (ML) a pour vocation de faire émerger une compréhension des données, par exemple des liens, des segmentations, et de transformer cette information en modèles prédictifs qui serviront de base à des politiques commerciales, de régulation, etc. Le ML s’organise dans un environnement de stockage et de services qui bénéficie des plateformes de Cloud Computing et de leurs performances en termes de stockage et de calcul.

Basé sur un environnement de type Big Data au niveau infrastructure, provisioning des ressources, etc., le ML se structure autour de plusieurs étapes :

Le Data Mesh

Le Data Mesh n’est pas une technologie, mais une organisation et une architecture autour des données. Il croise responsabilisation (engager les métiers à porter eux-mêmes la disponibilité et la qualité des données) et gestion (rendre autonomes les producteurs de données sur différents traitements). Ces deux conditions permettent de transformer les données en « produits ».

Cette organisation doit cependant être encadrée dans une architecture d’entreprise maîtrisée pour s’assurer de la disponibilité des données, de leur sécurité et de la maîtrise des coûts. Il s’agit donc davantage de dépasser le goulot d’étranglement d’une organisation où l’IT est acteur, pour définir :

IA et Gouvernance des données

L’IA est connue pour contribuer à l’analyse et à la modélisation des données, ou à leur restitution à travers l’IA générative. La puissance de l’IA s’exprime également dans :

IA Générative

Les bouleversements apportés par l’IA générative ne proviennent pas d’une nouvelle façon de penser les données : elle repose également sur des algorithmes d’IA basés sur un stack massif de données. Cependant, l’IA générative, via l’utilisation d’un Large Language Model (LLM), tend à modifier et simplifier la manière de travailler :

Le challenge pour les entreprises est que l’IA générative doit fonctionner sur leurs données internes. Au-delà de la préparation des données, il s’agit de maintenir la confidentialité des données tout en utilisant un LLM du marché. Plusieurs options existent pour y parvenir, notamment en s’appuyant sur divers prestataires logiciels. La fin de l’histoire reste à écrire sur ce sujet.