Quelle architecture Data pour fiabiliser votre IA agentique ?

La performance d’une IA d’entreprise dépend de la qualité du contexte qu’on lui fournit. Pour permettre un comportement performant, fiable et scalable de l’IA, les données et les logiques métiers qui les animent nécessitent une préparation dans un stack technologique adapté à cet objectif.

Ce stack doit être pensé comme une extension du management existant des données. Il doit intégrer :

Des données de référence et des métadonnées de qualité et unifiées, cataloguées et gouvernées.
Des ensembles de données personnalisées et disponibles selon chaque domaine ou cas d’usage métiers.
Une gouvernance centralisée : respect des droits d’accès des utilisateurs.

Et il doit répondre à des exigences propres à l’IA :

Confidentialité des données qui ne doivent pas être rendues publiques.
Structuration des éléments de contexte qui déterminent la performance de l’IA.
Mise en œuvre des agents qui interagissent avec les applications, avec des degrés de contrôle humain pour une maîtrise des actions produites.

Concrètement :

Détaillons le rôle renforcé des solutions Data telles que le MDM, le Data Catalog et les Data Products pour constituer un socle de base d’éléments de contexte nécessaires à l’IA générative.
Illustrons comment un agent utilise ces solutions pour répondre à une exigence opérationnelle et comment il joue son rôle en associant performance et confidentialité.
Montrons comment les entreprises doivent s’organiser entre les cas d’usage de traitement de l’information grâce à l’IA générative et ceux des jobs des agents IA. Les agents IA s’appuient sur le même socle afin
- d’interpréter une intention,
- de mobiliser les bons outils,
- d’accéder aux bonnes données dans le respect des autorisations,
- puis de restituer ou d’exécuter une action de manière contrôlée.
Enfin, détaillons le rôle spécifique des agents de données, et comment ils prennent un rôle central dans l’exploitation de l’information d’entreprise.

Le stack technologique : étendre le management des Data

1. Le MDM

L’IA ne doit pas halluciner quant à l’identité d’un client, d’un produit ou d’un fournisseur -> Le MDM fournit la vérité unique et son identifiant Golden.

Des cas d’usage :

L’IA ne mélange pas deux clients homonymes.
Le client de la compta est rapproché du client du marketing.

Pour quels enjeux ?

C’est unique.
C’est au bon format.
C’est qualitatif.

2. La Data Catalog

L’IA doit comprendre la sémantique des données -> Le Data Catalog définit les glossaires métier, apporte la traçabilité et classifie la sensibilité : PII, confidentiel…

Des cas d’usage :

L’IA utilise le vocabulaire de l’entreprise.
L’IA peut justifier sa réponse.

Pour quels enjeux ?

Connaître d’où ça vient.
Maîtriser le niveau de confiance accordé.

3. Les Data Products

L’IA doit s’appuyer sur des ensembles de données fiables et structurés -> Les Data Product sont l’opportunité de créer une source première de l’IA de l’entreprise.

Des cas d’usage :

Accéder à des données contextualisées.
Pouvoir interroger les données selon leurs métadonnées et les bons indicateurs.

Pour quels enjeux :

Bénéficier de données organisées.
Répondre aux attentes de chaque métier.

4. L’API Management

L’IA doit pouvoir collecter les informations les plus pertinentes -> L’API Management permet de sécuriser, de gouverner et d’exposer des services de données et des capacités métier, y compris en mode synchrone pour obtenir les données les plus récentes.

Des cas d’usage :

Accéder aux données chaudes.
Chercher la donnée certifiée par le MDM et l’enrichir avec les données transactionnelles.

Pour quels enjeux ?

Trouver les données les plus à jour.
Savoir interpréter une information.

L’exemple d’une tâche déléguée à un agent IA

Prenons un exemple qui montre les différentes étapes du traitement par l’agent et comment elles mobilisent les applications du stack Data, en respectant les droits d’accès aux données :

1 / Xavier (Commercial), demande à son assistant IA : « Quels sont les risques actuels liés à notre client ‘Energy Service’ ? »

Étape 1 – Contexte de sécurité : l’agent IA s’approprie le profil utilisateur

L’agent IA doit récupérer les droits de Xavier tels que paramétrés dans chaque application Data.

Xavier s’authentifie auprès de la plateforme qui gère l’agent IA.
Via l’identifiant IAM de Xavier, l’agent IA s’associe aux profils de Xavier au sein de la gouvernance des accès.
Résultat : via un mécanisme de délégation d’identité ou d’autorisation (par exemple OAuth2/OIDC selon l’architecture), l’agent peut agir au nom de l’utilisateur dans les limites explicitement autorisées par les systèmes cibles.

Étape 2 – Comprendre les données et planifier les requêtes

L’agent va consulter le Data Catalog pour comprendre quelles données existent et où elles se trouvent.

Le LLM analyse l’intention de Xavier et décompose sa question en sous-dimensions de risque : opérationnel, financier, juridique.
L’Agent interroge le Data Catalog : « Où sont les données de risque : retards, santé financière, litiges pour un client ? »
Le Catalogue répond grâce à son glossaire métier et ses métadonnées :
o « Les retards de paiement se trouvent dans La Data Platform (Table DELIVERY_Delay). »
o « La santé financière en temps réel est accessible via l’API CreditSafe_Information. »
o Les litiges sont dans l’application « Juriscase ».
Résultat : l’agent détient une carte cognitive pour lancer ses requêtes sur le client ‘Energy Service’.

Étape 3 – Identifier ‘Energy Service’ de façon sûre : le MDM

En plus de ‘Energy Service’, il existe peut-être » Energy Service Inc », » Energy Service SA », ou « NRJ Service ».

L’Agent IA interroge le MDM : « Quel est l’identifiant unique (Golden ID) pour ‘Energy Service’? »
Le MDM scanne sa base référentielle du domaine Clients et renvoie plusieurs résultats.
L’Agent IA demande à Xavier de choisir selon ses connaissances de ‘Energy Service’ : adresse…
Résultat : le MDM renvoie : « L’entité certifiée est ‘Energy Service’, ID unique : SUP-95510. »

Étape 4 – Récupérer les informations demandées : la Plateforme de Données / API Management

Historique des retards , données Froides : L’agent IA effectue une requête dans la data platform pour l’ID SUP-95510 afin de collecter l’historique des retards de paiement sur 12 mois.
Scoring financier : Données Chaudes/Temps Réel : L’agent IA appelle l’API de scoring financier pour l’ID SUP-95510.
Collecte des litiges : Cette requête est refusée en raison des droits d’accès de Xavier.
Résultat : L’agent dispose désormais de toutes les données nécessaires pour formuler sa réponse en langage naturel.

Étape 5 : L’agent IA restitue les informations demandées

L’Agent rédige une réponse contextualisée :

Génération : l’IA rédige la réponse en langage naturel.
Traçabilité : grâce au Data Catalog, l’IA sait d’où vient chaque info.
Fraîcheur de l’information : l’agent détecte que les données de retard de paiement n’ont pas été mises à jour depuis 3 semaines.
Réponse finale à Xavier :
« Pour le client Energy Service (ID: SUP-95510) : 1. Risque Financier : Faible. Score de crédit de 85/100 récupéré à l’instant (Source: API CreditSafe_Information). 2. Risque Opérationnel : Moyen. Taux de retard de 5% observé sur les 12 derniers mois (Source: Data product delayed_payment). Attention : Pas de mises à jour des retards depuis 3 semaines. Vos droits actuels ne vous permettent pas de consulter les litiges. Vous pouvez vous adresser à l’administrateur de ces données. »

IA Générative et Agentique

L’IA générative et l’IA agentique n’adressent pas les mêmes enjeux, et leurs déploiements respectifs reposent sur des couches d’architecture de données à la fois communes et distinctes.

L’IA générative excelle dans l’analyse, la synthèse et la mise en forme de l’information. Elle accélère l’exploration, la documentation, la transformation et la restitution des données, en s’appuyant sur le socle de data engineering et de gouvernance. Son efficacité est directement conditionnée par la qualité des données qu’on lui soumet : des données centralisées, gouvernées par domaine et accessibles selon des règles d’habilitation maîtrisées.

L’IA agentique franchit un palier supplémentaire : elle agit. L’agent IA ajoute des capacités d’orchestration, de planification, d’utilisation d’outils et d’exécution d’actions dans un cadre gouverné.

Sa mise en œuvre exige une architecture rigoureuse, structurée autour de plusieurs dimensions complémentaires :

Un modèle de fondation spécialisé : le LLM ou SLM sous-jacent doit avoir été choisi selon les domaines métiers cibles, et les descriptions d’outils rédigées avec une précision sémantique rigoureuse, sans ambiguïté.
Une mémoire contextuelle structurée : par comparaison vectorielle entre l’intention du prompt et la base de connaissances (par exemple un RAG), l’agent sélectionne les informations pertinentes et écarte le bruit.
Compétences et fonctions structurées de l’agent : les compétences de l’agent (ses « skills ») sont formalisées via des fichiers de contexte (généralement en Markdown selon les frameworks), décrivant avec précision le périmètre d’action, les outils disponibles et les règles de comportement de l’agent. Certaines compétences peuvent venir d’outils hors skills qui incluent des fonctions dédiées (Function Calling ou Tool Use).
Une connectivité outillée et standardisée : l’intégration via des protocoles standardisés (selon l’architecture retenue : API, connecteurs, et de plus en plus MCP) garantit une interopérabilité fiable entre les agents et les systèmes d’information de l’entreprise.
Une orchestration multi-agents : un agent coordinateur distribue les sous-tâches à des agents spécialisés, garantissant cohérence, traçabilité et performance sur des processus complexes et multi-étapes.

Les agents de données : au cœur de la valeur ajoutée de l’entreprise

Parmi tous les types d’agents, les agents de données occupent une place stratégique. Ce sont eux qui accèdent aux actifs les plus sensibles et les plus différenciants de l’entreprise : ses données internes. Leur rôle est de garantir que chaque décision humaine ou automatisée repose sur une information fiable, contextualisée et traçable.

Chez Arhis, nous avons développé une vision cohérente et opérationnelle de ce que doit être un agent de données performant. Il ne s’agit pas simplement de connecter un LLM à une base de données : il s’agit de construire un agent dont chaque couche de collecte, structuration, qualification, enrichissement et restitution est gouvernée.

Spécialisation métier et maîtrise des sources

Un agent de données efficace est un agent spécialisé. Il connaît les sources pertinentes pour son domaine métier (finance, supply chain, commerce, …), sait les interroger dans le bon ordre et est capable de combiner les résultats de plusieurs outils pour produire une réponse cohérente. Il génère ses livrables selon des formats adaptés aux usages (tableaux de bord, synthèses PDF, présentations) et les distribue aux canaux adéquats (messagerie, portail décisionnel, email).

Nous privilégions les données structurées : c’est la condition d’une fiabilité déterministe. C’est pourquoi nous avons développé des pratiques pour transformer en amont des données non structurées en données exploitables par les agents.

La gouvernance des agents : une exigence non négociable

L’autonomie des agents soulève des questions de gouvernance et de traçabilité fondamentales. Chez Arhis, nous défendons une approche dans laquelle tout acte d’un agent est attribuable, auditable et contrôlable :

Traçabilité d’identité : chaque action est enregistrée sous la forme « acte réalisé par l’agent X, au nom de l’utilisateur Y, sur la ressource Z », garantissant une chaîne de responsabilité claire et exploitable par les équipes d’audit et de conformité.
Contrôle humain gradué (Human-in-the-Loop) : pour les tâches à fort impact, l’agent prépare la décision et soumet une proposition à validation humaine avant toute exécution irréversible. Ce mécanisme de pause délibérée est un garde-fou essentiel pour concilier automatisation et maîtrise des risques opérationnels.
Périmètres d’action hérités de la gouvernance : les droits d’accès aux données, tels qu’ils sont définis dans le système de gouvernance existant, s’appliquent à l’agent comme ils s’appliqueraient à l’utilisateur qu’il représente. L’architecture agentique ne crée aucune échappatoire aux politiques d’habilitation en vigueur.

Cette approche de la gouvernance des agents n’est pas un frein à l’adoption : c’est au contraire ce qui en permet une généralisation, en instaurant la confiance nécessaire entre les équipes métiers, les fonctions risques et les directions informatiques.

Arhis a développé, au travers de ses missions data, une expertise sur les fondations nécessaires aux usages IA : gouvernance, MDM, qualité, catalogage, intégration et traçabilité, Data Products, afin de parvenir à la maîtrise des données nécessaires au développement de l’agentique.

Olivier de Compiègne

Directeur Consulting