État des lieux de l'ingénierie de l'IA

research / llm observability / llm experiments / ai

« Au cours de l'année écoulée, l'IA générative a progressé à pas de géant. Les équipes ne se contentent plus d'un simple appel à un modèle pour créer un produit. Passant de l'expérimentation à la production, elles gèrent désormais des flottes de modèles, des frameworks d'orchestration, des appels à des outils, des prompts complexes, des mécanismes de reprise et des architectures multi-services. Avec cette nouvelle phase, les entreprises auraient dû rester en terrain connu : routage, gestion du cycle de vie, planification des capacités, contrôle des coûts et débogage dans des systèmes distribués. »

En réalité, les LLM introduisent un comportement inédit : tout changement du modèle, du prompt ou de la récupération peut faire évoluer la latence, les coûts et les taux d'erreur sans modification apparente du code. À l'heure du déploiement des agents en production, une évaluation rigoureuse et une discipline opérationnelle solide sont donc essentielles pour passer d'une démonstration convaincante à un système fiable.

Dans ce rapport, nous nous penchons sur l'ingénierie de l'IA en production en nous intéressant à la télémétrie des LLM recueillie auprès de plus d'un millier de clients Datadog. Nous avons constaté que les équipes disposent de réelles opportunités de renforcer l'efficience et la fiabilité de la gestion de leur flotte de modèles, la conception des agents, l'ingénierie contextuelle et l'optimisation des coûts. Néanmoins, l'identification et l'activation de ces leviers restent peu évidentes en raison d'un écosystème très dynamique. Nous avons également analysé l'évolution des fournisseurs, langages et frameworks d'orchestration adoptés, l'utilisation du contexte, des outils et de workflows multi-étapes en production, ainsi que les défaillances les plus courantes à grande échelle.

Par « applications d'IA », nous entendons les services en production qui passent des appels à des LLM. Le terme « agents » fait référence à la part de ces applications qui utilisent un flux de contrôle multi-étapes, exécutent des outils ou appellent plusieurs services. Certains des résultats présentés ci-dessous concernent l'ensemble des applications d'IA étudiées quand d'autres portent spécifiquement sur les charges de travail d'agents. Ensemble, ils illustrent la manière dont l'ingénierie de l'IA prend forme en production.

Constat 1

De plus en plus, les entreprises multiplient les modèles

En analysant les données de télémétrie des agents LLM de nos clients, nous avons constaté que les entreprises font de plus en plus appel à plusieurs prestataires. 63 % font confiance à OpenAI, mais les modèles Gemini de Google et Claude d’Anthropic ont respectivement gagné 20 et 23 points en un an.

L'adoption des modèles de Google et d'Anthropic s'accélère

Il est important de noter que, si la part d’OpenAI a diminué sur un an, cela ne signifie pas que les modèles de l’entreprise sont moins utilisés dans l’absolu. C’est même l’inverse : le nombre de clients Datadog utilisant OpenAI a plus que doublé, même si d’autres fournisseurs ont connu une croissance plus rapide.

La diversification des modèles s’observe aussi au sein des entreprises. Elles sont plus de 70 % à utiliser au moins trois modèles, et le nombre d’entreprises qui s’appuient sur plus de six modèles a presque doublé. Plutôt que de se fier à un modèle unique par défaut, elles créent des portefeuilles de modèles afin d’utiliser le plus adapté à chaque charge de travail, selon les exigences de latence, de coût, de risque opérationnel et de tâche.

La plupart des entreprises utilisent désormais plusieurs modèles

Cette multiplication des plateformes pose toutefois de nombreuses difficultés en matière d’ingénierie de plateforme, de DevX et de conformité. Avec des appels d’API dispersés entre différents fournisseurs de modèles et services, les équipes ont du mal à itérer rapidement. L’application uniforme des politiques de sécurité et de conformité est aussi plus complexe. Enfin, la gestion fluide des défaillances lorsque les fournisseurs limitent les requêtes ou voient leurs performances et leur efficacité se dégrader devient moins évidente. Pour s’en sortir, les équipes sont de plus en plus contraintes de gérer les requêtes via un mécanisme de routage modulaire, comme un service de passerelle ou une passerelle managée de type OpenRouter, en évitant les appels directs aux API des fournisseurs de modèles depuis les différents composants de leurs environnements.

Les équipes qui prennent aujourd’hui une longueur d’avance considèrent l’inférence comme un pipeline et évaluent, comparent et modifient régulièrement le modèle adapté à chaque étape, au gré de la baisse des coûts et de l’évolution des performances. Elles choisissent par exemple des modèles légers pour l’extraction et le tagging, et des modèles avancés pour réaliser des synthèses. En exécutant une passerelle de modèles et en maintenant un framework d’évaluation opérationnalisé, elles peuvent sélectionner le modèle idéal pour chaque cas d’usage en fonction de la qualité des résultats, des coûts et de la latence attendus. Les évaluations en ligne jouent ici un rôle clé, en permettant de comprendre la qualité des résultats, la sécurité et les performances des modèles et des agents en production, et donc de faire le bon choix.

« La plupart des équipes utilisent désormais plusieurs modèles en production. Environ 70 % en exploitent au moins trois, et ce chiffre ne cesse d'augmenter, tendance portée notamment par les agents. C'est pour cette raison que nous proposons une intégration adaptée aux start-up comme aux grandes entreprises, qui permet d'accéder en toute sécurité à des centaines de modèles. Les utilisateurs veulent pouvoir changer rapidement de modèle, mener des tests librement et identifier celui qui convient le mieux à leurs workflows. »

Alex Atallah
Cofondateur et directeur technique d’OpenRouter

Constat 2

La dette technique des LLM s’alourdit à mesure que les équipes adoptent les nouvelles versions sans retirer les versions précédentes

En choisissant de multiplier les modèles, les entreprises s’exposent également à la complexité de leur maintenance. Notre analyse des clients Datadog suggère que les équipes testent rapidement les nouvelles versions de leurs modèles pour rester dans la course, mais se montrent réticentes à retirer les anciennes versions déjà en production. Par conséquent, de nombreuses entreprises risquent d’ajouter des modèles plus rapidement qu’elles n’en suppriment. Or, chaque modèle supplémentaire au sein d’un système d’agents accroît la charge opérationnelle et alourdit les besoins d’évaluation. Les équipes doivent donc valider en continu les performances et gérer les régressions de l’ensemble de leurs modèles actifs.

Les entreprises mettent du temps à retirer les anciens modèles

À prompts, outils et workflows d’agents identiques, les résultats peuvent varier d’un modèle à l’autre, ce qui signifie que chaque modèle supplémentaire introduit son propre profil de qualité, de latence et de coût. Dans la pratique, le renouvellement constant des modèles pose un problème de gouvernance.

Nous nous sommes penchés sur le taux d’adoption de sept modèles populaires pour comprendre comment les entreprises gèrent la disponibilité de nouvelles versions. Nous avons constaté que les équipes intègrent les nouveaux modèles peu après leur lancement. Par exemple, Claude Sonnet 4.6 a été adopté par 17 % des entreprises dans le mois qui a suivi sa sortie. Parallèlement, l’adoption de modèles plus anciens comme Sonnet 4.5 et GPT-4o a reculé, tout en restant respectivement à 19 % et 22 % en mars 2026. Ces niveaux sont comparables à ceux de Sonnet 4.6 et GPT-5.4. En 2026, aucun modèle ne se démarque clairement, et de plus en plus d’équipes misent sur plusieurs modèles en parallèle.

Même si la gestion de systèmes multi-modèles peut être maîtrisée grâce à une évaluation continue, une gouvernance adaptée et un routage efficace via des passerelles, les équipes devront néanmoins composer avec le retrait progressif des anciens modèles par leurs fournisseurs. Par exemple, alors que GPT-4o était encore le modèle le plus utilisé dans les traces de requête que nous avons examinées lors de notre étude de mars 2026, OpenAI a déjà retiré ce modèle de l’interface de ChatGPT, ce qui pose question quant à la pérennité de son support via l’API.

Constat 3

Avec le doublement des frameworks d’agents, l’importance d’une télémétrie approfondie se renforce

Les frameworks d’agents comme LangChain, Pydantic AI, LangGraph et Vercel AI SDK accélèrent le développement en facilitant la création de patterns récurrents. D’après notre étude, l’adoption de ces frameworks a presque doublé entre début 2025 et début 2026, passant de plus de 9 % des entreprises à presque 18 %. De même, le nombre de services utilisant des frameworks d’agents a plus que doublé sur cette période. Les frameworks accélèrent le développement, mais peuvent aussi introduire une coûteuse complexité opérationnelle. Les équipes ont en effet besoin d’une télémétrie complète des agents pour voir comment ces derniers s’exécutent et identifier les logiques importées inefficaces susceptibles d’être remplacées par des workflows personnalisés.

L'adoption de frameworks LLM a doublé sur l'année écoulée

Cet essor des frameworks se retrouve à l’identique dans toutes les structures, des start-up aux grands groupes, en passant par les entreprises de taille intermédiaire.

Les équipes qui s’appuient sur du code boilerplate fourni par les frameworks pour leurs patterns clés peuvent se retrouver à démultiplier les agents en raison de l’ajout d’étapes et de chemins supplémentaires en arrière-plan. Les ingénieurs ont alors plus de mal à comprendre ce qui se passe au runtime. Dans le développement d’applications d’IA assisté par des frameworks, une seule importation peut engendrer une prolifération d’outils, de mécanismes de reprise et de branches. Il peut en résulter une hausse des coûts et de la latence, mais aussi une plus grande difficulté à reproduire les problèmes. C’est pourquoi il est essentiel pour les équipes de collecter une télémétrie complète des agents pour comprendre leur exécution en conditions réelles, diagnostiquer les comportements imprévus et déterminer à quel niveau les workflows s’éloignent des résultats attendus. Elles pourront ainsi remplacer les logiques importées inefficaces par des workflows sur mesure.

« La prochaine vague de défaillances des agents ne sera pas liée à ce qu'ils ne savent pas faire mais à ce que les équipes ne peuvent pas voir. Les agents doivent intégrer les mêmes boucles de feedback en production que celles attendues des meilleurs logiciels. Contrairement aux logiciels traditionnels, le flux de contrôle des agents est piloté en direct par un LLM, ce qui rend l'observabilité non seulement utile, mais essentielle. »

Guillermo Rauch
Fondateur et PDG de Vercel

Constat 4

Les entreprises développent des agents fortement structurés, avec de longs prompts système, mais la mise en cache des prompts reste rare

D’après notre étude, 69 % des tokens d’entrée figurant dans les traces des clients correspondaient à des prompts système : instructions internes, définitions de politiques ou directives pour les outils exécutées en aval de la requête initiale de l’utilisateur. Ce résultat suggère que la plupart des efforts d’ingénierie de contexte des clients Datadog visent à optimiser les prompts système récurrents au sein de systèmes d’agents fortement structurés. Dans la mesure du possible, les équipes doivent réduire les prompts système pour limiter la consommation de tokens et placer les composants réutilisables dans des modules pour pouvoir les mettre en cache.

Les instructions système constituent la majorité des entrées fournies aux LLM

Les systèmes structurés impliquent l’utilisation de davantage d’outils et plus de contraintes, notamment par le biais de politiques et de garde-fous de sécurité. Or, la répétition à l’identique des garde-fous et des instructions des outils d’un appel à l’autre pèse fortement sur les coûts et la latence.

La mise en cache des prompts réduit les coûts et accélère l’exécution de manière très efficace, sans altérer le comportement du modèle. Elle est particulièrement intéressante si les instructions système, politiques et schémas d’outils visant à stabiliser l’application sont réellement réutilisables d’un appel à l’autre. Toutefois, nous avons remarqué que même parmi les modèles compatibles, seuls 28 % des spans d’appels aux LLM présentent des tokens lus depuis le cache. La majorité des appels de ces applications traitent donc toujours le prompt en entier à chaque fois.

Moins d'un tiers des appels aux LLM reposent sur un contexte mis en cache

Si le taux d’utilisation du cache ou la part de tokens mis en cache de votre application est faible, le problème vient sans doute de la structuration du prompt. Si le prompt est mal structuré, du contenu dynamique peut être injecté trop tôt ou des blocs d’état censés être stables peuvent être réorganisés ou réécrits d’une requête à l’autre, empêchant ainsi la réutilisation du préfixe nécessaire à la mise en cache.

Constat 5

L’explosion de la fenêtre de contexte ouvre un nouveau potentiel à l’ingénierie du contexte

Avec la montée en puissance de l’IA agentique, les modèles gagnent en puissance et les requêtes volumineuses deviennent moins coûteuses. Les fenêtres de contexte des meilleurs modèles ont gagné plusieurs ordres de grandeur au cours des deux dernières années : de 128 000 tokens jusqu’à près de deux millions de tokens avec certains forfaits. Ces fenêtres ne sont donc plus une limitation pour une grande majorité des utilisateurs. Les équipes en profitent pour introduire dans les prompts davantage de contexte, comme les historiques de conversation, les documents récupérés, les sorties des outils ou les garde-fous. Ce contexte est essentiel pour rendre les agents plus fiables et adaptés à des cas d’usage complexes.

Notre analyse des spans de traces pour les appels aux LLM chez les clients Datadog montre qu’en un an, le nombre moyen de tokens utilisés dans les requêtes a plus que doublé pour les clients médians et quadruplé pour les utilisateurs les plus avancés du 90e percentile.

La consommation de tokens par requête a plus que doublé

À mesure que la taille des prompts augmente et que les équipes développent de nouvelles façons de collecter, générer et injecter du contexte dans les pipelines d’agents, la latence et les coûts vont inévitablement poser problème. D’autre part, les prompts incluent davantage d’historique, de documents récupérés, de sorties d’outils et de garde-fous. Avec toutes ces informations, le bruit et la redondance peuvent noyer le signal, en particulier lorsque des informations critiques se retrouvent enfouies dans des entrées trop longues.

C’est donc la qualité du contexte, et non sa taille, qui limite désormais la puissance des agents LLM. La plupart des équipes sont encore loin d’exploiter pleinement la taille de contexte offerte par leurs modèles. La principale problématique n’est donc pas tant de gérer les tokens que de comprendre quelles informations sont utiles aux décisions des modèles. Les entreprises qui investissent dans l’ingénierie du contexte (qualité des données récupérées, synthèse, déduplication et hiérarchisation claire des informations) combleront l’écart entre ce que permettent les modèles à long contexte et ce que les agents en production peuvent exploiter de manière fiable. Cela implique de mettre en place des systèmes capables de sélectionner, compresser et structurer de manière fiable les informations les plus pertinentes pour la prise de décision, afin que le modèle puisse en tirer le meilleur parti.

Constat 6

La fiabilité des agents plafonne en raison des erreurs de quota, première cause d’échec des appels aux LLM

Nous nous sommes penchés sur les échecs des appels aux LLM dans les traces des clients de Datadog LLM Observability. En février 2026, notre analyse montre que 5 % de l’ensemble des spans d’appels aux LLM ont signalé une erreur, dont 60 % étaient dus à des dépassements de quota. En mars 2026, 2 % de l’ensemble des spans LLM de notre dataset ont renvoyé une erreur, dont près d’un tiers était lié à des quotas, soit près de 8,4 millions d’erreurs au total. Ces chiffres suggèrent que les capacités limitées des fournisseurs de modèles compromettent la fiabilité des agents. Pour garantir la fiabilité dans des environnements dynamiques, lorsque la capacité maximale des agents dépend des quotas, les entreprises doivent jouer sur deux leviers : des mesures opérationnelles (gestion des budgets et mécanismes de backpressure) et l’optimisation des prompts.

Les erreurs de quota représentent près d'un tiers des échecs des appels aux LLM

Lorsque la principale cause des défaillances d’applications basées sur des LLM réside dans des problèmes de capacité, les équipes doivent travailler sur l’ingénierie de capacité. En particulier, des quotas de capacité partagés à l’échelle de l’entreprise, combinés à des pics de concurrence et de tentatives de reprise, peuvent entraîner des hausses ponctuelles du volume de requêtes qui épuisent de manière imprévisible la capacité allouée. C’est particulièrement vrai pour les systèmes qui exécutent des boucles variables avec des méthodologies ReAct par exemple, ou plusieurs agents collaboratifs. Le problème s’aggrave lorsque des boucles d’agents de longue durée atteignent les quotas des fournisseurs ou les plafonds de requêtes parallèles de l’entreprise, car des tentatives de reprise risquent d’accroître encore la charge. D’une simple difficulté, les équipes font alors face à une défaillance durable du système.

Les prompts et la logique applicative doivent être pensés de sorte à éviter les pics de longueur de boucle et la multiplication des appels aux outils. En parallèle, les équipes de plateforme doivent déployer des systèmes de file d’attente, mécanismes de backoff et des capacités de repli dans l’environnement d’exécution des applications LLM. Par ailleurs, en mettant en place des budgets pour contraindre les boucles d’agents à s’arrêter une fois un nombre maximal d’appels ou de tokens atteint, les équipes peuvent éviter les boucles incontrôlées susceptibles de dépasser les capacités et d’impacter les services en aval.

Constat 7

Les agents sont encore en grande majorité monolithiques

D’après notre étude, 59 % des requêtes d’applications agentiques ne passent qu’un appel à un service, quand seulement 18 % des requêtes de bout en bout en passent au moins trois. Ces chiffres révèlent qu’une grande majorité des agents restent encore monolithiques. Pour autant, certaines entreprises semblent tester des architectures multi-agents ou déployer des agents sur leurs propres services afin de s’interfacer avec le reste de leur environnement selon une logique de microservices.

Les équipes savent que les structures monolithiques se scalent difficilement et cherchent à changer d’approche, mais les agents en production restent pour l’heure majoritairement monolithiques. La transition vers des services d’agents dédiés et des architectures multi-agents impose de nouvelles exigences pour les plateformes des entreprises. Pour déboguer et tester ces applications, les équipes doivent propager le contexte et les traces à travers les différents services. Pour gérer ces plateformes distribuées, elles ont besoin de cartographies de services intégrant également les outils.

Perspectives

Les entreprises technologiques spécialisées en IA misent sur des systèmes multimodèles structurés, fortement contextualisés et de plus en plus distribués dont le succès repose sur l’évaluation continue du comportement, des performances et des coûts des agents. Les architectures d’agents deviennent de plus en plus complexes : les fenêtres de contexte s’agrandissent, les prompts se multiplient et les risques d’exposition aux dérives invisibles s’aggravent.

Face à ces défis, les équipes doivent acquérir de nouvelles compétences : piloter des boucles d’évaluation fiables, réfléchir à l’ingénierie du contexte, structurer des entrées à forte valeur informationnelle et encadrer activement la prolifération des modèles et du contexte avant qu’elle ne se transforme en dette technique. Malgré toutes ces évolutions, les bases de l’excellence opérationnelle restent d’actualité. Les équipes doivent continuer à maîtriser les budgets et le backpressure, prévoir des mécanismes de repli et orienter chaque tâche vers le modèle le plus adapté. Les entreprises qui sortiront du lot auront transformé leurs agents en systèmes de production rigoureux, évalués et améliorés en continu, pour les rendre plus observables, gouvernables, résilients et maîtrisés en termes de coûts.

Explorez l'ingénierie des agents d'IA sur le blog Datadog

Méthodologie

Population

Nous avons compilé dans ce rapport les données d'utilisation issues de milliers d'entreprises de la base clients de Datadog. Si ces clients couvrent un large éventail de tailles et de secteurs, ils présentent néanmoins des caractéristiques communes. D'une part, ils s'intéressent de près à leur infrastructure logicielle et aux performances de leurs applications. D'autre part, ils adoptent aussi davantage les plateformes et services cloud que la moyenne. Par conséquent, les résultats mis en avant dans cet article reflètent ce biais : ils reposent sur les données de notre base clients, un échantillon important, mais pas totalement représentatif du marché mondial.

Constat 1

Pour établir ce constat, nous avons examiné la répartition des entreprises qui collaborent avec des fournisseurs de LLM comme OpenAI, Anthropic, Google et d'autres, regroupés dans la catégorie « Autres ». Nous avons pris en compte l'ensemble des entreprises qui envoient des spans LLM à Datadog.

Constat 2

Pour établir ce constat, nous avons examiné la répartition des entreprises qui utilisent des modèles issus de différents fournisseurs. Nous avons calculé le pourcentage d'entreprises qui utilisent chaque modèle en rapportant ce nombre au total des entreprises envoyant des spans LLM à Datadog. Nous avons sélectionné uniquement certains modèles d'OpenAI, d'Anthropic et de Google pour mettre en évidence les principales tendances.

Constat 3

Le terme « frameworks » désigne les bibliothèques permettant de gérer l’état des agents, l’exécution des outils et le flux de contrôle. Nous avons suivi l’utilisation des frameworks d’IA en analysant les dépendances des services utilisant l’instrumentation APM.

Nous avons pris en compte les frameworks d’IA suivants : OpenAI Agents, LangGraph, LangChain, Langflow, CrewAI, Microsoft AutoGen, LlamaIndex, CAMEL-AI, MetaGPT, smolagents, Flowise, SuperAGI, Griptape, n8n, Haystack, Spring AI, AgentScope, AgentFlow, Atomic Agents, OpenHands, Prompt Flow, Strands Agents, Letta, Rasa, Lindy, Vercel AI SDK, Botpress, Marvin, Instructor, Guidance, AWS Bedrock Agents, Pydantic AI, Microsoft Semantic Kernel, Mastra et Chainlit.

Constat 4

Dans le cadre de cette analyse, nous avons traité tous les spans depuis mars 2026 et extrait le rôle de l’émetteur associé à chaque message d’appel à un LLM. Pour préserver la confidentialité des données, nous avons estimé le nombre de tokens en divisant le nombre de caractères de chaque appel par quatre. Nous avons ensuite additionné ces nombres pour l’ensemble des appels aux LLM et calculé la contribution en pourcentage de chaque rôle de prompt.

Le pourcentage d’appels aux LLM comportant des tokens d’entrée lus depuis le cache correspond à la proportion d’appels incluant plus de zéro token d’entrée issu du cache, uniquement pour les modèles pour lesquels au moins un span contient ce type de token. Cette limitation garantit que la métrique n’est calculée que pour les modèles qui prennent en charge les lectures du cache.

Constat 5

Pour établir ce constat, nous avons analysé le nombre moyen de tokens par span pour les entreprises envoyant des traces LLM à Datadog. Nous avons ensuite calculé le nombre médian de tokens par requête pour chaque entreprise et avons représenté graphiquement la tendance sur un an.

Constat 6

Pour établir ce constat, nous avons étudié le statut des appels/spans LLM envoyés à Datadog au cours du mois de mars 2026. Les spans associés au code d'erreur 429 ont été catégorisés comme des erreurs de quota ou de dépassement de capacité. Les autres erreurs 4xx ont été classées séparément. De la même manière, les erreurs transitoires liées au serveur ou à la passerelle ont été codées sous le libellé « 50x » et toutes les autres erreurs regroupées dans la catégories « Autres ».

Constat 7

Pour ce constat, nous avons analysé les applications d'IA agentique de bout en bout et le nombre d'appels LLM passés par chacune vers un service. Nous n'avons pris en compte que les applications passant au moins un appel à un service.

Collecte de données

Les constats ci-dessus sont issus de données collectées à l'aide de la solution LLM Observability de Datadog. Ces données nous ont permis d'analyser les métriques et métadonnées liées à l'utilisation des LLM par notre clientèle.

Licences

Rapport : CC BY-ND 4.0

Images : CC BY-ND 4.0