AI エンジニアリングの現在地:Datadog の「AI エンジニアリングの現在地 2026」では、数千の AI エージェント環境から得られたデータをもとに、エージェント開発・アーキテクチャ・運用の最新動向を明らかにします。

research / agent observability / llm experiments / ai

この 1 年で、生成 AI は大きく進化しました。もはや、単一のモデル呼び出しを組み込むだけでプロダクトとは言えません。実験から本番へ。いまチームは、モデル群の管理やオーケストレーション、ツール呼び出し、長大なプロンプト、リトライ処理、さらには複数サービスにまたがる構成に向き合っています。これらは決して新しい課題ではありません。ルーティング、ライフサイクル管理、キャパシティプランニング、コスト管理、分散システムのデバッグ——これまでのエンジニアリングと地続きです。

しかし、LLM には決定的な違いがあります。モデルやプロンプト、リトリーバルの変更によって、コードを変えなくてもレイテンシ、コスト、失敗率が大きく変動するのです。エージェントが本番環境に投入される今、優れたデモと、信頼できるシステムの差を埋めるのは、評価と運用の規律にほかなりません。

本レポートでは、1,000 社以上の Datadog 顧客の LLM テレメトリをもとに、本番環境における AI エンジニアリングの実態を分析しました。その結果、モデルフリート管理、エージェント設計、コンテキストエンジニアリング、コスト最適化といった領域には、効率と信頼性を高める大きな余地があることが見えてきました。一方で、変化の激しいエコシステムの中で、それらを特定し、実現することは容易ではありません。本レポートでは、以下を明らかにします。「モデルプロバイダーや言語、オーケストレーションの採用はどう変化しているのか」、「本番ワークロードは、コンテキストやツール、マルチステップ処理をどのように活用しているのか」、「スケール時に顕在化する典型的な失敗パターンとは何か」。

なお、本レポートでは「AI アプリケーション」を、LLM を呼び出す本番サービス、「エージェント」を、マルチステップ制御やツール実行、複数サービス連携を伴うそのサブセットとして定義します。以下の調査結果には、データセット内のすべての AI アプリケーションに当てはまるものと、エージェント型ワークロードに特化したものがあります。これらの分析を通じて、本番環境における AI エンジニアリングの現在地を描き出します。

Fact 1

マルチモデル化が加速

Datadog が収集した LLM エージェントのテレメトリデータを分析した結果、多くの組織が複数のプロバイダーを併用していることが明らかになりました。OpenAI は依然として 63% のシェアを占めていますが、この 1 年で Google Gemini と Anthropic Claude がそれぞれ 20 ポイント、23 ポイントと大きくシェアを伸ばしています。

重要なのは、OpenAI のシェア低下(1 年前は75%) が利用減少を意味するわけではない点です。実際には、OpenAI を利用する Datadog 顧客数は 2 倍以上に増加しています。ただし、他のプロバイダーの成長がそれを上回っています。

この変化は、組織内部にも表れています。現在、70% 以上の組織が 3 つ以上のモデルを利用しており、6 つ以上のモデルを併用するケースも急増しています。単一のデフォルトモデルに依存するのではなく、各ワークロードのレイテンシ、コスト、運用リスク、タスク要件に応じて最適なモデルを選び分ける。そうした「モデルポートフォリオ」の構築が標準になりつつあります。

ただし、マルチプロバイダー型のプラットフォーム構成は、プラットフォームエンジニアリング、DevX、コンプライアンスの面で新たな課題も生み出します。複数のモデルプロバイダーやサービスにまたがる API 呼び出しを個別に扱う必要があるため、迅速な改善サイクルの実現や、安全性基準とコンプライアンス基準の一貫した適用が難しくなります。また、プロバイダー側でレート制限やパフォーマンス低下が発生した場合のフェイルオーバー対応も複雑になります。そのため、各環境でモデルプロバイダーの API を直接呼び出すのではなく、LLM リクエストを一元管理するためのモジュール化されたルーティング機構 (ゲートウェイサービスや OpenRouter のようなマネージドゲートウェイ) を活用する必要性が高まっています。

先進的なチームは、推論をパイプラインとして扱っています。抽出やタグ付けには軽量モデル、統合にはフロンティアモデルといったように、各ステージに最適なモデルを継続的に評価・ベンチマークしながら切り替え、コスト低下やモデル性能の進化に合わせて最適化を進めています。モデルゲートウェイを運用し、評価フレームワークを本番運用に組み込むことで、チームは出力品質、コスト、レイテンシに基づいて、ユースケースごとに最適なモデルを選択できます。特に、オンライン評価は、本番環境におけるモデルやエージェントの出力品質、安全性、パフォーマンスを把握し、適切なモデル選定を行ううえで不可欠です

“現在、多くのチームが本番環境で複数のモデルを利用しています。約 70% が 3 つ以上のモデルを運用しており、この傾向はエージェントの普及とともにさらに加速しています。そのため、OpenRouter では、スタートアップからグローバル企業までが何百ものモデルに安全にアクセスできるよう、1 つの統合を提供しています。ユーザーが求めているのは、すばやく切り替え、自由にテストし、自分たちのワークフローに最適なモデルを見つけられることです。”

Alex Atallah
氏 OpenRouter 社共同創業者兼 CTO

Fact 2

技術的負債として膨らむ LLM モデル運用

組織がマルチモデル環境へ移行するにつれて、その運用の複雑さも引き継ぐことになります。Datadog の分析によると、多くのチームは競争力維持のために新しいモデルを迅速に試す一方、本番環境で稼働している旧モデルの廃止には慎重です。その結果、多くの組織では、モデルの整理が追いつかないまま、新しいモデルが追加され続けている可能性があります。エージェントを本番運用する環境では、モデルが重複するたびに運用負荷が高まり、評価の負担も増加します。そのため、導入済みのすべてのモデルについて、パフォーマンスを継続的に検証し、リグレッションを管理する必要があります。

同じプロンプト、ツール、エージェントワークフローでも、モデルが変われば結果は変わります。つまり、モデルが 1 つ増えるたびに、品質、レイテンシ、コストの特性も増えていきます。実務上は、こうしたモデルの入れ替わりがガバナンス上の課題になります。

Datadog では、組織が新しいモデルリリースにどう対応しているかを把握するため、7 つの主要モデルの採用率を分析しました。その結果、チームは新しいモデルを比較的短期間で導入していることがわかりました。たとえば、Claude Sonnet 4.6 はリリース初月で採用率 17% に達しています。一方で、Sonnet 4.5 や GPT-4o などの旧モデルも、採用率は低下しているものの、2026 年 3 月時点でそれぞれ 19%、22% と一定の水準を維持しています。これは Sonnet 4.6 や GPT-5.4 と同程度です。2026 年時点では、決定的な「勝者」と言えるモデルは存在せず、多くのチームが複数モデルを並行運用し続けています。

マルチモデル環境は、継続的な評価とガバナンス、ゲートウェイによる効率的なルーティングによって適切に管理できます。ただし、プロバイダーが旧モデルの提供終了を進める中で、チームはそれらのモデルの段階的な廃止にも継続的に対応する必要があります。たとえば、Datadog が 2026 年 3 月に調査したリクエストトレースでは GPT-4o が依然として最も多く使われていましたが、OpenAI はすでに ChatGPT UI でこのモデルの提供を終了しており、API サポートの先行きには不透明さがあります。

Fact 3

エージェントフレームワークの普及とともに高まる、深いテレメトリの必要性

LangChain、Pydantic AI、LangGraph、Vercel AI SDK などのエージェントフレームワークは、一般的なパターンを簡単に追加できるようにし、開発を加速します。Datadog の調査では、フレームワークの採用率は 2026 年に前年比でほぼ倍増し、2025 年初頭の 9% 超から、2026 年初頭には 18% 近くまで増加しました。同じ期間に、エージェント型フレームワークを利用するサービス数も 2 倍以上に増加しています。フレームワークは開発を加速させる一方で、運用の複雑さやコストの増加も招きます。そのため、チームには、エージェントがどのように実行されているかを把握し、非効率なインポートロジックを特定し、必要に応じて専用ワークフローに置き換えるための包括的なエージェントテレメトリが不可欠です。

特筆すべき点として、このフレームワーク採用の拡大は、スタートアップ、中堅企業、大企業のいずれにおいても同様に見られました。

チームがフレームワークの定型コードで主要なパターンを実装すると、フレームワークが内部でステップや分岐を増やし、実行時に何が起きているのかをエンジニアが把握しづらくなります。その結果、エージェントのスプロールが起こりやすくなります。フレームワークを活用した AI アプリケーション開発では、ツールのファンアウト、リトライ、分岐を 1 回のインポートで追加できます。これにより、コストやレイテンシが徐々に増加し、障害の再現も難しくなります。そのため、エージェントの実際の実行状況を把握し、想定外の挙動を診断し、ワークフローが意図した結果からどこで逸脱しているかを特定するには、包括的なエージェントテレメトリが重要です。こうしたシグナルは、非効率なインポートロジックを専用ワークフローに置き換える判断にもつながります。

“これからのエージェントの問題は、「エージェントに何ができないか」ではありません。問われるのは、チームが何を観測できていないかです。エージェントにも、優れたソフトウェアに求められてきた本番環境でのフィードバックループが必要です。従来のソフトウェアとは異なり、エージェントは LLM 自体によって制御フローが決まります。そのため、オブザーバビリティは単に有用なものではなく、不可欠な要素になります。”

Guillermo Rauch
氏 Vercel 社創業者兼 CEO

Fact 4

大規模なシステムプロンプトを持つエージェント設計が進む一方で、プロンプトキャッシュは十分に活用されていない

Datadog の調査では、顧客トレースにおける入力トークンの 69% がシステムプロンプトに費やされていました。これには、最初のユーザークエリから連鎖的に実行される内部指示、ポリシー定義、ツールガイダンスなどが含まれます。これは、Datadog 顧客のコンテキストエンジニアリングにおけるコストの多くが、複雑に構成されたエージェントシステムで繰り返し使用されるシステムプロンプトの最適化に向けられていることを示しています。トークン使用量を削減するには、可能な限りシステムプロンプトを短縮し、再利用可能な要素をモジュール化してキャッシュできるようにすることが重要です。

構成があらかじめ組み込まれたシステムでは、ツールの利用が増え、ポリシーや安全性ガードレールによる制約も多くなります。ガードレールやツールガイダンスが呼び出しごとにそのまま繰り返されると、コストとレイテンシの大きなボトルネックになります。

プロンプトキャッシュは、モデルの挙動を変えずにコスト削減と高速化を実現する有効な手段です。特に、システム指示、ポリシー、ツールスキーマといった安定した構成要素を呼び出し間で再利用できる場合に効果を発揮します。しかし、プロンプトキャッシュに対応しているモデルであっても、キャッシュ読み取り入力トークンが確認できた LLM 呼び出しスパンは全体の 28% にとどまりました。つまり、多くの LLM 呼び出しで、依然としてプロンプト全体が毎回処理されているのです。

アプリケーションのキャッシュヒット率やキャッシュ済みトークンの割合が低い場合、その主な原因はプロンプトレイアウトにあることが少なくありません。プロンプト構成が非効率だと、動的コンテンツが過度に前方へ挿入されたり、本来は安定しているべき状態ブロックがリクエスト間で並べ替えられたり書き換えられたりします。その結果、キャッシュを成立させるプレフィックスの再利用が妨げられます。

Fact 5

コンテキストウィンドウの拡大により高まる、コンテキストエンジニアリングの可能性

エージェント型 AI が業界標準となりつつある中で、モデルの性能は向上し、大規模なリクエストのコストも低下しています。主要モデルのコンテキストウィンドウは、この 2 年間で桁違いに拡大しました。128,000 トークンから、一部の価格帯では最大 200 万トークンに達しています。これは、コンテキストウィンドウがもはや大多数のユーザーにとってボトルネックではなくなりつつあることを示しています。その結果、チームは会話履歴、取得したドキュメント、ツール出力、ポリシーガードレールなど、より多くの状態情報をプロンプトに組み込むようになっています。こうしたコンテキストは、エージェントの信頼性を高め、複雑なユースケースにより適合させるうえで不可欠です。

Datadog の調査では、顧客の LLM 呼び出しにおけるトレーススパンを分析しました。その結果、リクエストで使用される平均トークン数は、中央値の顧客で前年比 2 倍以上、上位 10% のパワーユーザーでは 4 倍に増加していることがわかりました。

プロンプトが大規模化し、チームがエージェントパイプラインにコンテキストを収集、生成、注入する新たな方法を取り入れるにつれて、レイテンシとコストの課題は自然に生じます。さらに、プロンプトに会話履歴、取得ドキュメント、ツール出力、ガードレールが増えるほど、ノイズや冗長性が重要なシグナルをかき消す可能性があります。特に、重要な詳細が長大な入力の奥に埋もれる場合は注意が必要です。

LLM エージェントにおける新たな制約要因は、コンテキストの量ではなく質です。多くのチームは、モデルが提供するコンテキストサイズを十分に使い切っていません。これにより、中心的な課題はトークン量の管理から、どの情報が実際にモデルの判断に影響を与えるのかを理解することへと移行しています。検索品質、要約、重複排除、明確な情報階層といったコンテキストエンジニアリングに投資する組織は、長大なコンテキストを扱えるモデルの能力と、本番環境のエージェントが安定して扱える範囲とのギャップを埋めることができます。そのためには、モデルが情報を最大限に活用できるよう、意思決定に最も関連する情報を確実に選択、圧縮、構造化する仕組みを整備する必要があります。

Fact 6

エージェントの信頼性が直面するキャパシティの上限: LLM 呼び出しで最も多い失敗要因はレート制限エラー

当社は、Datadog Agent Observability の顧客トレースデータをもとに、LLM 呼び出しの失敗を分析しました。2026 年 2 月の分析では、すべての LLM 呼び出しスパンのうち 5％がエラーを報告しており、そのうち 60％がレート制限の超過によるものでした。さらに 2026 年 3 月には、全体の 2％の LLM スパンがエラーを返し、その約 3 分の 1 がレート制限エラーで、合計で約 840 万件に達しています。こうした結果は、モデル提供側のキャパシティ上限が、エージェントの信頼性に影響を及ぼしていることを示唆しています。レート制限が実質的なキャパシティ上限となる動的な環境において信頼性を確保するためには、予算管理やバックプレッシャー制御といった運用面の工夫に加え、プロンプトの最適化も不可欠となります。

LLM アプリケーションにおける本番環境での主要な失敗要因がキャパシティである場合、チームはキャパシティエンジニアリングへの取り組みを一層強化する必要があります。特に、組織全体で共有されるキャパシティクォータや、同時実行数およびリトライのスパイクが重なると、周期的なリクエスト量の急増によって、割り当てられたキャパシティが予測不能な形で枯渇することがあります。これは、たとえば ReAct 手法を用いた可変ループを実行するシステムや、複数のエージェントが連携する構成で特に顕著です。問題は、長時間稼働するエージェントループがプロバイダーのレート制限や組織固有の同時実行上限に達したときにさらに深刻化します。リトライが連鎖的に発生し、負荷が増え、持続的なシステム障害へと発展する可能性があります。

プロンプトおよびアプリケーションロジックは、ループ長やツールファンアウトのスパイクを避けるよう設計する必要があります。同時に、プラットフォームチームは、キューシステム、バックオフ対策、フォールバックキャパシティを LLM アプリケーションのコアランタイムに組み込む必要があります。さらに、呼び出し回数やトークン使用量が上限に達した時点でエージェントループを終了させる予算を実装することで、暴走ループを防ぎ、キャパシティ枯渇が下流サービスへ波及するリスクを抑制できます。

Fact 7

エージェントは依然としてモノリシックが主流

Datadog の調査では、エージェント型アプリケーションのリクエストのうち 59% が単一のサービス呼び出しのみで構成されており、エンドツーエンドで 3 回以上のサービス呼び出しを伴うものは 18% にとどまりました。これは、多くのエージェントが依然としてモノリシックな構成にとどまっていることを示しています。一方で、マルチエージェントアーキテクチャを検証したり、既存環境とマイクロサービス形式で連携できるようにエージェントを専用サービス上にデプロイしたりする組織もあります。

多くのチームは、モノリスがスケールしにくいことを理解し、変化を模索しています。それでも、本番環境のエージェントは依然としてモノリシックな構成が中心です。専用エージェントサービスやマルチエージェントアーキテクチャへの移行は、組織のプラットフォームに新たな要件をもたらします。これらのアプリケーションをデバッグおよびテストするには、サービス境界をまたいでコンテキストやトレースを伝播させる必要があります。さらに、このような分散型プラットフォームを管理するには、ツールも含めたサービスマップが必要です。

今後の展望

今日の AI テクノロジー組織は、マルチモデル化、スキャフォールド化、コンテキストの高度化、そして分散化が進むシステムへと移行しています。その中で成功を左右するのは、エージェントの挙動、性能、コストを継続的に評価する力です。AI エージェントのアーキテクチャは、ますます複雑化しています。コンテキストウィンドウは拡大し、プロンプトは増加し、目に見えないドリフトの影響範囲も広がり続けています。

こうした変化に対応するには、チームに新たなスキルが求められます。信頼性の高い評価ループを運用する力、コンテキストを意図的に設計する力、シグナルの高い入力を構造化する力、そしてモデルやコンテキストのスプロールが技術的負債へと膨らむ前に統制する力です。その中でも、運用の基本が変わるわけではありません。チームには引き続き、予算とバックプレッシャーを適用し、フォールバックを組み込み、適切なタスクを適切なモデルへルーティングすることが求められます。次に優位に立つのは、エージェントを規律ある本番システムへと成熟させられる組織です。継続的に評価し、改善し、より観測可能で、統制しやすく、レジリエントで、コストを意識したシステムへと進化させることが競争力につながります。

AI エージェントのエンジニアリングについて詳しくは、Datadog のブログをご覧ください

Methodology

Population

本レポートでは、Datadog の顧客基盤に含まれる数千社から収集した利用状況データを分析しています。Datadog の顧客は、企業規模や業種が多岐にわたる一方、いくつかの共通点があります。まず、ソフトウェアインフラやアプリケーションパフォーマンスへの意識が高い傾向があります。また、一般的な企業と比較して、クラウドプラットフォームやサービスの導入が進んでいる傾向があります。本記事の結果はすべて、Datadog の顧客基盤から得られたデータに基づいています。そのため、世界市場全体を完全に代表するものではない、大規模ながら限定的なサンプルである点に留意してください。

Fact 1

このファクト 1 では、OpenAI、Anthropic、Google などの LLM モデルプロバイダーと、「その他」に分類されるプロバイダーを利用している組織の内訳を確認しました。分析対象は、Datadog に LLM スパンを送信しているすべての組織です。

Fact 2

このファクトでは、異なる LLM プロバイダーのモデルを利用している組織の内訳を確認しました。各モデルの利用率は、Datadog に LLM スパンを送信している組織の総数を基準に算出しています。また、データの傾向を示すために、OpenAI、Anthropic、Google の一部のモデルを選んで取り上げました。

Fact 3

この実証では、フレームワークを、エージェントの状態管理、ツール実行、制御フローを担うライブラリとして定義しています。AI フレームワークの利用状況は、APM インスツルメンテーションが有効化されたサービスの依存関係をもとに特定しました。

本分析で対象とした AI フレームワークには、OpenAI Agents、LangGraph、LangChain、Langflow、CrewAI、Microsoft AutoGen、LlamaIndex、CAMEL-AI、MetaGPT、smolagents、Flowise、SuperAGI、Griptape、n8n、Haystack、Spring AI、AgentScope、AgentFlow、Atomic Agents、OpenHands、Prompt Flow、Strands Agents、Letta、Rasa、Lindy、Vercel AI SDK、Botpress、Marvin、Instructor、Guidance、AWS Bedrock Agents、Pydantic AI、Microsoft Semantic Kernel、Mastra、Chainlit が含まれます。

Fact 4

この分析では、2026 年 3 月のすべてのスパンを対象とし、各 LLM 呼び出しメッセージの送信元ロールを抽出しました。機密データのインジェストを避けるため、トークン数の代替指標として文字数を使用し、文字数を 4 で割ってトークン数を近似しました。そのうえで、すべての LLM 呼び出しにおける推定トークン数を合計し、各プロンプトロールの構成比を算出しました。

キャッシュ読み取り入力トークンを含む LLM 呼び出しの割合は、キャッシュ読み取り入力トークンが 1 つ以上ある呼び出しの比率として定義しています。この比率は、キャッシュ読み取り入力トークンを含むスパンが少なくとも 1 つあるモデルのみを対象に算出しています。この制限により、キャッシュ読み取りに対応しているモデルのみが指標の評価対象となります。

Fact 5

このファクトでは、Datadog に LLM トレースを送信している組織を対象に、スパンあたりの平均トークン数を確認しました。そのうえで、組織ごとにリクエストあたりのトークン数の中央値を算出し、1 年間の推移として可視化しました。

Fact 6

このファクトでは、2026 年 3 月に Datadog に送信された LLM 呼び出し/スパンのステータスを確認しました。エラーステータスコードが 429 の場合は、該当するスパンをレート制限またはリソース枯渇エラーとして分類し、その他の 4xx エラーは別のカテゴリに分類しました。同様に、一時的なサーバーおよびゲートウェイの問題は「50x」として分類し、それ以外のエラータイプは「その他」に分類しました。

Fact 7

このファクトでは、エンドツーエンドのエージェント型 AI アプリケーションを対象に、アプリケーションがサービスに対して行う LLM 呼び出し数を確認しました。分析対象は、少なくとも 1 回のサービス呼び出しがあるアプリケーションに限定しています。

データ収集

上記の調査結果は、Datadog の Agent Observability 製品を通じて収集した、顧客による LLM 利用に関するメトリクスおよびメタデータの分析に基づいています。

ライセンス

レポート: CC BY-ND 4.0

画像: CC BY-ND 4.0