Datadog、AI プロジェクトの規模拡大に伴うコスト最適化とパフォーマンス向上を支援する「GPU Monitoring」を発表

ニューヨーク – AI を活用したオブザーバビリティおよびセキュリティプラットフォームのリーディングカンパニーである Datadog, Inc.（NASDAQ: DDOG）は本日、GPU Monitoring が全世界の顧客向けに提供開始されたことを発表しました。本製品は、AIコストの拡大に対応するためにスケーラブルかつ効果的な管理手法を模索する企業にとって、現在最も広く見られる課題の一つに対応するものです。

Datadog の Chief Product Officer であるヤンビン・リーは以下のように述べています。

「GPU インスタンスはコンピュートコストの 14%を占めており、企業がスケーラブルかつ効率的に AI ファーストの技術を構築しようとする中で、大きな課題となっています。多くの企業はコストの増加を認識しているものの、GPU コストを事業部門ごとに配賦することができず、ワークロードのコンテキストを把握したり、改善のための明確な次のステップを特定したりすることができていません。その結果、適切な予算策定や計画が非常に困難になっています。」

GPU Monitoring の提供開始は、単一のソリューションとして初めて AI スタック全体にわたる統合的な可視性を提供するものです。これにより、GPU リソース群（フリート）の健全性、コスト、パフォーマンスを、それらを利用する部門・メンバーと直接結び付けた単一の画面で確認でき、パフォーマンスが低下しているワークロードの迅速なトラブルシューティングやコスト削減を実現します。

リーはさらに以下のように述べています。

「キャパシティの誤った配分やトレーニングおよび推論ワークロードの停滞、コストの増加といった状況が発生すると、AI コストの適切な管理は経営レベルの重要課題となります。GPU コストの管理が解決すべき大きな問題であることは誰もが認識していますが、多くの企業はいまだ試行錯誤の段階にあり、スタック全体で何が起きているのかを単一の画面で把握することは非常に困難です。GPU Monitoring は、これまでにない効率性と信頼性でこの課題を解決します。」

現在利用されている GPU 関連ツールは、デバイスの健全性に関する概要レベルのメトリクスは提供するものの、部門横断的なリソース競合の問題を明らかにしたり、トレーニングや推論ワークロードが失敗する理由を説明したり、どのデバイスがアイドル状態にあるのか、あるいは非効率に使用されているのかを可視化したりすることはできません。この可視性の欠如により、調査には時間がかかり、開発部門では安全策として過剰なリソース確保を行う傾向があり、結果として無駄なコストが発生しています。

GPU Monitoring は、GPU リソース群のテレメトリをそれらのリソースを消費するワークロードと直接結び付けることで、この作業を効率化します。また、プラットフォームエンジニアリングチームと機械学習チームに共通の画面を提供し、共同で調査を行えるようにすることで、以下を可能にします。

過剰なコストを抑えつつ AI をスケール：GPU リソース群の使用パターンに基づく可視性と予測、および新規 GPU の購入か既存リソースの解放かを判断するための具体的な判断指針により、プラットフォームチームは高額な設備投資や長期の調達プロセスを回避できます。機械学習チームはより迅速に必要なキャパシティを確保でき、経営層は予測可能な支出のもとでより高い ROI を得ることができます。
AI の実装・展開の加速：停滞しているワークロードを、それを支える GPU、Pod、プロセスに直接関連付けることで、チームは数時間ではなく数分でパフォーマンスのボトルネックを特定でき、エンジニアは AI プロジェクトの提供に集中できます。
コストのかかる障害の回避：不健全な GPU を事前に特定し、クラスタ全体に障害が波及してトレーニングや推論が遅延する前に対処できます。
GPU コストの ROI 最大化：チームは GPU の利用状況とコストに対する責任を持ち、どこで過剰確保や未活用が発生しているかを容易に特定できます。これにより、リソースの回収と再配分が可能となり、無駄な支出を削減できます。

Hyperbolic のプロダクト責任者であるカイ・ファン氏は次のように述べています。

「Datadog GPU Monitoring のおかげで、マルチテナントの GPU インフラの状況を容易に把握できるようになりました。追加の設定なしで、インスタンス単位・デバイス単位でのコア使用率、メモリ、消費電力、温度などをすぐに可視化できます。ダッシュボードは初期状態から充実しており、カスタマイズも容易で、顧客ごとに分離された画面も数分で構築できます。さらに LLM Observability と組み合わせることで、すべてが一体化されます。モデルのレイテンシの急増から、その原因となる GPU メトリクスまでをツールを切り替えることなく追跡できます。単一のプラットフォームで AI スタック全体のオブザーバビリティを実現することで、当社のチームも顧客も自信を持って迅速に対応できるようになります。」

GPU Monitoring は現在一般提供中です。

詳細については、以下ブログ（英語）をご覧ください： https://www.datadoghq.com/blog/datadog-gpu-monitoring/

Datadog について

Datadog は、クラウドアプリケーション向けに AI を活用したオブザーバビリティおよびセキュリティプラットフォームのリーディングカンパニーです。Datadog の SaaS プラットフォームは、インフラストラクチャ監視、アプリケーションパフォーマンス監視、ログ管理、ユーザーエクスペリエンス監視、クラウドセキュリティなど、多数の機能を統合および自動化し、お客様のテクノロジースタック全体にわたる統合されたリアルタイムの可視性とセキュリティを提供します。Datadog は、あらゆる規模および業界の組織に利用され、デジタルトランスフォーメーションやクラウド移行の推進、開発・運用・セキュリティ・ビジネスチーム間のコラボレーション促進、アプリケーションの市場投入までの時間短縮、問題解決までの時間短縮、アプリケーションおよびインフラの保護、ユーザー行動の理解、主要ビジネス指標の把握を支援しています。

将来の見通しに関する記述

本プレスリリースには、新製品および新機能の利点に関する記述を含め、米国 1933 年証券法（Securities Act of 1933）第 27A 条および米国 1934 年証券取引所法（Securities Exchange Act of 1934）第 21E 条に規定される「将来予想に関する記述」が含まれています。これらの将来予想に関する記述は、当社の新製品および新機能の利点に関する記述が含まれますが、これらに限定するものではありません。実際の結果は、将来見通しに関する記述とは異なる可能性があり、「リスクファクター」の見出しの下に詳述されているリスクをはじめ、2026 年 2 月 18 日に米国証券取引委員会に提出した Form 10-Q の四半期報告書を含む米国証券取引委員会への提出書類および報告書、ならびに当社による今後の提出書類および報告書に記載されている、当社が制御できない様々な仮定、不確実性、リスクおよび要因の影響を受けます。法律で義務付けられている場合を除き、当社は、新しい情報、将来の事象、期待の変化などに応じて、本リリースに含まれる将来の見通しに関する記述を更新する義務または責務を負いません。