14 min read

Share article

インテグレーションのまとめ: AI スタックのモニタリング
Shri Subramanian

Shri Subramanian

Brittany Coppola

Brittany Coppola

Addie Beach

Addie Beach

Anjali Thatte

Anjali Thatte

大規模言語モデル (LLM) を含む AI をアプリケーションに統合すれば、データ分析、インテリジェント検索、テキストやイメージ生成のための強力なツールを構築することができます。AI を活用し、ビジネスニーズに応じて拡張するために使用できるツールは数多くあり、多くのモデルを実行するにはベクトルデータベース、開発プラットフォーム、ディスクリート GPU などの特殊なテクノロジーが必要です。その結果、AI 用にシステムを最適化することは、多くの場合、スタック全体のアップグレードにつながります。しかし、それはモニタリングのニーズを再評価することにもなります。そうしなければ、新しい AI テクノロジーの急速な導入に伴い、観測可能性戦略に複雑さとサイロがもたらされるリスクが生じます。

Datadog は、数々の AI インテグレーションにより、AI テクノロジースタックの全レイヤーにわたるエンドツーエンドの監視を提供する最先端の企業です。各インテグレーションには、重要なコンポーネントに合わせたメトリクスを備えた「すぐに使える」 (OOTB) ダッシュボードが用意されています。この記事では、これらのインテグレーションが各 AI レイヤーの監視にどのように役立つかを探ります。

インフラストラクチャー: NVIDIA DCGM Exporter、CoreWeave

AI アプリケーションの構築、クラスター化、モニタリングのニーズを満たすためには、インフラストラクチャーがコンピューティング集約的なワークロードをサポートできなければなりません。Datadog は、Agent v7.47 から、NVIDIA の DCGM Exporter と直接統合し、多くの AI 対応アプリケーションで必要とされる並列コンピューティングに不可欠な NVIDIA のディスクリート GPU からのメトリクス収集を支援します。また、CoreWeave とのインテグレーションも発表できることを嬉しく思います。CoreWeave は、大規模で GPU を多用するワークロードを効率的にスケーリングするためのインフラストラクチャーを提供するクラウドプロバイダーです。Coreweave は Kubernetes 上に構築されているため、GPU に加えて Kubernetes のポッドとノードの監視も必須です。

Datadog CoreWeave インテグレーションでは、OOTB ダッシュボードと事前に構成されたモニターを使用して、CoreWeave が管理する GPU と Kubernetes リソースのパフォーマンスとコストを追跡できます。請求の詳細とともに使用量を簡単に分析できるため、AI プロジェクトを予算内に収めやすくなります。このインテグレーションでは、ポッドの CPU とメモリのメトリクスも提供されるため、システムを停止させる可能性のあるオーバープロビジョニングされたリソースをすばやく特定できます。例えば、ポッド全体で CoreWeave の使用量が着実に増加していることに気づいたとします。そんなときは Datadog のホストマップにピボットして、これが孤立した問題であるかどうか、そしてどの程度のインフラストラクチャーをアップグレードする必要があるかを判断することができます。

CoreWeave ダッシュボードでは、CoreWeave クラスター内のすべてのポッドとコンテナのメモリと CPU メトリクスを視覚化できます。
CoreWeave ダッシュボードでは、CoreWeave クラスター内のすべてのポッドとコンテナのメモリと CPU メトリクスを視覚化できます。

データの保管と管理: Weaviate、Pinecone、Airbyte

多くの AI モデル、特に LLM は、構造化されておらず、分類もされていない一般に入手可能なデータに基づいています。このデータをそのまま使用すると、モデルが有用な 推論 と意味のある出力を生成することが難しくなります。そのため、ほとんどの組織では、強力かつ複雑な ベクトルデータベース を使用して、それを独自のエンタープライズデータと組み合わせることで、この情報をコンテキスト化することを選択します。Weaviate は、そのようなオープンソースデータベースの 1 つで、データオブジェクトとベクトル埋め込みの両方を保管、インデックス化、スケーリングする機能を提供します。迅速なセットアップと包括的なサポートを利用するには、Pinecone のようなフルマネージド型のオプションを選択することもできます。

Datadog は、Weaviate (Agent v7.47 以降) と Pinecone の両方に OOTB ダッシュボードを用意しており、ベクトルデータベースの健全性の包括的な洞察を提供します。これらのインテグレーションには、リクエストレイテンシー、インポート速度、メモリ使用量などの標準的なデータベースメトリクスが含まれます。しかし、インデックスの操作やサイズ、オブジェクトやベクトルのバッチ操作の時間など、ベクトルデータベースのモニタリングに特化したメトリクスも含まれています。

Pinecone OOTB ダッシュボードでは、詳細なインデックスとベクトルのメトリクスを表示できます。
Pinecone OOTB ダッシュボードでは、詳細なインデックスとベクトルのメトリクスを表示できます。

Datadog では、これらのデータベースへのデータ投入と管理を支援するため、Airbyte のようなデータインテグレーションエンジンのモニタリングも提供しています。Airbyte は、データを統合してスムーズな処理を可能にします。Airbyte は、300 を超えるソースから情報を抽出し、事前構築されたコネクタを使用してデータウェアハウス、データレイク、データベースにロードします。Airbyte インテグレーションを使用すると、データ転送ジョブと接続を分析して同期の健全性を判断できるため、データ品質に影響を与える可能性のある問題を迅速に発見できます。

モデルのサービングとデプロイ: Vertex AI、Amazon SageMaker、TorchServe

AI アプリケーションの開発に必要な大量の情報処理とトレーニングを管理するには、モデルを設計、テスト、デプロイするための一元化されたプラットフォームが必要です。最も人気のある AI プラットフォームは、Google の Vertex AIAmazon SageMaker の 2 つです。それぞれにメリットがあります。Vertex AI では Google の堅牢なビルトインデータツールとウェアハウスのセットを活用でき、SageMaker はカナリアトラフィックシフトやサーバーレスデプロイなど、デプロイをより簡単で信頼性の高いものにする包括的な機能を提供します。

両プラットフォームには、その違いにもかかわらず同様の監視ニーズがあります。インフラストラクチャーが AI プロジェクトを確実にサポートできるようにするには、トレーニングジョブと推論エンドポイントの呼び出しのリソース使用量を追跡できる必要があります。さらに、クエリのタイプやサイズに関係なく、ユーザーが低レイテンシーを体験できるようにするには、パフォーマンスメトリクスが必要です。Datadog Vertex AI と SageMaker インテグレーションを使用すると、すべてのトレーニングノードと推論ノードのリソースメトリクス (CPU、GPU、メモリ、ネットワーク使用量データを含む) にアクセスできます。さらに、Vertex AI と SageMaker の OOTB ダッシュボードは、推論リクエストのエラー、レイテンシー、スループットのメトリクスを提供するため、潜在的なボトルネックを発見することができます。

SageMaker のダッシュボードは、豊富な OOTB モニターとともに、エンドポイントとジョブのステータスをすばやく判断するのに役立ちます。
SageMaker のダッシュボードは、豊富な OOTB モニターとともに、エンドポイントとジョブのステータスをすばやく判断するのに役立ちます。

デプロイプラットフォームに加えて、PyTorch のようなフレームワークを使用して、既存のライブラリでディープラーニングアプリケーションを構築し、モデルを本番環境に簡単に提供することもできます。PyTorch は TorchServe などのツールを提供し、PyTorch モデルのデプロイプロセスを合理化します。Agent v7.47 に含まれる TorchServe インテグレーションは、PyTorch モデルの健全性を継続的にチェックし、欠陥のあるデプロイを防ぐのに役立ちます。OOTB ダッシュボードを使うと、TorchServe サーバー自体の健全性メトリクスに加えて、モデルのバージョンやメモリ使用量など、問題をトラブルシューティングするための豊富なモデルメトリクスにアクセスできます。

TorchServe ダッシュボードでは、モデルや TorchServe サーバーの健全性メトリクスにアクセスできます。
TorchServe ダッシュボードでは、モデルや TorchServe サーバーの健全性メトリクスにアクセスできます。

モデル: OpenAI、Amazon Bedrock

AI テクノロジースタックの次のレイヤーは、AI モデルそのものです。OpenAI は、テキストや画像の作成を提供する一般的な生成 AI モデルと、この機能をアプリケーションにインテグレーションするために使用できる API を提供しています。Datadog は組織全体の使用量監視に役立つ OpenAI インテグレーションをすでに提供しており、チームがリソース使用量を最適化し、予算内に収めることを可能にしています。

OpenAI インテグレーションの最新バージョンには、OpenAI アカウントのリクエストとトークンの消費データが付属しています。サービスレベルの視覚化とリクエストごとの追跡のために、OpenAI インテグレーションは Python に加えて Node.js ライブラリもサポートするようになりました。さらに、イメージ、オーディオ、ファイルをサポートするものを含む、より多くの OpenAI API エンドポイントのリクエストレイテンシー、エラーレート、使用量を追跡することができます。

最新バージョンの OpenAI インテグレーションでは、すべてのリクエストについて、コストと使用量の強化メトリクスを表示できます。
最新バージョンの OpenAI インテグレーションでは、すべてのリクエストについて、コストと使用量の強化メトリクスを表示できます。

また、オープンソース組織のモデルを補完するために、AWS は AI をより身近なものにする取り組みの一環として、生成 AI サービスを開始しています。Amazon Bedrock はそのようなサービスの 1 つで、AI21 LabsAnthropicStability AI、Amazon の LLM foundation models への API アクセスを提供することで、開発者が生成 AI アプリケーションを構築し、スケーリングできるようにします。今後 Datadog と Bedrock を統合させることで、Bedrock API のパフォーマンスと使用量を視覚化できるようになります。

サービスチェーンとアプリケーション: LangChain、Amazon CodeWhisperer

最後に、使用したい AI モデルを特定し構成したら、サービスチェーンを使用してこれらのモデルを橋渡しすることで、堅牢でありながらまとまりのあるアプリケーションを作成することができます。LangChain は、使いやすいモジュール式コンポーネントを組み合わせて機械学習 (ML) モデルを構築できる、人気の高いサービスチェーンフレームワークです。Datadog の LangChain ダッシュボードには、全モデルのエラーレート、トークン数、平均予測時間、リクエスト合計が視覚化されており、アプリケーションの各コンポーネントを深く洞察することができます。さらに、モデル全体の使用量を評価するのに役立つサービスマップが付属しています。このインテグレーションは、OpenAI、CohereHugging Face や、Pinecone のようなベクトルデータベースを含む多くの異なるモデルの自動検出をサポートしています。

LangChain OOTB では、アプリケーションの全モデルのコストと使用量の傾向を視覚化できます。
LangChain OOTB では、アプリケーションの全モデルのコストと使用量の傾向を視覚化できます。

AI モデルによるイノベーションをさらに進めるために、AI モデルをより効果的に活用し、既存のワークフローにインテグレーションするためのツールも利用できます。Amazon CodeWhisperer は、生産性を向上させ、API に馴染みがなくても簡単にビルドできるようにコード提案を生成する AI コーディングの強い味方です。Datadog の CodeWhisperer OOTB ダッシュボードを使用すると、CodeWhisperer インスタンスにアクセスするユーザー数と、その全体的な使用量を経時的に追跡できるため、コスト管理が容易になります。

AI に最適化されたスタック全体を Datadog で監視する

最新の機械学習テクノロジーに対応するには、テクノロジースタックを迅速に適応させる必要があります。その代償として発生するサイロや盲点によって重大な問題が隠蔽されるのを防ぐために、監視戦略をピボットできる必要もあります。

Datadog でご利用いただけるインテグレーションは850 種類以上。インフラストラクチャーからモデル、サービスチェーンに至るまで、AI スタックのあらゆるレイヤーに対する洞察を提供します。これらのインテグレーションを始めるには、 ドキュメントをご参照ください。また、まだ Datadog をお使いでない場合は、14 日間のにご登録いただけます。

Related Articles

Resolve incidents faster by unifying cloud infrastructure changes with Datadog Snapshot Changes

Resolve incidents faster by unifying cloud infrastructure changes with Datadog Snapshot Changes

Optimize and troubleshoot cloud storage at scale with Storage Monitoring

Optimize and troubleshoot cloud storage at scale with Storage Monitoring

Key learnings from the 2024 State of Cloud Security study

Key learnings from the 2024 State of Cloud Security study

Monitor Amazon Bedrock with Datadog

Monitor Amazon Bedrock with Datadog

Start monitoring your metrics in minutes