DASH 2023: Datadog の最新発表

Published

2023年8月3日

Read time

39m

2023年の DASH では、AI エコシステムの完全な視覚化、効率的なトラブルシューティングのための LLM の活用、ペタバイトの観測可能性データの完全な制御、クラウドコストの最適化などを可能にする新製品と新機能を発表しました。Datadog の新しい AI インテグレーションにより、AI スタックの各レイヤーを簡単に監視することができます。また、Datadog の新しい DevOps コパイロットである Bits AI は、環境全体の問題の検出と解決を迅速化します。クラウドインフラストラクチャーのセキュリティ確保、アプリケーションコードの脆弱性の発見、過去のセキュリティ調査の実施を支援する新製品を発表しました。また、静的コード分析とエンドツーエンドのモバイル監視を追加し、開発者向けの機能を拡張しました。この投稿では、DASH 2023 で発表されたその他の主要な発表とともに、これらの新製品をまとめ、お客様の環境をより深く視覚化するためにこれらの製品を使い始めるお手伝いをします。

LLM を活用した観測可能性と AI エコシステム

インテグレーションのまとめ: AI スタックの監視

AI 開発が各業界で加速する中、Datadog はインフラストラクチャーやデータストレージからモデルやサービスチェーンに至るまで、AI に最適化された技術スタックの各レイヤーを視覚化するための最前線の支援を行っています。機械学習モデルをアプリケーションやワークフローにインテグレーションするには、多くの場合、Pinecone や Weaviate のようなベクトルデータベース、Vertex AI や SageMaker のような開発プラットフォーム、CoreWeave のようなプロバイダーのディスクリート GPU など、多くの専門技術を活用する必要があります。NVIDIA DCGM Exporter インテグレーション](https://www.datadoghq.com/blog/monitor-nvidia-gpus-with-datadog/)を含む 12 の新しい AI インテグレーションにより、スタックの各コンポーネントに合わせた視覚化とメトリクスを備えたすぐに使えるダッシュボードにアクセスすることができ、ビジネスニーズに応じてモデルを効果的に拡張することができます。詳しくはブログ記事をご覧ください。

スタック全体の健全性とパフォーマンスを監視するための 12 の新しい AI インテグレーションをご覧ください。

LLM Observability

GPT や BERT のような事前学習済み大規模言語モデル (LLM) の導入は、生成 AI 技術の利用に革命をもたらしました。LLM を活用したアプリケーションの実装が容易になった一方で、アプリケーション開発者や機械学習エンジニアは、これらの事前学習済みモデルがどのように動作するかについての制御やインサイトが限られているため、基礎となる LLM を視覚化することは困難です。このため、モデルのパフォーマンスが低下したり、モデルの幻覚（ハルシネーション）のような不正確な動作が発生したりして、ビジネスリスクや風評リスクが発生する可能性があります。Datadog LLM Observability を使用すると、ユーザーはプロンプトとレスポンスを観測して、モデルのパフォーマンスを追跡し、改善の機会を特定し、エンドユーザーエクスペリエンスを最適化することができます。LLM Observability は、LLM を継続的に監視して、問題のあるクラスター、モデルのドリフト、モデルのパフォーマンスに影響を与える特定のプロンプトとレスポンスの特性を特定する、常時稼働型のソリューションを提供します。運用中の LLM を簡単に監視するには、2023年8月現在非公開ベータ版の LLM Observability へのアクセスをリクエストしてください。

Bits AI: Datadog の生成 AI インターフェイス

Bits AI は、Datadog の Web アプリ、モバイルアプリ、Slack で、インシデントの調査や対応をより効率的に行うための、新しい DevOps コパイロットです。Bits AI と自然言語で会話して、APM、ログ管理、クラウドコストマネジメント、リアルユーザーモニタリングなどの Datadog 製品からデータをクエリし、不具合のあるデプロイ、Watchdog からのログやトレースの異常、セキュリティシグナルなどの重要なインサイトをすべて一箇所で表示することができます。問題の調査を支援するだけでなく、Bits AI は、オンコール対応者を呼び出したり、インシデントのタイムラインを要約してチームにスピードアップを促したり、事後報告を作成するなど、インシデント管理の合理化にも役立ちます。Datadog は、生成 AI のパワーにより、コードレベルの問題を特定して修正を提案したり、Synthetic テストを生成してユーザーエクスペリエンスをプロアクティブに改善したり、ワークフローを検出してトリガーし、重要な問題を自動的に修復したりすることができます。Bits AI は2023年8月現在、非公開ベータ版としてご利用いただけます。サインアップするには、このフォームにご記入ください。Bits AI の詳細については、ブログ記事をご覧ください。

ログ管理

Flex Logs

組織がシステム全体から収集するログの量は、指数関数的に増加しています。その結果、ログの管理はますます難しくなっています。組織は、長期保持、迅速なアクセス、コスト効率の高いストレージという相反するニーズを調整しなければなりません。このような課題に対応するため、Flex Logs をご紹介します。ログの取り込みをストレージから切り離し、Datadog のお客様が選択したものだけを保存しながら、100% のログをリッチ化、パース、アーカイブできるようにする Logging Without Limits™ が提供する柔軟性の上に構築された Flex Logsは、ログストレージのコストをクエリのコストから切り離します。視覚化を犠牲にすることなく、わずかな月額料金で短期および長期のログ保持を提供し、自己メンテナンスのデータベースの必要性を排除し、すべてのログ、メトリクス、トレース間のシームレスな相関を可能にします。Flex Logs により、Datadog は、1 つのプラットフォームですべてのロギングユースケースに対するソリューションを提供します。Flex Logs は限定的に利用可能です。Datadog ログ管理ユーザーは、このフォームでサインアップして始めるか、専用のブログ記事で詳細をご覧ください。

ログ管理のための 15 分間の非サンプリング Live Search

インフラストラクチャー、アプリケーション、サービス、デバイスから毎分何千ものログが生成されるため、この膨大な量のデータをアクティブに検索・分析するために保持することは法外にコスト高になりかねません。ストリームベースのモニタリングソリューションは、リアルタイムのトラブルシューティングをサポートし、一時的に利用する必要のあるデータを保存する必要がないため、人気を集めています。

お客様のトラブルシューティング作業をサポートするために、ストリームベースの新機能、Live Search for Datadog Log Management を非公開ベータ版として提供します。Live Search for Log Management は、過去 15 分間の取り込まれたすべてのログを完全にサンプリングせずに検索および分析する機能を提供することで、リアルタイムのトラブルシューティング調査をサポートします。Live Search は、インデックス、クォータ、除外フィルターの構成に関係なく、処理後のすべてのログを完全に視覚化します。Live Search はまた、APM Live Search と便利に相関するため、特定のトレースに関連する過去 15 分以内のすべてのログを表示、検索、分析することができます。Live Search for Datadog Log Management は、ペタバイトスケールのデータを処理するように設計されており、取り込んだログを保持することなく、すべてのログの表示とクエリが可能です。Live Search for Log Management の詳細と非公開ベータ版へのリクエストは、専用ブログ記事をご覧ください。

リファレンステーブルを使用して、クエリ時にログにコンテキストを追加

ログは、アプリケーションエラー、セキュリティインシデント、およびパフォーマンスの問題を調査するための貴重なリソースですが、チームが問題に取り組む最善の方法を理解し、問題の優先順位を決定するために不可欠なコンテキストデータが欠けていることがよくあります。例えば、ログには顧客 ID は含まれていても、顧客名、発生した収益、販売地域、サポート階層などの他の関連データが含まれていない場合があります。

Datadog のリファレンステーブルは、独自のデータでログをリッチ化することで、この問題を解決します。例えば、リファレンステーブルを使用して、クエリ時にビジネスクリティカルな顧客情報をログに追加することで、特定の顧客セグメントに影響を与える問題を検索し、優先順位を付けることができます。セキュリティインシデントの際、脅威の IP アドレスなどの詳細を含むリファレンステーブルは、悪意のあるアクティビティのソースを特定するのに役立ちます。リファレンステーブルはログエクスプローラーとも深くインテグレーションされているため、クエリ時にログをフィルターし、監査や調査などに必要な最新のコンテキストを確保するために使用できます。

リファレンステーブルと、クエリ時のログのリッチ化とフィルター機能は、公開ベータ版です。詳細は専用ブログ記事をご覧ください。

APM とサービスガバナンス

シングルステップのインスツルメンテーションで APM を数分でセットアップ

市場をリードする Datadog のAPM ソリューションは、コンテキストに沿ったテレメトリーと AI アシスタンスにより、ユーザにサービスレベルの深いインサイトを提供し、クラウドスケールのアプリケーションの観測、トラブルシューティング、改善を可能にします。しかし、大規模な組織では、インフラストラクチャーとアプリケーションの異なるチームが所有するコードのインスツルメンテーションを通じて、APM を効率的に設定するのに苦労することがあります。Datadog APM では、お客様が分散型トレーシングをより迅速かつ容易に組織全体に展開できるよう、シングルステップインスツルメンテーションを提供します。これは、1 人のエンジニアが Datadog Agent をインストールすると同時に、数分ですべてのサービスをインスツルメンテーションできることを意味し、これにより関連するクライアントライブラリがアプリケーションのコードに自動的に追加されます。シングルステップインスツルメンテーションに加え、リモートインスツルメンテーションと構成のサポートを Datadog アプリに組み込み、Go の自動インストルメンテーションも実現しました。これらの新機能をお試しいただくには、ベータ版アクセスリクエストフォームにご記入ください。

シングルステップインスツルメンテーションで Datadog APM を数分でセットアップ

Trace Queries を使用してバックエンドエラーのビジネスインパクトを把握する

Datadog APM と分散型トレーシングは、基礎となるインフラストラクチャーから遅いネットワークや非効率なコードまで、リクエストパスのあらゆる場所でエラーやレイテンシーの原因を突き止めるのに役立ちます。しかし、必要な情報がリクエストの様々な部分に分散している場合、APM データで根本原因を調査し、問題のビジネスへの影響を理解するのは大変です。Trace Queries では、ブール値やその他の演算子を使用して、複数のサービス、エンドポイント、その他の属性を一度にクエリできます。こうすることで、特定の依存関係を切り分け、ダウンストリームのサービスに起因する問題の原因を確実に見つけ、アップストリームのサービス、エンドポイント、ページ、エンドユーザーへの影響を迅速に理解し、優先順位付けを容易にすることができます。Trace Queries は2023年8月現在、非公開ベータ版です。詳しくはドキュメントをご覧いただき、このフォームからアクセスをリクエストしてください。

APM の本番環境変数のスナップショットで例外を再現

本番環境でのエラーのデバッグは、複雑で長いプロセスとなり、開発サイクルをしばしば中断させます。エラーの原因となった入力や関連状態にアクセスできなければ、エラーの再現は困難になります。Datadog は、バグの修正とその根本原因の迅速な発見を支援するために、APM エラートレースの変数スナップショットを自動的にキャプチャできるようになりました。本番環境変数データにより、トレースやエラー追跡問題で発生した例外を、実際の本番環境の状態や入力で迅速に再現することができます。変数値は収集され、例外スタックトレースの各フレームにアノテーションが付けられます。非公開ベータ版へのアクセスをリクエストして、Python 変数データによるエラーのデバッグと例外の再現を今すぐ始めましょう。

Trace Queries を使用して、スパン関係を使用してリクエストトレースをクエリおよび集計する

サービススコアカード

サービスカタログは、サービスに関する組織の知識を一元化したリソースです。これに含まれることになったサービススコアカードは、サービスの観測可能性のギャップを特定して修正するのに役立ちます。サービススコアカードは、SLO やオンコールスケジュールが欠落しているサービスなど、サービスの可視性を制限する可能性のある欠点にチームが対処する機会をハイライトします。また、APM データとログの相関付けが行われていないなど、観測可能性のベストプラクティスを遵守していないサービスも簡単に発見できます。組織全体の利害関係者は、所有権とドキュメント、生産準備、および観測可能性ベストプラクティスの 3 つの主要カテゴリーで各サービスのスコアを確認できます。また、定義したルールに基づいてサービスを評価するカスタムスコアカードもあります。サービススコアカードの詳細については、ブログ記事およびドキュメントをご覧ください。サービススコアカードは2023年8月現在、公開ベータ版として利用可能です。

サービスカタログには、所有権とドキュメント、生産準備、および観測可能性ベストプラクティスのカテゴリーから各サービスのスコアが表示されます。

サービス間接続と推測サービスの可視性の強化

サービスの健全性とパフォーマンスは、その依存関係に密接に関連しています。Datadog APM は、サービスマップと個々のサービスページの両方を通じて、相互接続されたサービスの可視性を強化しました。サービスページでは、各サービスの依存関係をマッピングし、サービス間通信に関する完全でサンプリングされていない統計情報を提供します。つまり、APM を使用して、任意の 2 つのサービス間、またはサービスとその外部依存関係間のリクエスト数、レイテンシー、エラーレートを直接測定できるようになり、遅い接続や失敗した接続をすばやく特定できるようになりました。

Datadog は、インスツルメンテーションされたサービスのスパンタグに基づいて、外部 API やクラウドプロバイダーなどの直接インスツルメンテーションされていない依存関係も自動的に識別するようになりました。これらの推測されたサービスは、点線のノード境界で示され、青色でハイライトされます。サービスマップまたはサービスページから推論されたサービスを選択すると、エッジトレースメトリクスを検査できます。サービスページにおける依存性分析の強化と推測サービスは、いずれも2023年8月現在、非公開ベータ版として提供されています。Datadog APM ユーザーは、ここから登録できます。推測サービスの詳細については、ドキュメントをご覧ください。

Datadog APM はサービス間通信のメトリクスを提供し、直接インスツルメンテーションされていない依存関係を視覚化するようになりました

Resource Catalog の Ownership タブ

クラウド環境が複雑化すると、どのチームが特定のリソースを所有し、そのリソース上でどのサービスが実行されているかを理解することが難しくなります。インシデント対応者やセキュリティエンジニアは、アップストリームとダウンストリームのリソースを特定してトラブルシューティングするために、チーム間で協力する必要がありますが、誰と協力すればよいのかわからないことがよくあります。また、FinOps チームは、リソースのコストをそのリソースを所有するチームに属性付けする必要があります。Resource Catalog には、[Ownership] タブが追加され、リソースを所有するチーム (連絡先やオンコールスケジュールなど) と、そのリソースがサポートするサービスが表示されるようになりました。この新しいタブを参照することで、インシデントにどのリソースが関与しているかを簡単に判断し、関連チームに迅速に連絡して問題を解決できるため、MTTR を最小限に抑えることができます。Resource Catalog の Ownership タブは2023年8月現在、現在非公開ベータ版です。アクセスをリクエストするには、このフォームに記入してください。

アイデンティティプロバイダーのデータを使用してチームを定義し、Datadog 内の個々のリソースへのアクセスを制御する

Datadogは、2023年の前半に Datadog Teams を発表しました。これは、チーム固有のアセットやビューを指定することで、コラボレーションを合理化し、組織全体の可視性を正確に調整することができるものです。そして今回は、組織のオンボーディングを加速し、ガバナンス体制を強化できるようにする、この Teams の 3 つの機能強化について発表します。まず、アイデンティティプロバイダーのデータを使用してチームを定義できるようになったことで、Teams ではより強力な認証と、詳細なプロファイルおよびコンテキストデータの継承が容易になりました。

チームメンバーシップは、Azure AD または Okta SAML アサーションファイルから取得することができ、既存の API 駆動型ワークフローや手動構成の代わりにすることも、これらと併用することもできます。次に、強化された属性駆動型アクセス制御により、Datadog 内の個々のリソースにチームベースのアクセスを委譲することができるようになりました。例えば、チームメンバーに基づいてダッシュボードの編集権限を割り当てることができます。最後に、強化されたチームページでは、各チームのメンバーシップとキーリソースを一目で把握できるようになり、組織全体の可視性と透明性が向上し、新入社員がすぐに業務に慣れることができます。これらの新機能は、2023年8月現在、公開ベータ版としてご利用いただけます。このフォームに入力してアクセスをリクエストしてください。Datadog Teams の詳細については、ブログ記事またはドキュメントをご覧ください。

Teams を使用して、Datadog 内の個々のリソースへのチームベースのアクセスを委譲できるようになりました

アンバサダープログラム

Datadog は、Datadog アンバサダープログラムを発表します。このプログラムは、Datadog コミュニティに多大な貢献をした世界中の個人を表彰し、その功績を称えることを目的としています。Datadog アンバサダーとは、ブログ投稿、カスタムインテグレーション、オープンソースソフトウェアなどを通じて、深い技術的洞察や創造的なソリューションを共有している優れたプロフェッショナルたちのことです。個人的な貢献と功績に基づいて選出される将来のアンバサダーは、Datadog の従業員、または現在のアンバサダーによって推薦されます。年間メンバーシップには、DASH への旅行、ユニークなグッズ、無料の Datadog 認定試験など、豊富な特典が用意されています。Datadog は、8 名の最初のアンバサダーグループとともに、知識の共有に重点を置いた、有益で歓迎されるプロフェッショナルコミュニティを構築していきたいと考えています。

最初の 8 名の Datadog アンバサダーと Datadog アンバサダープログラム全般については、このトピックに関するブログ記事をご覧ください。

すべてのエンドツーエンドのセキュリティ

Datadog CIEM で IAM ベースの攻撃から保護

アイデンティティとアクセスの管理 (IAM) は、急速に拡大するクラウド環境のセキュリティを確保する上で極めて重要な要素です。しかし、チームがリソース、アイデンティティ、ワークロードを迅速にプロビジョニングする場合、多数の直接・間接権限を追跡することは困難です。そのため、IAM ベースの攻撃から保護するために、IAM の構成を常に最新の状態に保つことが重要です。

Datadog Cloud Infrastructure Entitlement Management (CIEM) を使用すると、権限のギャップや管理者特権などのアイデンティティリスクを継続的に検出して対処し、脅威アクターに悪用される前にその被害範囲を縮小することができます。そのリスクを持つすべてのリソース (ロール、ポリシー、グループ) をグループ化することで、一度に 1 つのアイデンティティリスクに対処することができます。または、リソースとそれに関連するすべてのアイデンティティリスクを体系的に見直すこともできます。また、Datadog CIEM は、問題を修正するために、調査に必要なコンテキストを提供し、AWS コンソールに直接ピボットして IAM 構成を更新することができます。詳しくはブログをご覧ください。

Datadog Cloud Infrastructure Entitlement Management で IAM ベースの攻撃からインフラストラクチャーを保護する

Datadog Infrastructure Vulnerability Management で脆弱性を軽減

アプリケーションをサポートするクラウドインフラストラクチャーは、常に変化する数十万のホスト、コンテナ、サーバーレス関数で構成されることがあります。このような規模と複雑さでは、重要な脆弱性を追跡し、どのリソースが特定の脅威に対して脆弱であるかを完全に把握することは多くの場合、困難です。そこで Datadog Infrastructure Vulnerability Management は、コンテナイメージやホストの脆弱性を自動的に特定し、どの脆弱性を最初に解決する必要があるかについて、コンテキストに富んだインサイトを提供することで、この問題を解決します。セキュリティに焦点を当てたインサイトにより、インフラストラクチャーが脅かされる前に、最も深刻な問題に優先的に対応することができます。詳しくはブログをご覧ください。

Application Vulnerability Management

配信とデプロイの速度が速くなるにつれて、コードが本番環境に到達するまでに、コードに含まれるすべての脆弱性を確実に検出することは、ますます難しくなっています。このような問題を検出するために設計されたアプリケーションセキュリティテストツールは数多くありますが、不正確であったり、誤検出を起こしやすかったり、実行速度が遅かったりすることが多く、ペースの速いシステムを監視するには実用的ではありません。そこで Datadog Application Vulnerability Management は、アプリケーションコードの脆弱性をリアルタイムで検出し、実行中のアクティブコードを内部から継続的に監視します。Vulnerability Explorer ページでは、システムに最大の脅威をもたらす脆弱性のリストを、意味のあるリスクスコアと影響を受けるサービスとともに簡単に表示できます。また、問題を迅速に修正するために、脆弱性が発見されたソースコードのファイル名、行番号、スニペットを表示することもできます。詳しくはブログ記事をご覧ください。

アプリケーションコードで検出された脆弱性のリストを重大度順に簡単に表示できます。

Application Security Management - API セキュリティ

API に特化した攻撃ベクトルは、大規模でインパクトの大きいセキュリティ侵害において、最近では一般的になっています。API の保護は、Web アプリケーションファイアウォール (WAF) だけでは十分に実現できないため、アプリの認証レイヤーとビジネスロジックを理解するツールが必要です。Datadog Application Security Management (ASM) は、Threat Management and Protection 機能を拡張し、API を標的とする脅威を深く視覚化します。API カタログを使用することで、API の健全性メトリクスとパフォーマンスメトリクスの表示から ASM に直接ピボットし、API を標的とする攻撃を確認できるようになりました。これには、攻撃者の IP と認証情報を示す攻撃試行や、攻撃がどのように形成されたかの詳細を示すリクエストヘッダーが含まれます。ASM と API Management を併用することで、API の攻撃対象領域を包括的に把握し、脅威を軽減するために迅速に対応することができます。この機能は2023年8月現在、公開ベータ版として利用可能です。このフォームからご登録ください。API カタログの詳細については、ドキュメントをご覧ください。

API カタログで API に対するトリガーされたセキュリティシグナルを表示する

Cloud SIEM Investigator による過去のセキュリティ調査

セキュリティ侵害は、ログの保存期限が切れてから数か月間発見されないことが多く、その場合、調査担当者は攻撃の範囲と影響に関する重要な質問に答えることが困難です。Cloud SIEM Investigator を使用すると、ログの詳細な履歴を利用した履歴セキュリティ調査を実施できるため、セキュリティ侵害が発生したのがかなり前であっても、その経緯を確認できます。攻撃の完全な履歴を視覚化することで、悪意のある行為者とその手口を特定できます。アクティブな攻撃を迅速に封じ込め、継続的なリスクを軽減するために、Workflow Automation を使用してランブックや修復ステップをトリガーすることができます。Cloud SIEM Investigator を使用した履歴セキュリティ調査の詳細については、当社のブログ記事をお読みください。

Cloud SIEM Investigator は、S3 サービスに対する失敗したアクションと、攻撃を軽減するために実行されたワークフローを表示します。

シフトレフトと開発者エクスペリエンス

CI/CD

Quality Gates によるコード品質とセキュリティ標準の強化

Datadog Quality Gates を使用すると、デプロイがコード品質、パフォーマンス、セキュリティに関する組織の基準を満たすように、柔軟なルールを定義することができます。すぐに使えるルールを構成して、新しい不安定なテストをもたらしたり、Static Analysis 違反を含むコミットをブロックすることができます。Quality Gates では、どのリポジトリやブランチに対してルールを評価するかを柔軟に決めることができます。また、コードスタイル違反やその他の違反に対する非ブロックルールを作成しながら、重大なエラーを含むデプロイメントを厳密にブロックすることもできます。例えば、以下に示すルールは、指定したサービスにセキュリティの脆弱性をもたらす CI パイプラインとワークフロー全体のコミットをブロックします。

Quality Gates は2023年8月現在、非公開ベータ版としてご利用いただけます。このフォームからアクセスをリクエストしたり、ブログ記事を読んで詳細を確認することができます。

Python の静的解析

Datadog Static Analysis は、ランタイム前にコードを分析し、ソフトウェア開発ライフサイクルの早い段階でベストプラクティス違反を検出します。これにより、組織が成長しても、コードベースへの新しい追加が既存の品質基準に準拠していることを保証します。すぐに使える 80 以上のルールにより、ランタイム時にコードを破壊する可能性のある問題 (パラメーターの数が無効など)、ベストプラクティス違反 (ネストされたブロックが多すぎるなど)、セキュリティの脆弱性 (下図のような SQL 挿入につながるコードなど) を検出できます。違反を迅速に解決するために、Datadog はコードテンプレートに基づいた修正を自動的に提案します。テンプレートが利用できない場合は、AI が生成した修正プログラム (下図) を適用して、コードを迅速に改善することもできます。

Static Analysis for Python は2023年8月現在、非公開ベータ版です。ドキュメントで詳細を確認するか、サポートチームに連絡することでアクセスをリクエストできます。

デジタル体験モニタリング

モバイルセッションリプレイ

エンジニア、デザイナー、プロダクトマネージャーは、高速なロード時間、継続的な可用性、幅広いデバイスでの摩擦のないアプリ内体験への期待など、モバイルコミュニティ特有の課題に直面しています。そのため、Datadog のモバイルセッションリプレイを公開ベータ版として発表できることを誇りに思っています。モバイルセッションリプレイは、モバイルデバイス上のアプリケーションを介した実際のユーザージャーニーを視覚的に再現し、開発者がバグを再現し、ユーザーの視点からどこで問題が発生したかを理解することを可能にします。この再現により、アプリケーションをスローダウンさせることなく、既存のトラブルシューティングデータを視覚的な補助と組み合わせ、アプリケーションのパフォーマンスを確保しながら、エンドユーザーの体験を明確かつ正確に把握することができます。また、モバイルセッションリプレイは、モバイルチームがユーザーが自社の機能をどのように操作しているかを理解するのに役立ち、顧客のニーズに応え、混雑した市場で際立つアプリを作成する開発者の能力を向上させます。詳しくはブログ記事全文をご覧ください。

Mobile App Testing

チームが効果的なモバイルアプリケーションテストを行うためには、さまざまなデバイスタイプ、オペレーティングシステムのバージョン、ユーザーインタラクション (スワイプ、ジェスチャー、タッチなど) をカバーするテストを作成し、これらのテストを実行するために必要なインフラストラクチャーとデバイス群を維持する必要があります。Datadog Mobile Application Testing は、クラウドで実デバイス上の高速かつノーコードで信頼性の高いモバイルアプリテストを提供します。これにより、技術者であるか否かを問わず、チームのどのメンバーでも、CI/CD パイプラインにシームレスにインテグレーションされた自動テストを作成・維持できるため、モバイルアプリを自信を持って出荷し、リリース速度を向上させることができます。

Datadog Mobile Application Testing を使用すると、iOS と Android の両方で、コードを記述することなく、ユーザーと同じようにアプリ内の最も重要なフロー内をクリックしたり操作したりするだけで、アプリケーションのエンドツーエンドテストを作成し、実行することができます。Datadog は、これらのテストを (エミュレーターではなく) 実際のスマートフォンやタブレット上で実行し、主要なアプリケーションのワークフロー、各ステップのスクリーンショット、詳細な合否結果をリアルにステップバイステップで表示するため、チームは何が問題だったのかを迅速に視覚化して修正することができます。さらに、これらのテストはアプリの小さな変更に自動的に適応するため、アプリの進化に伴うテストのメンテナンス作業が簡素化されます。詳しくはブログ記事全文をご覧ください。

Mobile Application Testing では、コードを記述することなく、iOS と Android の両方でアプリケーションのエンドツーエンドのテストを作成し、実行することができます。

クラウドのリソースとコストを把握し最適化

Cloud Cost Recommendations

クラウドコストを抑制することは不可欠ですが、不要なコストを回避するためにどこを安全に最適化できるかを特定しながらも最高のユーザーエクスペリエンスを提供することは困難です。そこで Datadog は、コスト最適化から推測を排除する Cloud Cost Recommendations を提供します。Datadog は、観測可能性データを分析し、コンピュートリソースを節約するために安全にダウンサイジングできるコンテナなど、節約の機会を発見します。Continuous Profiler を有効にしている場合は、ダウンサイジングの提案を実装することがサービスのエンドポイントのレイテンシーにどのような影響を与えるかを確認できます。また、安全に削除できる未使用のクラウドリソースに関する提案も表示されるほか、Workflow Automation を活用して未使用のリソースを継続的かつ自動的に削除することまでできます。Cloud Cost Recommendations は2023年8月現在、非公開ベータ版です。詳細とアクセスリクエストは、こちらにアクセスしてください。

Kubernetes Resource Utilization

クラウドアーキテクト、アプリケーション開発者、プラットフォームエンジニアの間では、コンテナインフラストラクチャーアセットを効率的に使用していることを確認する必要性が高まっています。よりスマートなキャパシティ割り当てと計画を実装するための第一歩は、Kubernetes オブジェクトのリソース使用状況をリアルタイムと履歴で把握することです。Datadog の新しい Kubernetes Resource Utilization ビューは、クラスター、ポッド、コンテナ全体の CPU とメモリの割り当てと使用率を視覚化するため、リソースを効率的に使用していないワークロードやプロビジョニングが不十分なワークロードを簡単に特定し、それに応じて調整することができます。コンテナ化されたサービスのパフォーマンスとリソースの使用率を単一のペインで視覚化することで、アプリケーションの実際のフットプリントをよりよく理解できます。これにより、適切なバランスのコスト、パフォーマンス、信頼性でデプロイを構成できます。Kubernetes Resource Utilization は2023年8月現在、公開ベータ版としてご利用いただけます。詳細については、ドキュメントを参照してください。

OpenTelemetry Collector からのコンテナメトリクスを視覚化

Datadog の Container Overview Dashboard は、コンテナ環境の健全性に関するキーインサイトを提供します。そして、OpenTelemetry （OTel）でインスツルメンテーションされたアプリケーションを実行しているコンテナに対しても、すぐに使える可視性を提供するようになりました。OTel Collector と Datadog Exporter を使用してメトリクスを収集しているお客様は、このダッシュボードを使用して、コンテナ環境の CPU、ネットワーク、メモリ、IO メトリクスを監視することができます。OTel Collector を構成すると、Datadog は自動的に OTLP データモデルのメトリクスとメタデータを互換性のあるテレメトリースキーマに変換 (またはマッピング) します。これにより、問題をトラブルシューティングする際に、コンテナ ID、サービス、環境などのタグを使用してメトリクスをフィルターすることが可能になります。たとえば、service タグを使用すると、設定された CPU 制限に近づき、スロットルやパフォーマンスの低下につながる可能性のある特定のサービスに CPU 負荷の高いコンテナがあるかどうかを判断できます。Datadog Agent と OTel Collector の両方に依存している環境では、ダッシュボードを使用して、統一されたビューで両方のソースからコンテナを監視することができます。

Datadog は、Datadog プラットフォーム全体における OTel の強化されたサポートとともに、この機能を導入するためにオープンソースコミュニティと密接に協力してきました。ドキュメントをチェックして、OTel でインスツルメンテーションされたアプリケーションからのテレメトリーを視覚化してください。

CDN 向けのクラウドサービスインサイト

最新のアプリケーションは、外部やサードパーティのさまざまな依存関係やサービスに依存しています。ユーザーに影響を与えるアプリケーションの問題が、自社のサービスで発生しているのか、それともそれらの依存関係の問題によるものなのかをピンポイントで特定する能力を持つことは、効率的なトラブルシューティングのキーとなります。Datadog Synthetic Monitoring は、Cloud Services Insights for CDNs により、コンテンツ配信に依存している CDN の問題を自動的に検出し、通知することができるようになりました。また、どの Synthetic テストがこの問題の影響を受けている可能性が高いかを要約するため、影響の範囲をすぐに確認できます。これにより、例えば、特定の地域のユーザーのレイテンシー増加の根本的な原因が外部サービスにあるのかどうかを迅速に特定することが容易になります。クラウドサービスの依存関係をこのように視覚化することで、自信を持って問題をクラウドプロバイダーにエスカレーションし、不要なトラブルシューティングのサイクルをなくすことができます。Cloud Services Insights は、現在、Synthetic Monitoring のすべての US1 のお客様にご利用いただける状態で、間もなく一般的にご利用いただけるようになります。Synthetic Monitoring を始めるには、ドキュメントをご覧ください。

サーバーレス

AWS Step Functions のサーバーレスモニタリング

AWS Step Functions は、開発者が自動化されたマルチステップワークフローを作成できるサービスです。AWS Step Functions を使用すると、Lambda 関数の実行をより大規模なサーバーレスアプリケーションにオーケストレーションする複雑なワークフローを構築できます。Datadog ではすでに、既存のインテグレーションにより、Step Functions のメトリクスを監視し、関連する Lambda 関数を深く視覚化することができます。そして今回、Step Functions の監視のネイティブサポートを公開ベータ版でリリースしました。サーバーレスビューでメトリクス、ログ、トレースを表示し、ワークフロー全体で実行されるステートマシン関数のパフォーマンスを把握することができます。トレースのおかげで、Lambda のコールドスタート、長時間実行されるステップ、トラブルシューティングが必要な実行エラーを素早く見つけることができるため、Step Functions ワークフローのパフォーマンスを確実に維持するのに役立ちます。詳しくはブログをご覧ください。

AWS Step Functions ダッシュボードは、ステートマシンの健全性とパフォーマンスを理解するために必要なキーメトリクスを視覚化します。

Azure サーバーレスモニタリング

Datadog は現在、コンテナ化されたアプリケーションをデプロイするためのフルマネージドサーバーレスプラットフォームである Azure Container Apps に深い可視性を提供しています。また、Microsoft の完全サーバーレスホスティングオプションである Consumption plan 上で実行されている Azure Functions の監視も可能になりました。これは、サーバーレスビューを使用して、動的なワークロードを視覚化し、コールドスタート、ボトルネック、およびその他のパフォーマンスの問題を迅速に見つけることができることを意味します。

Azure Container Apps のサポートの一般提供を開始しました。Azure Container Apps から直接トレース、カスタムメトリクス、ログの収集と視覚化を開始するには、ドキュメントを参照してください。Consumption plan がホストする Azure 関数のトレースのサポートは、2023年8月現在、非公開ベータ版です。アクセスをリクエストするには、このフォームに記入してください。

Consumption plan でホストされている Azure 関数をトレースして、コールドスタート、ボトルネック、その他注意が必要な問題をすばやく特定します。

Google Cloud サーバーレスモニタリング

Google Cloud Functions は、決済処理やユーザー認証などの特定のタスクを処理する、単一のイベントドリブン関数を実行可能にするサーバーレスコンピュートソリューションです。Google Cloud Run は、サーバーレス環境で完全にコンテナ化されたアプリケーションをデプロイするためのフルマネージドプラットフォームを提供する、もう一つの人気のあるサービスです。ビジネスクリティカルなアプリケーションがこれらのサービスで実行されている場合、その健全性とパフォーマンスを深く視覚化することは、組織の成功のために必要です。Datadog は、Cloud Run サービスからトレース、カスタムメトリクス、およびログを直接収集するようになりました。これにより、サーバーレスビューでこのテレメトリーに関する統一されたインサイトを得ることができます。詳しくはドキュメントをご覧ください。

サーバーレスビューでは、非公開ベータ版で Cloud Functions からのエンドツーエンドのトレースの視覚化もサポートされました。これは、すでに監視している Cloud Functions のメトリクスやログに加えて、インフラストラクチャー全体に伝播する関数実行を表示できることを意味します。このため、コールドスタート、実行エラー、その他のパフォーマンスの問題を迅速に特定して修正できます。非公開ベータ版に登録するには、このフォームにご記入ください。

Cloud Function のトレースを、すでに監視している関連メトリクスやログと一緒に表示できるようになりました。

ネットワークモニタリング

NPM のストーリー中心 UX の更新でネットワーク調査を迅速に開始

組織の規模が拡大すると、ネットワークは必然的に拡大するホスト、VPC、コンテナ、リージョン、ゾーンの配列から大量のトラフィックを生成し始めます。このような大量のデータを監視することは非常に困難であり、特にネットワークの観測可能性に慣れていない人にとっては、ネットワークに問題が発生した場合にどこから調査を開始すればよいのか分からない場合があります。

この課題を克服し、開発者が簡単かつ迅速にネットワーク調査を開始できるよう、NPM 概要ページに対してストーリー中心の UX をリリースしました。この新しい UX は、主要なネットワークデータを自動的に表示し、個別のセクションに整理することで、上位のトラフィックコストの特定やサービスの依存関係の把握など、特定の問題解決のユースケースを支援します。

更新された NPM 概要ページは、主要なネットワークデータを自動的に表示し、整理します

また、NPM Analytics および DNS ページの UX を更新し、クエリの提案を追加しました。これらのクエリは、ネットワーク内で発生した DNS タイムアウトや TCP 再送信の量など、ネットワークに関する重要な情報を迅速に表示するため、調査の指針となります。更新された UX がネットワーク調査にどのように役立つかの詳細については、ブログをご覧ください。

NPM には、ネットワーク調査を迅速に開始するためのクエリ提案があらかじめ含まれるようになりました

NetFlow Monitoring

ネットワーク管理者は、ネットワークデバイス間のトラフィックフローを理解する上で NetFlow データに依存しています。NetFlow Monitoring を使用すると、ネットワークトラフィックの上位貢献者 (つまり、上位の発信者と上位の受信者) を特定し、どのサービスが利用可能な帯域幅を使用し、ネットワークの速度低下を引き起こしているかを理解することができます。すぐに使えるダッシュボードは、デバイスの NetFlow データ、および IPFIX、sFlow、JFlow などの他の NetFlow バリアントを視覚化し、SNMP メトリクス、トラップ、Syslog とともにトラフィックフローを調査できるようにします。NetFlow Monitoring は、現在一般的にご利用いただけるもので、Datadog Agent で、簡単に有効にできます。詳細は、ブログやドキュメントをご覧ください。

Datadog を使用して Netflow データを監視し、ネットワークの上位発信者を特定します

ポート間デバイス接続のためのネットワークトポロジーマップ

ネットワークエンジニアが高レイテンシーのアラートを受けた場合に、トラブルシューティングの最適な開始点を見つけるのが困難なことがよくあります。最新の企業ネットワークを構成するデバイスは何千台にも及ぶ可能性があるため、ネットワークパフォーマンスの低下の原因や結果をトレースするには、エンジニアはそれらの複雑な相互接続を理解する必要があります。Datadog Network Device Monitoring (NDM) は、ネットワークデバイスとその関係の詳細な鳥瞰図を提供するネットワークトポロジーマップを提供します。

各デバイスを 1 つ 1 つ確認したり、ネットワーク環境を理解するために組織的な知識に頼るのではなく、マップを使用して任意のデバイスを検査し、そのすべてのインターフェイス接続を表示し、その依存関係のどれにエラーが発生しているかをすばやく見つけることができます。任意のデバイスをクリックするとサイドパネルが開き、主要なパフォーマンスメトリクスや、デバイスが接続しているすべてのインターフェイスの詳細などを表示できます。そこから簡単にメイン NDM ページにピボットして、デバイスに関するさらなるコンテキストを表示したり、NetFlow Monitoring にピボットして、デバイスのネットワークトラフィックに関する詳細情報を表示したりすることができます。NDM ネットワークトポロジーマップは、2023年8月現在、公開ベータ版として利用可能です。Datadog Network Device Monitoring の詳細については、ドキュメントをご覧ください。

データベースモニタリング

Database Monitoring の Oracle サポート

Postgres、MySQL、SQL Server のホストレベルおよびクエリパフォーマンスメトリクスを提供する Datadog Database Monitoring (DBM) が、Oracle 向けに公開ベータ版として利用可能になりました。データベースビューは、スループットやレイテンシーなど、ホストレベルでの重要な健全性メトリクスを表示します。各ホストについて、アクティブな接続 (ホスト上で実行されているクエリ) を履歴とほぼリアルタイムの両方でキャプチャし、データベースが経験する負荷と、その負荷に最も寄与しているクエリを理解するのに役立ちます。クエリレベルでは、DBM はクエリメトリクス、サンプル、実行計画を視覚化します。この実行計画 (データベースエンジンがクエリを実行するために取るステップ) は、負荷の高いクエリのどのステップで最適化が有効かを確認するのに役立ちます。さらに、DBM for Oracle にはすぐに使えるダッシュボードが付属しており、CPU 使用率、メモリ使用量、IO などのホストの健全性メトリクスの概要を提供します。Oracle データベースをより深く視覚化するために、さっそく DBM for Oracle をホストにセットアップしましょう。ご質問がある場合は、CSM にお問い合わせください。

Database Monitoring Watchdog Insights

Datadog Database Monitoring (DBM) は、データベースホストとクエリの健全性とパフォーマンスを詳細に視覚化します。環境の規模が大きくなるにつれて、システム全体で何が起こっているかを理解し、データベースの問題をトラブルシューティングするために、最初にどこを見ればよいかを特定する助けが必要になることがあるでしょう。そのため、異常検出を使用して、ホストのアクティビティやクエリの興味深いパターンに関する洞察を提供する Watchdog for DBM を公開ベータ版としてリリースすることになりました。Watchdog for DBM はホストをスキャンし、データベースページのトップに健全性のサマリーを表示します。

健全性サマリーでは、CPU、IO、Lock、Network などの実行可能になるまで待機しているクエリを示す待機グループごとにホストの異常な傾向がハイライトされます。待機グループをクリックすると、UI はリストをフィルターダウンして、どのホストがこの異常なアクティビティを経験しているかを表示します。そこからホストをクリックすると、追加のパフォーマンスメトリクス、メタデータ、検出された内容を示す説明を含むブレイクアウトパネルを (下のスクリーンショットのように) 表示できます。また、上位のクエリとアクティブな接続をフィルターして、この異常が検出された時点で実行されていたものを確認することもできます。また、クエリレベルでは、Watchdog は長時間実行されているクエリや、他のクエリの実行をブロックしているクエリを指摘します。今すぐ DBM を使って、Watchdog のデータベースパフォーマンスの健全性に関する洞察を活用しましょう。

Watchdog for DBM は、クエリパターンとホストのアクティビティに関する洞察を提供します。

データベースクエリメトリクスとリクエストトレースを自動的に相関付ける

データベースレベルの問題は、アプリケーションのパフォーマンスに大きな影響を与える可能性があります。Datadog Database Monitoring (DBM) は、データベースクエリ、待機イベント、実行計画などに関する包括的な洞察を提供するため、問題や最適化領域を特定することができます。しかし、どのサービスが実際にこれらのクエリを実行しており、データベースのパフォーマンス低下の影響を受けているかを正確に理解することは、迅速なトラブルシューティングに不可欠です。

DBMとAPMの統合により、Datadog APMのサービスおよびトレースビューから、関連するデータベースメトリクスへシームレスにピボットできるようになりました。これにより、関連するAPMのトレースやサービスの呼び出しが表示され、上流のアプリケーションの依存関係がデータベースにどのように関係しているかを理解することができるため、データベースのトラブルシューティングがより充実したものになります。例えば、APMからError Trackingで問題のあるクエリーパターンを特定し、トレースを調査してパフォーマンスの遅いクエリーを特定し、ブロックされているデータベースホストを切り分けることができます。DBM と APM のテレメトリを接続することで、重要なアプリケーションのコンテキストが失われることがないため、データベースの問題をより迅速に解決することができます。今すぐ始める方法については、ドキュメントで詳しく学べます。

データベースモニタリングのクエリサンプルと実行計画に関する注意喚起

Datadog データベース・モニタリング (DBM) は、クエリ・パフォーマンス・メトリクス、実行計画、ホストレベルのメトリクスを分析することで、すべてのデータベースを深く可視化し、問題のトラブルシューティングを可能にします。この度、クエリサンプルと実行計画に対して警告を発する DBMモニタリングの設定が可能になりました。Datadogは、待機中のクエリ（下図）と長時間実行中のクエリのモニタリングをすぐに使えるので、ロック競合やその他のパフォーマンス問題を特定し、素早く対応することができます。また、DBMを使用して、最も頻繁に実行されるクエリを特定し、そのコストを経時的に追跡するモニタリングを設定可能です。例えば、あるクエリの実行計画が2倍のコストになった場合に通知するようにモニタリングを設定することで、コスト効率を最大化するためにクエリを調査・調整することができます。すぐに使えるDBMモニタリングを有効にすることから始めるか、ドキュメントでDBMモニターの設定可能性について学べます。

DBM モニタを使用して、待機中のクエリや長時間実行中のクエリにアラートを表示します。

Related jobs at Datadog

We're always looking for talented people to collaborate with

Start monitoring your metrics in minutes