DASH では、Datadog がお客様のサービス監視、最適化、セキュリティ強化をどのように支援しているかをご紹介しました。 このまとめでは、パフォーマンスの問題やシステムの異常を解決するための実行可能なインサイトを自動で提示し、サービス全体を多角的に分析できる新機能を取り上げています。
ユーザーの操作上のつまずきを特定する RUM Recommendations、プロファイリングデータをリアルタイムで分析する Automated Analysis、そして CI パイプラインにおけるテストの信頼性を大幅に向上させるワンクリックの推奨機能をリリースしました。また、インフラだけでなく Datadog サービスにかかるコストも、これまで以上に簡単に管理できるようになりました
Product Analytics や Software Catalog などの新機能を含むこれらのアップデートにより、お客様は問題をこれまで以上に迅速に検出・解決できるようになりました。そのほかの主な発表内容については、基調講演のまとめ をご覧ください:
自動インサイトで問題をすばやく診断・解決
Tag Analysis を使用してエラーと遅延の要因を特定する
アプリケーションのパフォーマンスが低下した際、その根本原因を突き止めるには、関連しそうなタグを手探りで探し、トレースを手動でグループ化するといった、手間と時間のかかる作業が必要になることがよくあります。Datadog Tag Analysis は、遅延の急増やエラーと強い相関を持つタグを自動で特定し、こうした負担を解消します。統計的に有意な属性を優先順位付きでリスト化し、影響を受けたスパンと通常時のパフォーマンスとで、各タグの値にどのような違いがあるかを可視化します。これにより、新しいサービスバージョンに起因するパフォーマンスの低下や、特定のクラウドリージョンに集中して発生する問題など、異常な挙動の特徴をすばやく把握できます。もはや直感に頼ってタグの組み合わせを手作業で試す必要はありません。データに基づく明確な視点で問題の要因を特定し、調査の焦点を絞って迅速に解決へと導くことができます。詳細は ブログ記事 をご覧ください。

Datadog RUM Recommendations でユーザー体験に影響する問題を特定・解決しフロントエンド パフォーマンスを改善する
高速で信頼性の高い操作環境を提供するには、問題がどこにあるのかを把握し、最適化すべきポイントに注力することが重要です。Datadog RUM Recommendations はアプリケーションの各ビューを分析し、読み込みの遅さや フラストレーション クリック などユーザーのストレスの兆候を可視化することで、パフォーマンスやユーザビリティの問題をチームが主体的に検出・解決できるよう支援します。
Datadog は、ユーザーへの影響度に基づいて推奨事項に優先順位を付け、必要に応じたコードの修正内容も提示します。これによりチームは、最も重要な問題に対して迅速かつ的確に対応できます。
RUM Recommendations は現在プレビュー提供中です。こちら からプレビューにお申し込みいただくか、ドキュメント (英語) にて詳細をご覧ください。

Automated Analysis で継続的なプロファイリング データから実行可能なインサイトを得る
Continuous Profiler を基盤とする Automated Analysis は、アプリケーションを継続的に監視し、解決を促す実行可能なインサイトとともに、重大な問題をリアルタイムで検出・可視化します。これにより、コードプロファイリングに関する高度な専門知識がなくても、チームは問題をすばやく特定し、トラブルシューティングを進めることができます。
Datadog が問題を検知すると、Automated Analysis がその概要や重要な理由、パフォーマンスに影響しているメソッドやパッケージ、プロセスなどのプロファイリングデータをわかりやすく提示し、すぐに取るべき対応も提案します。詳細な実行時データを開発者にとって理解しやすいガイダンスへとつなげることで、サービスの健全性向上や解決までの時間短縮を支援します。プレビューへのアクセスは こちら からお申し込みいただくか、ドキュメント (英語)をご覧ください。

Datadog Database Monitoring でクエリのパフォーマンス低下を検出・分析する
クエリ リグレッション(意図しないクエリ実行時間の増加)は、ページの読み込み遅延や分析ワークロードの停滞、さらにはシステム障害につながる可能性があります。Datadog Database Monitoring (DBM) は、こうしたクエリ性能の劣化を発生と同時に検知し、いち早く対応できるよう支援します。DBM は、過去の実行履歴をもとにベースラインを確立し、異常検知を通じて、頻繁に実行されるクエリにおけるパフォーマンスの変化を特定します。さらに、問題の特定と解決に役立つ診断を自動で実行します。詳しくは ブログ記事 をご覧ください。

Topological Correlation で大量のアラートを整理・対処する
アラートストームは、関連するシステム全体でアラートが一斉に発生することで、運用チームや開発チームを瞬時に圧倒するおそれがあります。こうした複雑なアラートストーム に対応するには Datadog Event Management の Topological Correlation を活用することで、状況をより的確に把握し優先順位をつけた対応が可能になります。Topological Correlation は、インポートされたシステム間の関係性をもとに、依存関係のあるアプリケーションやインフラから発生したアラートをひとつのケースとしてインテリジェントにまとめます。たとえば、1台のサーバー障害をきっかけに発生したアプリケーションエラーの連鎖も、ひとつの事象としてグループ化されます。このようにアラートを統合してトリアージすることで、チームは問題全体を1つのワークアイテムとして把握できるため、アラート疲れを軽減しつつインシデントの解決をよりスムーズに進めることができます。Topological Correlation は現在 Preview 版として提供中です。ご利用を希望される場合は、担当のカスタマー サクセスまでお問い合わせください。

Product Analytics を使って、データに基づく UX デザインの判断を支援する
採用率やコンバージョン率、利用パターン、ユーザーフローなど、ユーザー行動を深く理解するには、実際のユーザーデータに基づくインサイトが欠かせません。Datadog Product Analytics を使えば、アプリケーション全体からユーザーデータを簡単に掘り下げて分析でき、プロジェクトの目的に応じて柔軟にカスタマイズすることができます。ユーザーのエンゲージメントや操作内容は、 Heatmaps、Pathways、Session Replay などの多彩な機能を通じて可視化でき、UX を多角的かつスピーディに評価できます。Product Analytics は一般提供中です。詳しくは ブログ記事 をご覧ください。

CCM の Budgets 機能と ML を活用したコスト異常検知により、組織全体にコスト管理への主体性を根付かせる
FinOps 担当者にとって、チームに予算情報を共有し、予算超過につながる異常についてエンジニアと連携することは、組織全体にコスト意識を根付かせるうえで大きな課題です。Cloud Cost Management(CCM)の Budgets 機能を活用すれば、クラウドや SaaS プロバイダーを横断して予算を柔軟に作成可能で、エンジニアリングチームは月単位や年単位で、予算に対する実績をいつでも確認できます。さらに、機械学習ベースの Anomaly Detection により、予期しないコスト変動、特に予算超過につながる異常を自動で検知し、FinOps チームとエンジニアリングチームの両方に通知します。これにより、影響を及ぼしている特定のサービスやチームにすぐにアプローチすることが可能になります。詳細は ドキュメント (英語)をご覧ください。

CCM Recommendations でビジネスニーズに応じたコスト最適化の提案をカスタマイズする
CCM Recommendations を使えば、コスト最適化に関する推奨内容を自社のビジネスニーズに合わせて柔軟に調整できます。リソース最適化の判断に使われるメトリクスのしきい値や評価期間を柔軟に設定できるため、不要なノイズを抑えながら、より迅速に対応を進め、AWS、Azure、Google Cloud 全体での早期コスト削減を実現できます。ぜひ Preview にご登録のうえお試しください。

Watchdog Explains でメトリクス異常の原因を即座に把握する
レイテンシーが急増したりエラー率が高まったりした際に、その原因を特定するにはさまざまな切り口でデータを分析する必要があり、数分かかることもあります。Watchdog Explains は、ダッシュボード上のメトリクスグラフをスキャンし、変化の要因となっているタグのキーと値の組み合わせを自動で特定することでこのプロセスを数秒で完了させます。タグのパターンを比較検証することで、リージョン、デプロイ、API ルート、ホストなど、統計的に有意な要因を強調し、インフラやソフトウェアスタックの中で問題の可能性が高い箇所にすばやくフォーカスできます。この機能は、ダッシュボードのメトリクスベースの時系列グラフでご利用いただけます。詳しくは ドキュメント (英語) をご覧いただき、ぜひお試しください。

エンドユーザーデバイスのインフラ変化やパフォーマンス問題の早期検知
Device Monitoring で社員端末の稼働状況を可視化しパフォーマンスを把握する
デスクトップ、ノートパソコン、ワークステーションなどのエンドユーザーデバイスは、従業員、契約社員、学生が日常的に使用する、業務に不可欠なツールです。企業環境では、生産性への影響を避けるために、これらのデバイスが常に安定して稼働していることが極めて重要です。IT 管理者をはじめ、エンタープライズ IT オペレーションチームやエンドポイント管理チームは、会社支給デバイスの可用性とパフォーマンスを維持する重要な役割を担っています。Datadog End User Device Monitoring は、デバイスの状態やパフォーマンスを可視化し、IT チームがパフォーマンス低下やネットワーク接続の問題をユーザーに影響が出る前にすばやく診断・解決できるよう支援します。ディスク、メモリ、CPU、稼働時間、サービス、プロセスなどに対する標準搭載の監視項目により、デバイスのトラブルを効率的に特定・対応できます。 あらかじめ組み込まれたインテグレーションにより、ブルースクリーン (BSOD) のような重大イベントにもアラートを発出でき、Wi-Fi や Network Path のモニタリング機能によって接続性の問題も特定・解決できます。実際の動作をぜひご体験ください。プレビュー への登録はこちらから。
Datadog の HA 対応エージェントでネットワークデバイスを常時監視する

Network Device Monitoring (NDM) でDatadog Agent の高可用性 (HA) のサポートを開始しました。指定されたアクティブ Agent が利用できなくなった場合でも、HA サポートによりスタンバイ Agent へ自動的に切り替わり、監視を継続できます。この仕組みにより、OS アップデートや Agent パッチなどの計画メンテナンス中はもちろん、予期しない障害が発生した場合でも、ネットワークデバイスの監視が中断されることはありません。アクティブ Agent がダウンすると、スタンバイ Agent が 90 秒以内に自動で引き継ぎ、アクティブ Agent として動作を開始します。
Datadog Agent の HA サポートの詳細については、ドキュメント (英語)をご覧ください。

Full Host Profiling でホスト全体のプロセスをノーコードで監視する
Datadog Full Host Profiling は、アプリケーションコードを変更することなく、ホスト上で稼働するすべてのプロセス(データベース、システムサービス、カーネルを含む)を常時可視化します。eBPF と OpenTelemetry を基盤としており、最小限の負荷であらゆるランタイムから高精度なパフォーマンスデータを収集できるため、大規模な本番環境でも安心してご利用いただけます。CPU スパイクのトラブルシューティングから、システムレベルのパフォーマンス最適化まで、原因を特定するための詳細な情報をコードの変更なしで取得できます。プレビュー にぜひご登録ください。

Browser Profiler でユーザーエクスペリエンスとバックエンドのパフォーマンスを関連付け、フロントエンドの問題を迅速に診断する
Datadog を使用すると、ユーザーがどのような体験をしているのかだけでなく、その背景にある原因までも簡単に把握できます。Browser Profiler は Real User Monitoring (RUM) と Continuous Profiler をを組み合わせ、フロントエンドの操作からバックエンドのボトルネックまで、アプリケーションのパフォーマンスをエンドツーエンドで可視化します。
RUM は、ロード時間の遅延、ページの反応停止、操作性の低下など、ユーザーが直面している問題箇所を特定します。Continuous Profiler はその根本原因を明らかにし、どの実行経路、メソッド、依存関係が問題の原因となっているのかを正確に示します。このようにエンドツーエンドで可視化することで、根本原因をすばやく特定でき解決までの時間を短縮できます。その結果、チームはより高速で信頼性の高いユーザー体験を、確信を持って提供できるようになります。
RUM と Continuous Profiler を併用することで、スタック全体のパフォーマンスをプロアクティブに向上できます。プレビュー版のご利用を希望される方は こちら からお申し込みください。

Datadog の利用状況とコストを Cloud Cost Management で一元管理する
組織での Datadog 活用が拡大するにつれ、コストの変動要因を把握し、チーム全体でコストを意識した運用を行うことがますます重要になります。しかし、実効性のある対策を講じるには、毎月の請求書だけでは不十分です。単なる請求額ではなく、どのサービスやチームがどれだけ使っているかまで把握できるコストデータが必要です。Cloud Cost Management (CCM) に追加された Datadog コストデータを活用すれば、Datadog サービスの運用にかかるコストを可視化し、適切なチームへの支出配分や、コストの積極的な管理が可能になります。Datadog のコスト指標は、CCM Explorer、ダッシュボード、ノートブック、モニターなどでも利用でき、日常の業務の中でコストを意識した意思決定を行えます。この機能は現在、限定提供中(Limited Availability ) です。詳しくは ブログ記事 (英語版)と ドキュメント (英語版) をご覧ください。

Amazon S3、Google Cloud Storage、Azure Blob Storage 向け Datadog Storage Monitoring でストレージ コストを削減し運用効率を改善する
Datadog の新しい Storage Monitoring 機能は、Amazon S3、Google Cloud Storage、Azure Blob Storage の使用状況を詳細に可視化し、クラウドストレージのコスト削減と運用効率の向上を支援します。AI アプリケーションの活用が広がり、処理されるデータ量が増加する現状において、オブジェクトストレージの使い方はこれまで以上に重要になっています。こうした環境では、ちょっとしたリソースの無駄や非効率なストレージ利用が、コスト増やパフォーマンス低下につながる可能性があります。Storage Monitoring は、S3 のプレフィックス単位のメトリクス取得や、バケットレベルのライフサイクル/保持ポリシーの可視化に対応しています。これにより、アーカイブストレージに移行すべきコールドデータの特定や、ホットプレフィックスによるパフォーマンスボトルネックの検出、ライフサイクルポリシーの効率的な管理が可能になります。S3 向け Storage Monitoring は、本日よりプレビュー提供を開始しました。また、Google Cloud Storage および Azure Blob Storage でも、プレフィックス単位のメトリクスが現在プレビュー提供されています。これらのサービスに関するリクエストメトリクスも、近日中に公開される予定です。
Preview版へのお申し込みはこちら|詳しくは ブログ記事 (英語版)をご覧ください。

Flex Logs の使用状況を監視してコストとパフォーマンスを最適化する
Datadog の Flex Logs にクエリの負荷がパフォーマンスに与える影響を可視化する新しいグラフが追加されました。Flex Logs Controls ページに表示されるこれらのグラフでは、処理が制限されたタイミングやその影響を受けたクエリ、リソースを多く消費しているユーザーなどを把握できます。これにより、遅延の原因調査がしやすくなり、設定の最適化もスムーズに行えるようになります。こうしたデータを活用することで、ダッシュボードの調整やクエリ動作の改善、必要に応じた処理リソースの増強も可能になります。今回のアップデートにより、Flex Logs を使うことで大量のログを扱う環境でもコストとパフォーマンスをこれまで以上に柔軟に管理できるようになりました。詳しく、 ブログ記事 (英語版)をご覧ください。

Resource Changes でインフラの変更を自動検出・可視化する
最新のマルチクラウド環境では、わずかな設定変更が数十のサービスに影響を及ぼし、インシデント発生時に最も重要な「何が変わったのか」という問いに答えるのが難しくなることがあります。Datadog の Resource Changes を使えば、AWS、Google Cloud、Azure 上で行われたインフラ構成の変更を、既存のワークフローに自動的に取り込むことができます。
モニターがアラートを検知すると、関連する時間範囲やタグなどのインシデントコンテキストを保持したまま、Resource Changes ページに直接遷移します。リソースの変更内容をクリックすると、最大1週間分の構成変更履歴を確認でき、設定の差分や関連ログもあわせて表示されます。このResource Changes ページ (クラウドリソース変更を一元的に確認できるビュー) により、変更の実施者や根本原因を特定しやすくなり、より迅速な是正対応につなげることができます。 詳細は ブログ記事 (英語版)をご覧ください。

Datadog の QuickStart セットアップでOCI 環境を数分で自動監視する
Datadog の QuickStart を使えば、わずか数クリックで Oracle Cloud Infrastructure(OCI) 環境全体の監視をすぐに開始でき、構成や管理はすべて自動で行われます。メトリクス、ログ、30 以上の OCI サービスに標準で対応しているため、QuickStart を導入するだけでインフラ全体を統合されたビューで即座に可視化できます。また、クラウド環境の拡張に合わせて新しいリソースやコンパートメント(OCI 内の管理単位) を自動検出して監視します。さらに、Resource Catalog で詳細なリソース メタデータを収集できるため、トラブルシューティングを迅速に実施可能で、運用効率の向上にもつながります。
新しい OCI QuickStart は現在プレビュー版として提供中です。今すぐ アクセスをリクエスト してお試しください。詳細は ブログ記事 (英語版) をご覧ください。さらに詳しい情報は、Datadog アカウントの integration documentation (英語版)や OCI タイル を参照してください。

Data Jobs Monitoring で Databricks のサーバーレスジョブを可視化・最適化する
Databricks のサーバーレス コンピュートは起動時間の短縮とインフラ管理の簡素化を実現し、パフォーマンス向上とコスト削減を目指すチームに広く採用されています。ホストレベルの監視が必要な従来のクラスターとは異なり、サーバーレス ワークロードにはジョブレベルのパフォーマンス、効率、コストに焦点を当てたオブザーバビリティが求められます。Datadog は Data Jobs Monitoring (DJM) 内でサーバーレス SQL ウェアハウスを含む Databricks サーバーレス ジョブの監視をサポートしました。これにより、サーバーレス ジョブとクラスターベース ジョブの遅延、エラー、使用傾向を単一ビューで追跡でき、可視性を損なうことなくパイプラインを最適化できます。詳細は ブログ記事 (英語版) をご覧ください。

Cloud Network Monitoring で ECS Fargate タスクのネットワーク通信を可視化する
ECS Fargate のようなサーバーレス プラットフォーム上で実行されるワークロードでは、基盤インフラを管理しないためネットワークの健全性を把握することが難しい場合があります。Datadog の Cloud Network Monitoring (CNM) は ECS Fargate タスクの監視に対応しており、タスク間の通信や、Fargate からドメイン、ホスト、サービスなど他の通信先への重要なネットワークメトリクスを収集できます。TCP 接続の失敗数、再送回数、遅延といったネットワーク指標を活用することで、Fargate タスク間のネットワークに起因する問題を簡単に特定できます。セットアップ方法は ドキュメント をご参照ください。

データの整理・可視化・分析
Datadog Distribution of the OTel (DDOT) Collector で OpenTelemetry と Datadog を統合する
OpenTelemetry (OTel) は、分散システム全体でトレース、メトリクス、ログなどのテレメトリー データをベンダー ニュートラルな形式で収集・エクスポートするための標準化されたオープンソース フレームワークです。Datadog Distribution of the OTel Collector (DDOT Collector) は、OTel の柔軟性と Datadog の高度なオブザーバビリティ・セキュリティ・自動化機能を組み合わせたもので、Datadog Agent に直接統合されています。OTLP を標準でサポートしているため、DDOT Collector を使えばテレメトリー データを簡単に処理でき、カスタム OTel コンポーネントでオブザーバビリティを柔軟に拡張できます。さらにDDOT Collector は運用負荷を軽減し、Datadog のモニタリング エコシステム内でスケーラブルな管理と迅速な問題解決を可能にします。詳細は ブログ記事 (英語版)と ドキュメント (英語版)をご覧ください。

OpenTelemetry ベースのデータモデルで Datadog をシームレスに統合する
OpenTelemetry(OTel)は、オブザーバビリティデータの収集と送信における業界標準として急速に普及しています。Datadog では独自のテレメトリ形式に加え、OTel 形式のデータを送受信する 複数の方法をサポートしています。一貫したモニタリング体験を提供するため、Datadog のダッシュボード、クエリ、主要な可視化機能では、Datadog 標準形式のメトリクスと OTel 形式のメトリクスの両方を並行して扱えるようになりました。追加設定は不要で、標準の Datadog 統合ダッシュボード(OOTB)上で OTel メトリクスをすぐに確認でき、Datadog と OTel のデータを横断した独自クエリも簡単に作成できます。
これにより、OpenTelemetry、Datadog Agent、あるいはその両方を通じてデータを送信している場合でも、統一されたオブザーバビリティ体験を得ることができます。また、既存のモニタリングワークフローに影響を与えることなく、各チームが自分たちのペースで OTel を導入できる柔軟性も確保されています。Datadog と OpenTelemetry のメトリクス定義の互換性については、ブログ記事 (英語版) をご覧いただくか、プレビュー版にご登録 してぜひお試しください。

DDSQL Editor でインフラ全体のデータに SQL クエリでアクセスする
DDSQL Editor を使えば、SQL クエリを通じてインフラ全体のデータにアクセスできます。AWS、Azure、Google Cloud のテーブルと、Datadog Agent が稼働しているホスト、コンテナ、Kubernetes クラスターを結合することで、環境に関する複雑な問いにもクエリで簡単に答えられます。たとえば、サービス全体で使用している Java ライブラリの一覧を取得したり、Agent のバージョン別・リージョン別にホスト数を集計したりするクエリを簡単に書くことができます。さらに、AI を活用して自然言語からクエリを生成し、そのクエリをダッシュボードに送信して結果を可視化・レポートすることも可能です。詳細は ブログ記事 (英語版)と ドキュメント(英語版) をご覧ください。

DDSQL Editor でログとメトリクスをクエリ・結合して分析する
DDSQL Editor では、インフラストラクチャーデータに対する SQL クエリに加えて、ログやスカラーメトリクス (単一の数値で表されるメトリクス) にもクエリや結合を実行できるようになりました。たとえば、エラーログを特定のコンテナと突き合わせて、直近のインシデントの根本原因を特定することができます。ログやメトリクスに直接クエリを実行できることで、他のツールや画面に切り替えることなく、より高度な調査を行えます。また、インフラストラクチャー以外のテレメトリも含めた可視化を行うことで、全体をより適切に管理できます。詳しくは ブログ記事 をご覧いただくか、フォームにご記入のうえ プレビュー版 をご利用ください。

自然言語でログを分析する
ログ向けの Natural Language Queries(NLQ)は、クエリ構文を知らなくても自然な英語で検索できるため、ログの探索や分析を大幅に簡素化します。Datadog のクエリ言語を習得する必要がないため、エンジニアやプロダクトマネージャーをはじめとした組織横断のチームが、ログから迅速にインサイトを得ることができます。この機能により、クエリの作成にかかる時間を短縮し、調査スピードを向上させることで、運用効率が高まります。自動クエリ変換によって、ユーザーは「何を探すか」に集中でき、クエリの書き方に悩まされることはありません。さらに NLQ は、新規ユーザーのオンボーディングを支援し、デバッグやトラブルシューティングのワークフローにすぐ参加・貢献できるようサポートします。詳細は ドキュメント (英語) をご覧ください。
Datadog CloudPrem で環境内に保存されたログを検索・分析する
世界的にデータ規制が厳格化する中、多くの組織ではログデータを発生元の環境内にとどめておくことが求められるようになっています。これにより、多くのチームがリージョンごとに分散したロギングツールを使い分ける必要に迫られ、運用の複雑化、コスト増、可視性の低下といった課題が生じています。こうした課題に対応するため、Datadog は CloudPrem を提供します。これは、Datadog のログ管理プラットフォームの機能を自社インフラに展開できる、ハイブリッドなログ管理ソリューションです。CloudPrem をクラウド環境やデータセンターにデプロイすることで、ログの取り込み・保存・インデックス作成をローカルで実行しつつ、Datadog の UI を通じてクエリや可視化を引き続き行うことができます。これにより、ユーザビリティや一元的な可視性を損なうことなく、データレジデンシー (データの保管場所に関する要件) やコンプライアンス要件を満たすことが可能になります。詳しくは ドキュメント (英語版) をご覧ください。

Cloudcraft で AWS インフラを最新かつ視覚的に可視化する
クラウド環境がますます複雑化する中、チームはその基盤となるインフラストラクチャーの構成を、常に正確かつ最新の状態で図示・把握することに苦労しており、その結果、可視性やチーム間の連携が妨げられています。こうした課題に対応するため、Datadog は、AWS インフラストラクチャーの構成図を自動かつ動的に生成する新しいプラットフォーム機能「Cloudcraft」を発表しました。Cloudcraft が生成する構成図は、組織のインフラストラクチャーに関する単一の信頼できる情報源として機能します。さらに、この構成図にはリアルタイムのオブザーバビリティ・セキュリティ・推奨内容に基づくコストデータが統合されており、可視性と管理性を大きく高めます。Cloudcraft により、チームはインフラ上の盲点を検知し、セキュリティの誤設定を修正し、クラウドコストの最適化を、すべて 1 つのインタラクティブなインターフェース上で実行できます。Datadog プラットフォームとの緊密な統合により、Cloudcraft は明確で実行可能なインサイトを提供し、チームがクラウドアーキテクチャをより効果的かつ協調的に把握・管理できるよう支援します。詳細は ブログ記事 (英語版)をご覧ください。
ライブ構成図からクラウドコストの削減ポイントを特定する
大規模かつ複雑な環境でクラウドコストを最適化しようとする際、インフラストラクチャーのどの部分が自分たちのチームの管理対象かを把握するのは容易ではありません。不完全なタグ付けや、インフラの共有によって、リソースの所有チームを特定するのが困難になるためです。この課題に対応するため、Datadog は Cloudcraft のインフラ構成図上で利用できる Cloud Cost Recommendations を発表しました。Cloudcraft では、関連するインフラストラクチャーが VPC、サブネット、セキュリティグループ単位でまとめて表示されるため、構成図上で近接するリソースを確認するだけで、チーム、サービス、コストセンターに関連するタグなしや所有者不明のリソースを見つけやすくなります。これにより、コスト削減の機会を簡単に特定できます。詳しくは ドキュメント(英語版) をご覧ください。

カスタムの割り当てルールを使って、クラウドプロバイダー間で発生する共有コストを適切なビジネス単位に割り当てる
コスト配分は FinOps における基本要素ですが、データベースやネットワークといった共有サービスは所有者が明確でないため、コストの可視化や部門別の適切な配分を行うことは多くの組織にとって課題となっています。Datadog Cloud Cost Management(CCM)では、AWS、Azure、Google Cloud 間の共有コストを、適切なビジネス単位に帰属させるカスタムの割り当てルールを定義できるようになりました。これには、共有コストや配分されていないコストを、任意の割合で分割できるカスタムの配分ルールも含まれます。これにより FinOps 担当者は、これまで帰属が難しかった、あるいは基盤インフラ上でタグ付けできなかった共有コストを分割・配分できるようになります。詳細は ドキュメント (英語版) をご覧ください。
Wildcard ウィジェットを使用して Datadog で Vega-Lite ビジュアライゼーションをネイティブに構築する
Wildcard ウィジェット を使用すると、Datadog のダッシュボードやノートブック内でカスタム Vega-Lite ビジュアライゼーションを直接コーディングできます。型にはまらないデータ形式、外部ソース、特定の変換など、高度な可視化機能を必要とするユースケースをサポートします。組み込みのクエリ エディタでデータを構造化し、条件付き書式を適用し、Data Preview でレンダリング前にチャート設定を確認し、JSON を手動で編集せずに主要なプロパティを調整できます。詳しくは ブログ記事 をご覧ください。

Software Catalog のカスタムエンティティでスタック全体を表現する
Datadog の Software Catalog はカスタムエンティティタイプをサポートするようになり、チームがソフトウェアを構築・運用する方法を反映した形でアーキテクチャを柔軟にモデル化できるようになりました。内部ライブラリ、パイプライン、ジョブ、インフラモジュールなど、サービス以外の要素にもカタログを拡張することで、発見性、スコアカードの精度、トラブルシューティングの効率が向上します。これにより開発者は、従来の一律なカタログでは可視化されていなかったエンティティを見つけ、適切に対処できるようになります。サービス以外にもカタログを拡張することで、ソフトウェアエコシステム全体において所有関係を明確にし、可視性を高め、ベストプラクティスの定着を促すことができます。詳細は ドキュメント (英語版) をご覧ください。

RUM without Limits™ ですべてのセッションを記録して重要な情報だけを保持する
RUM without Limits™ は従来のサンプリングに伴う高コストや制約を排し、Web やモバイルにおけるユーザー体験を完全に可視化することで、Real User Monitoring を再定義します。固定サンプリングによって重要なデータが失われることもなく、すべてのユーザーセッション(100%)を記録し、長期保存の対象として選択可能な、精度の高い実用的なメトリクスを提供します。柔軟に設定できる保持フィルターにより、チームは影響度の高いセッションを優先的に保存し、フロントエンドのエラーやパフォーマンスの劣化、ユーザーの不満を即座に特定できます。Session Replay を併用すれば、問題の可視化と解決を迅速に行うことができ、アプリケーションパフォーマンスの最適化とコスト管理を同時に実現できます。
RUM without Limits™ は本日より一般提供を開始しました。詳しくは ブログ (英語版) をご覧ください。

開発速度と安定性の向上
Datadog の IDP で、エグゼクティブ向けレポート(カスタマイズ可能)で組織全体の主要なエンジニアリング指標を可視化する
Datadog の Internal Developer Portal (IDP) には、プロダクトの信頼性、エンジニアリング標準の遵守状況、開発速度と安定性の傾向を把握し、ギャップを特定するための、すぐに使えるカスタマイズ可能なレポートが用意されています。これらのレポートでは、メトリクスをチーム単位で分解・集約して表示でき、メールや Slack を通じて簡単に共有できるため、エンジニアリングディレクターや経営層に最適です。メトリクスの集計方法の選択、過去のトレンド表示の調整、各種フィルターによる情報の絞り込みなど、組織の要件に合わせて柔軟にカスタマイズできます。現在 IDP では、Reliability Overview、Scorecards Performance、DORA Metrics Summary の各 Engineering Report を利用できます。詳細は ブログ記事 (英語版) と ドキュメント (英語版) をご覧ください。

Issue Correlation で原因特定を迅速化し、MTTR を短縮する
分散システムでエラーが発生した際、その原因や対応すべき担当者を特定するのは容易ではありません。Issue Correlation は、サービス間の関連する問題を自動的にマッピングし、開発者が本当の原因にたどり着くのを支援します。大量のアラートに埋もれることなく、チームは最も重大なエラーとその影響範囲に集中できます。アップストリームおよびダウンストリームの依存関係を可視化することで、根本原因の特定を加速し、解決までの時間(MTTR)を短縮します。スタック全体の可観測性を高め、より迅速なデバッグ、スマートな連携、明確な状況把握を可能にする強力な一歩です。Preview版 にぜひご登録ください。

テストの健全性を可視化しワンクリックで改善する
不安定なテストはチームの開発スピードを低下させ、CI に対する信頼を損ないます。新たに追加された Test Health ダッシュボードでは、失敗したパイプライン数や失われた CI 実行時間などテストの失敗がパイプラインに与える影響を正確に数値化できます。さらに、パイプラインの改善状況や回復した CI 時間といった指標を通じて、テスト最適化の効果も把握できます。
Test Health では、特定のリポジトリに紐付いた、高インパクトかつデータに基づく推奨事項も提示されます。各推奨には、特定の機能を有効化した場合に削減できる失敗数や節約できる CI 時間が、Before/After の予測とともに明確に示されます。
推奨事項はワンクリックで適用でき、テストの信頼性と効率を自動的に高めます。Test Health ダッシュボードと推奨事項 はアプリ内で確認できます。詳細は ドキュメント (英語版)をご覧ください。

Flaky Test Management で不安定テストを追跡・分類・修復する
新しい Flaky Test Management ページは、組織全体にわたる不安定テストの追跡、トリアージ、修復を一元的に行えるビューを提供します。単一のインターフェースから、すべてのテストのステータス(Active/Quarantined/Disabled/Fixed)と、失敗率、パイプラインの失敗数、浪費された CI 時間といった主要なインパクト指標を確認できます。
マージをブロックすることなく不安定なテストを隔離するには、Quarantine を使用します。このオプションでは、テストはバックグラウンドで実行されますが、失敗してもパイプラインは中断されません。問題のあるテストを完全にスキップしたい場合は、Disable を使用します。いずれのワークフローも、トレーサビリティとコントロールを維持しながら、CI ノイズを削減できます。
テストのライフサイクルを管理するための不安定なテストポリシーを設定できます。たとえば、デフォルトブランチで不安定になったテストを自動的に隔離し、30日以内に修正されなければ無効化するといったルールを定義可能です。不安定テストの修正対応を追跡するために、 Cases や JIRA チケットを作成することもできます。Flaky Test Management は現在プレビュー版を提供中です。ご利用を希望される場合は プレビューフォーム にご記入ください。

Datadog から AWS Lambda 関数をリモートで一括設定する
AWS Lambda 向けの一括リモート計装 (インストルメンテーション) を利用することで、チームは多数の Lambda 関数に対して Datadog から直接監視設定を適用できます。これにより、対象の関数は常に計装済みの状態に保たれ、拡張メトリクス、トレース、エラー追跡などの機能を簡単に追加できます。チームは、コードを再デプロイすることなくサーバーレスアプリケーションにトレーシングを迅速に追加でき、個別の関数に手動で監視処理を組み込む手間を省きつつ、リアルタイムでの監視設定が可能になります。
一括リモート設定を活用することで、組織横断的に運用やオブザーバビリティを担うチームは、すべてのアプリケーションやサービスオーナーと個別に調整することなく、重要なサーバーレスアプリケーションを確実に監視対象として保つことができます。大規模なインシデント発生時やトラフィックのピーク時にも、開発時に監視が設定されていなかった Lambda 関数にトレーシングを追加することで、問題の迅速な調査と解決に必要な可視性をすぐに確保できます。
AWS Lambda のサーバーレス監視の詳細については、 ドキュメント をご覧ください。また、一括リモート Lambda 設定のプレビュー版は こちら からお申し込みいただけます。

Monitor Notification Rules でアラート通知のルーティングを一元管理する
Monitor Notification Rules を使用すると、アラートのルーティングロジックを一元管理でき、個々のモニターの説明に通知先を指定する必要がなくなります。team:payments
や env:prod
などのモニタータグやグループタグに基づいてルールを定義すれば、Datadog が適切なメールアドレス、Slack チャンネル、オンコールのローテーションに自動で通知を送信します。ルーティングが 1 か所に集約されているため、新しいモニターを追加する際にも個別の設定は不要で、アラート運用をスムーズにスケールできます。チームはモニター定義をシンプルに保ち、組織のポリシーを順守しながら重要な通知の見落としを防止できます。詳しくは ドキュメント をご覧ください。
