Dash 2021: Datadog の最新発表

30 min read

Oct 26, 2021

Dash 2021 ではコード、データベース、CI/CDパイプラインなどの健全性やパフォーマンスに対する可視性をさらに高める新製品や機能を発表しました。ネットワークデバイスの監視、サービスのゴールデンシグナルメトリクスの可視化をコードに触れることなく行え、Datadog Appsを使ってサードパーティのツールをプラットフォームに統合できます。また、RUMを拡張し、iOSのエラー・トラッキング、セッションリプレイ、Watchdog Insightsを追加しました。Datadog のオブザーバビリティパイプラインは、お客様のインフラ上で実行され、オブザーバビリティデータの処理方法から送信先まで、お客様がコントロールできるようになります。この記事では、これらの新製品とDash 2021で発表された他のすべての重要な発表を要約し、アプリケーション、インフラストラクチャ、およびプロセスに対するより深い可視性を得るために、これらの製品を使い始めるためのお手伝いをします。

インフラとネットワークのモニタリング

ネットワークデバイスモニタリング

多くの企業にとって、ビジネスの成功は、オンプレミスやハイブリッドのインフラをいかに維持できるかにかかっています。これらのインフラには、何千台ものサーバ、ルータ、スイッチ、ファイアウォールなどが含まれます。これらのネットワークコンポーネントのいずれもが障害の原因となる可能性があるため、デバイスレベルの可視性が効果的な監視戦略の重要な部分となります。Datadog ネットワークデバイスモニタリングは、デバイス指向のビューを提供し、ネットワークチームが Datadog プラットフォーム内でインフラストラクチャ全体を簡単に監視できるようにします。ネットワークデバイスモニタリングでは、広範囲にわたる接続性の問題を一目で発見し、デバイスの特定のサブセットをゼロにして、さらにトラブルシューティングのために個々のインターフェイスにドリルダウンできます。

ネットワーク・デバイス・モニタリングの詳細には、ブログ記事をご覧ください。

Network Device Monitoring provides a device-oriented view that enables Network teams to easily monitor their entire infrastructure within the Datadog platform.

ユニバーサルサービスモニタリング

進化し続けるアプリケーション群を抱える企業にとって、SREや開発者が導入したすべてのサービスの健全性やパフォーマンスを追跡することは困難です。ユニバーサルサービスモニタリングは、組織内の誰もが、コードに一切触れることなく、すべてのバックエンドサービスのトラフィックを迅速かつ安全に可視化することができます。eBPFを搭載したシステムプローブは、カーネルで処理されるHTTPメッセージを自動的に解析するため、すべてのアプリケーションがオンラインになると同時に、リクエストレート、エラーレート、レイテンシを追跡することができます。これらの指標は、SLOの推進、アラートの設定、サービスマップによる依存関係の可視化、各サービスのデプロイメントの自動追跡などに利用することができます。ユニバーサルサービスモニタリングは現在、プライベートベータ版として提供されています。アクセスをリクエストするには、このフォームに記入してください。

ユニバーサル・サービス・モニタリングについては、ブログ記事をご覧ください。

Universal Service Monitoring enables everyone in your organization to quickly and securely get visibility into traffic across all backend services.

APM & Continuous Profiler

データベースモニタリング

データベースモニタリングは、すべてのホストにおけるデータベースの健全性とパフォーマンスの深い可視性を提供します。Datadog は、データベースから直接クエリパフォーマンスメトリクスを収集し、それらを視覚化することで、最も時間がかかり、最もコストのかかるクエリを明らかにします。問題のあるクエリを特定したら、その説明プランを調べて、どのように実行されたかの内訳を確認し、ボトルネックを特定することができます。さらに、データベースモニタリングは、クエリとホストのメトリクスを自動的に関連付け、リソースの制約がデータベースのパフォーマンスに与える影響を把握することができます。また、タグを使用することで、特定のホストやデータベースクラスタなど、特定のセグメントのデータを分離することができます。すべてのクエリパフォーマンスメトリクスは3ヶ月間保存されるため、長期的な分析、SLOの作成、アラートの設定などを行えます。

データベースモニタリングは、現在、セルフホスティングおよびクラウドマネージドバージョンのPostgreSQL、MySQL、SQL Server（ベータ版）をサポートしています。詳しくは、ブログ記事をご覧ください。

Examine in-depth explain plans to identify hotspots in your database queries

ファセットによるサービスの検索とフィルタリング

DatadogのAPM サービスリストは、インスツルメンテッド・サービスすべての主要なパフォーマンス・メトリクスを俯瞰的に見ることができます。必要な特定のサービスにビューをスコープするのをさらに簡単にするために、タグとファセットを使用してサービスをフィルタリングして検索できるようになりました。ファセットを使うと、サービスの種類（キャッシュ、データベース、ウェブ・サービスなど）や、Watchdog がサービス内で問題を検出したかどうかで、サービスをすばやくフィルタリングすることができます。これにより、最も調査したいサービスをすぐに掘り下げることができ、トラブルシューティングのスピードアップにつながります。

プロファイラーのサポートを拡大

Continuous Profilerは、本番環境全体のコードレベルのパフォーマンスのスナップショットを提供します。プロファイルを利用することで、リソースのボトルネックを特定し、アプリケーションのパフォーマンスを向上させるための実用的な洞察を得ることができます。今年の初めには、プロファイル比較表示を導入しました。これは、コードの変更が時間の経過とともにどのようにパフォーマンスに影響するかを確認することで、サービスを最適化するのに役立ちます。このたび、Continuous ProfilerがRuby向けのパブリックベータ版として提供されることになりました。また、PHP、.NET、C、C++も近日中にサポートされる予定です。

A Continuous Profiler flame graph shows functions in the sequence in which they were called and visualizes each function's resource usage.

RUM

セッションリプレイ

セッションリプレイは、個々のユーザーセッションをビデオのように録画することで、フロントエンドのエラーのトラブルシューティングの手間を省き、解決までの時間を短縮するとともに、ユーザーの行動に関する重要な洞察を提供します。セッションの記録は、ステップバイステップのイベントタイムラインとともに表示されるため、チームはエラーの引き金となったユーザーの行動を正確に特定することができ、さらに調査するためにコンテキストの詳細にシームレスにピボットすることができます。また、セッション再生は、ユーザーがアプリケーション内をどのように移動し、壊れた要素にどのように反応するかというパターンを明らかにするのに役立ちます。これにより、UXデザイナーは自分たちの仮定を検証し、改善が必要な領域を特定することができます。セッション記録では、クレジットカード番号やパスワードなどの機密データはデフォルトでは表示されないため、チームは顧客のデータが保護されていることを信頼できます。

セッションリプレイについては、ブログ記事をご覧ください。

Session Replay captures video-like recordings of user sessions, which are displayed alongside step-by-step event timelines.

ファネル分析

Datadog のファネル分析では、Datadog RUMデータを活用して、ユーザーがビジネスの健全性に欠かせない重要なワークフローを正常に完了しているかどうかを視覚化し、簡単に理解することができます。ワークフローを構成するページビューとアクションのシーケンスを選択すると、ファネル分析は、各ステップから次のステップへの移行に成功したユーザーセッションの割合をグラフ化し、トラフィックの落ち込みがある場所を示します。これにより、ユーザーがフローを完了する前に離脱してしまう原因となっている摩擦要因を迅速に特定することができます。この摩擦の潜在的な原因を調査するために、ファネル分析では各ステップを掘り下げて主要なコンバージョン率のメトリクスを表示し、関連するセッションリプレイを特定して、ユーザーがどのようにUIを操作しているかをより深く理解することができます。ファネル分析の詳細については、当社のブログ記事をご覧ください。

Funnel Analysis lets you analyze the drop-off in click-throughs between steps in your most important user journeys.

RUMのWatchdog Insights

ウェブアプリケーションやモバイルアプリケーションの問題をトラブルシューティングする際、ユーザーのデバイス、オペレーティングシステム、バックエンドサービス、その他の要因の組み合わせにより、どのように調査すべきかを判断するのは難しい場合があります。Watchdog Insightsは機械学習を用いて、トレース検索とアナリティクス、Log Explorer 、そして最近ではRUM Explorerでトラブルシューティングを強化しています。データを調査しているとき、Watchdog Insightsは、現在の検索クエリに基づいて、最初に注目すべきタグを提案します。例えば、RUM Explorerでは、Watchdog Insightsは、不均衡な数のRUMエラーや読み込みパフォーマンスが悪いビューに存在するタグをハイライトしますので、欠陥のあるデプロイメントや地域特有のUX問題、その他のアプリケーションの問題を素早く把握することができます。Watchdog Insights for RUMはパブリック・ベータ版として提供されています。詳細については、ドキュメントをご覧ください。

A timeseries graph on the RUM sessions page shows that the p50 layout shift of one specific URL path is higher than the same metric for all tags.

RUM Impact Analysis

Watchdogは、メトリクスの異常を自動的にハイライトすることで、インフラやアプリケーションの問題を簡単に特定することができます。今年初めには、Watchdog RCAのプライベートベータ版をリリースしました。このベータ版では、問題に関わるサービス間の関係を自動的に検出し、根本原因の分析を迅速に行うことができます(アクセスのリクエストにはこのフォームをご利用ください)。優先順位の設定や作業のトリアージに役立つ「RUM Impact Analysis」（現在、パブリック・ベータ版）は、Watchdogアラートのユーザーへの影響を素早く把握することができます。Watchdogが新しいAPM関連のアラートを識別すると、RUMインパクト分析は、Real User Monitoringデータを分析して、潜在的に影響を受けたユーザーがいるかどうか、また、アプリケーションのどのビューを最初に調査すべきかを知らせます。

A screenshot shows that Watchdog has detected elevated latency on the product-service resource and highlights the views that were most affected. A pop-up shows the count of users that experienced the problem on each view.

iOS エラートラッキング

Datadog RUMのiOS SDKでは、iOSアプリからのクラッシュレポートをDatadogに転送し、長期保存・分析することができるようになりました。Datadog RUMを使用して、クラッシュイベントをユーザーのメタデータや詳細なセッション情報と相関させることができます。これにより、バグの重大度をトリアージし、ユーザーがどのようにバグを再現しているかを正確に把握し、効率的な根本原因の分析を促進します。Datadog Error Trackingは、iOSのクラッシュを自動的に問題に分類し、重要なデバッグ情報(スタックトレースやユーザセッションのタイムラインなど)を、顧客の所在地、iOSバージョン、クラッシュレポートに含めるカスタム属性などのメタデータと一緒に表示することができます。Error Trackingイベントにアラートを設定することで、致命的な問題が発生した際にそれを把握することができます。Datadogを使用してiOSアプリのクラッシュを継続的に追跡、トリアージ、デバッグすることで、ユーザーへの影響をより効果的に管理し、解約を減らすことができます。詳しくは、ブログ記事をご覧ください。

Tracking iOS crashes as issues in error tracking helps you view key debugging output and user session data from a single pane of glass.

Synthetic モニタリング

プライベートロケーションモニタリング

Datadog Syntheticのプライベートロケーションを使用すると、ネットワーク内からテストを起動することができるため、重要な内部アプリケーションのすべてにテスト・カバレッジを拡大することができます。プライベート・ロケーションはテスト・インフラストラクチャの中核をなすものであるため、オンプレミス・アプリケーションのテストをサポートできるように、そのパフォーマンスを完全に可視化することが重要です。プライベート・ロケーション・モニタリングでは、すべてのプライベート・ロケーション・コンテナの健全性とパフォーマンスを監視することができます。稼働中のワーカー数などの主要な指標を提供し、コンテナの状態をよりよく把握することができます。また、SREチームが重要なテストワークフローをサポートするためにコンテナを最適に拡張する方法を知ることができるように、プライベートロケーションのプロビジョニング不足などのパフォーマンス問題を自動的に通知するアウトオブザボックスのモニターも用意されています。詳しくは、ドキュメントをご覧ください。

Private Locations view shows a list of tests assigned to a container, plus metrics reporting the container's load and worker count.

UDPとWebSocketテスト

UDPおよびWebSocketプロトコルは、ビデオストリーミングプラットフォーム、チャットシステム、オンラインマルチプレイヤーゲームなどのリアルタイムアプリケーションで広く使用されています。そのため、これらのアプリケーションを監視することは、エンドユーザーにダイナミックで低レイテンシーな体験を提供するために非常に重要です。そのため、弊社のSynthetic API テストスイートにUDPとWebSocketのテストを追加しました。これにより、瞬時のデータ交換に依存するアプリケーションの可用性と応答性を監視することができます。問題が発生した場合、ダウンタイムを最小限に抑えるために、Datadogのモニタリングデータを使ってすぐにトラブルシューティングを行えます。

Create WebSocket and UDP tests in Datadog Synthetic Monitoring

ログ管理

オンラインアーカイブ

インデックス化されたログは、ほとんどのDevOpsのユースケースに不可欠な秒以下のクエリ・レスポンスを提供しますが、特に非常に大きなデータセットでは、速度よりも包括性を優先する他の多くの調査があります。現在のロギング・ソリューションは、完全なログ・データを長期間にわたって保存し、照会するための費用対効果の高い方法を提供していません。DatadogのOnline Archivesは、新しいログ・ウェアハウス・ソリューションで、クラウド規模のボリュームですべてのログを15ヶ月以上、_queryable_state で保持することができ、インデックスを維持するのに比べてわずかなコストで済みます。これにより、過去のセキュリティ調査、定期的なコンプライアンス監査、事後調査、または高品質な分析のために、ログデータに簡単にアクセスすることができます。オンライン・アーカイブは、現在、限定的に提供されています。詳しくは、ブログ記事をご覧ください。

Online Archives provides easy historical log analysis and investigation with 15 month retention and live queries.

センシティブデータスキャナー

分散型アプリケーションでは、データは多くのゆるやかに接続されたエンドポイントやマイクロサービスに渡って移動するため、サービスが意図せずに機密データを記録していることを知ることは難しくなります。このようなケースでは、重要なコンプライアンスポリシーに違反するだけでなく、顧客の個人情報を公開する危険性もあります。センシティブデータスキャナーは、機密情報をログに記録しているサービスを検知し、データ漏洩が発生する前に問題を解決することができます。スキャナーは受信ログを監視し、社会保障番号やクレジットカード情報などの機密データを含むものにフラグを立てます。また、顧客情報を保護し、コンプライアンスを維持するために、データを自動的に難読化するようスキャナを設定することもできます。詳細はドキュメントをご覧ください。

The Sensitive Data Scanner view shows a collection of scanning rules included in a scanning group.

Log Pattern Anomalies

ログを検索することは、インシデントに対応するために役立ちますが、特にアプリケーションやそのログに精通していない場合には、時間がかかります。DatadogのLog Pattern Anomalies機能は、問題の根本原因を説明する可能性のある新しいログパターンや、既存のパターンにおける注目すべきスパイクをハイライトすることで、ユーザーがノイズを素早く切り抜けることを容易にします。例えば、あるサービスのエラー数が増加しているというアラートを受けた場合、ログパターン異常はその原因を理解するのに役立ち、問題に対処するための手段を講じることができます(下図のように、特定のサービスへのTCP接続が失敗しているなど)。Log Pattern Anomaliesは現在、プライベート・ベータ版として提供されています。Watchdog Insightsは、ログとAPMのデータを継続的に分析して調査を補強するレコメンデーション・エンジンで、Watchdog Insightsの最新版です。ベータ版へのアクセスをご希望の方は、こちらからお申し込みください。

エコシステム

オブザーバビリティパイプライン

Datadog のオンプレミス型のオブザーバビリティパイプラインは、可観測性データの処理方法から送信先まで、完全にコントロールすることができます。当社のパイプラインは、ローカルハードウェアやクラウドなど、お客様のインフラ上で実行されるため、データがシステムを離れる前に意思決定を行うことができます。オブザーバビリティパイプラインでは、安全性とコスト効率を維持しながら、データを分析に役立てるための様々なデータ変換（サンプリング、リダクション、暗号化、エンリッチメントなど）を行うことができます。データの取り込みと処理が完了した後は、ニーズに応じて最適なツールにデータを転送することができます。アクセスをご希望の方は、このフォームにご記入ください。

Datadog Observability Pipelines is an on-premises data management solution that enables large organizations to collect, transform, and route logs, metrics, and traces from any source to any destination.

Datadog Apps

Datadog Apps を使用すると、他の主要サービスのデータや機能を直接Datadogプラットフォームに組み込むことができます。Datadog Developer Platformを使用して、カスタムウィジェット、サイドパネル、モーダル、およびその他のコンポーネントを構築し、ダッシュボードに追加することで、監視とアプリケーション管理のワークフローを統一することができます。現在のアプリ群には、LaunchDarkly、PagerDuty、Fairwinds、Harness、Rookout、Shorelineのパートナーが開発したウィジェットが含まれており、今後も追加される予定です。

The Apps Overview Dashboard visualizes PagerDuty status, CPU usage by host, and LaunchDarkly feature flag status.

デベロッパーエクスペリエンス

CI Visibility

Datadog CI VisibilityのGAを発表できることを嬉しく思います。この新製品は、CI/CDワークフローの健全性とパフォーマンスに関する深いインサイトを提供します。GitLab、Jenkins、CircleCI、GitHub Actions、Buildkiteなどの主要なサービスをサポートするCI Visibilityは、どのパイプラインが頻繁に失敗しているのか、あるいはビルドに時間がかかりすぎて開発の中断につながっているのかを追跡することができます。また、CI Visibilityは、各テストの分散型トレースを提供し、不具合のあるテストを自動的に明らかにし、壊れたテストのデバッグやテストスイートの効果を時系列で追跡するのに役立つ重要なインサイトを提供します。また、alertsを使って、パイプラインの新しい問題を自動的にチームに通知することができます。CI Visibilityについての詳細は、ブログ記事をご覧ください。

モバイルダッシュボードウィジェット

オンコール業務を成功させるには、サービスの健全性を監視することと、予定通りの生活を送ることのバランスをとる必要があります。しかし、ラップトップをどこにでも持ち運べるわけではありません。そのため、食事中、電車に乗っているとき、運動しているときでも、携帯電話を使ってシステムの活動状況をすばやく把握できることが重要です。そのため、モバイルウィジェットを発表しました。このウィジェットを使って、オンコールのモバイルダッシュボードを構築することができます。モバイルダッシュボードでは、Datadogのモニター、インシデント、SLOのステータスを、携帯電話のホーム画面から一目で確認することができます。トラブルシューティングやインシデント対応に最も必要なアプリを含むようにモバイル・ダッシュボードをカスタマイズしたり、携帯電話のフォーカス・モードと併用することで、オンコールの優先事項に集中することができます。

モバイルダッシュボードは、オンコールエクスペリエンスを簡素化し、ラップトップやDatadogモバイルアプリを開くことなく、調査、コミュニケーション、コラボレーションを可能にします。詳しくは、ブログ記事をご覧ください。

A mobile dashboard on an Android phone and one on an iPhone both show monitor widgets, SLO widgets, and icons for PagerDuty, Datadog, Slack, and GitHub apps.

GitHubのリポジトリとの統合

新しいGitHub Appは、GitHubリポジトリとDatadog APM、Log Management、Error Trackingなどを統合し、関連するソースコードをインラインで可視化し、問題をさらに調査するためにリポジトリ内の場所に直接ピボットすることができます。例えば、Error Trackingのスタックトレースには、エラーを発生させたメソッドの抜粋が追加され、Datadogにいながらにして根本的な原因を理解することができるようになりました。ノートブックのプルリクエストへのリンクにも同様にプレビューが追加され、PRに関する重要な情報をどのノートブックでも直接確認できるようになりました。新しいGitHubアプリでは、Datadog CI Visibilityを使ってGitHubアクションを監視することができ、GitHubリポジトリ全体のパイプライン、ステージ、ジョブの主要な健全性とパフォーマンスのメトリクスを提供します。

With the GitHub App enabled, you can view code excerpts directly from your repos within Error Tracking, and quickly pivot to the relevant files on GitHub.

クラウドコストマネジメント

クラウドサービスの普及により、企業は、進化する顧客の要求に応えるために、迅速な革新を行うことが容易になりました。しかし、企業がクラウドに移行し、より多くのサービスを採用するにつれ、クラウドのコスト管理がますます困難になってきています。特に、チームが同じコンピュートリソース（例：コンテナ）を共有している場合、財務チームはコストを個々のチームや製品に適切に帰属させることができません。また、コストの上昇が、効率の低下によるものなのか、使用量の増加によるものなのかを判断できません。一方、エンジニアは財務的な影響を知らずにアプリケーションの変更を定期的に行っています。Datadog のクラウドコストマネジメントは、クラウドのコストと運用データを1つのビューにまとめることで、これらの課題を解決します。この新リリースにより、コスト管理者は、クラウド・コストの傾向を容易に把握し、組織全体でコストを配分し、コスト最適化の機会を特定することができます。ベータ版への登録はこちらから。

With Cloud Cost Management, you can view cloud spend by team, product, or any dimension you care about

サーバーレス

サーバーレスビューでAzure App Serviceを見通す

Datadog のAzure App Service 向け拡張は、Webアプリから分散トレースやカスタムメトリクスを自動的に収集することができ、Azureポータルから直接展開・管理することができます。App Serviceの可視性をさらに高めるために、DatadogのServerless viewでは、すべてのApp Serviceリソースを可視化し、それらの間の関係をマッピングすることができます。アプリとそのホスティングプランの関係を理解することは、トラブルシューティング、セキュリティ、パフォーマンスの最適化、コスト管理において非常に重要です。Serverlessビューでは、関連するリソースに簡単に絞り込むことができ、関連するメトリクス、ログ、トレース、メタデータを一目で確認することができます。ブログ記事を読んで、Serverlessビューがどのようにリソースからの主要なメトリクスの分析、過負荷や利用率の低いプランの特定などに役立つかをご覧ください。

The Serverless view shows a list of Azure App Service plans and reports instance and plan site counts for each, as well as CPU and memory usage.

SLO

SLO アラート

SLOはサービスの信頼性を管理するのに役立ちますが、今回のSLOアラートでは、サービスが目標を達成できない可能性がある場合に、プロアクティブに通知します。SLOアラートには、エラーバジェットアラートとバーンレートアラートの2種類があり、チームの作業の優先順位付けに利用できます。

エラーバジェットアラートは、サービスがSLOの利用可能なバジェットを特定の割合で消費した場合に検知します。製品オーナーはこの情報を利用して、機能開発よりも信頼性向上のための作業を優先させるタイミングを把握し、違反を回避することができます。バーンレートアラートは、サービスがエラーバジェットを急速に消費している場合、自動的にチームに通知し、問題を解決するために直ちに行動を起こすことができます。

SLOのエラーバジェットアラートとバーンレートアラートがパブリックベータ版で利用可能になりました。詳細はドキュメントをご覧ください。

A screenshot shows a form to create an SLO burn rate alert, including fields to specify the alerting window, alert threshold, warning threshold, and notification message.

スケールアップとスピードアップ

Dash 2021では、業界の専門家と現代のソフトウェア開発の実践者が一堂に会し、多様性、安全性、信頼性の高いプロセスやチームの構築と拡張に関する知識を共有しました。HashiCorp社、Vacasa社、Shopify社などのスピーカーを含むDash 2021の全セッションのビデオは、近日公開予定のDash 2021カンファレンスレビューでご覧いただけます。また、 Datadog Japan Forumで発表の概要を日本語でご紹介します。まだ Datadog をお使いでない場合は、いますぐ 14日感のフリートライアルをお試しください。