Watchdog for Infra でインフラストラクチャーの異常を自動検出 | Datadog

Watchdog for Infra でインフラストラクチャーの異常を自動検出

Author Lior Belenki

Published: January 6, 2020

昨年、Datadog は Watchdog を導入しました。自動的に異常検知を表面化できる機械学習アルゴリズムを適用することで、サービスのパフォーマンスで発生する問題を検出する Datadog APM の機能が向上しました。本日は、Datadog から Watchdog for Infra をご紹介します。Watchdog のスコープを拡大し、特別なセットアップをしなくてもインフラストラクチャーの正常性やパフォーマンスを自動的に可視化し継続的にサポートできるツールです。Redis、PostgreSQL、Amazon Web Service (AWS) など一般的な技術に対応しているため幅広く活用が可能で、検出した問題の解決方法もご提案します。

Datadog Watchdog for Infra に表示されたグラフ。AWS S3 の 5 X X エラー増加と TCP 再送率の増加を含むインフラストラクチャーの異常検知を表示。

インフラストラクチャーの問題を自動検出

現代のインフラストラクチャーは複雑で、モニタリングは非常に困難です。インスタンスはリアルタイムのワークロードに対応するためスケールアップ/ダウンし、サーバーレス関数は多数の相互依存型マイクロサービスに電力を供給。一時的なインフラストラクチャーの問題を検出することも大変ですが、すべてを網羅して完全に監視するには、どのモニターをどう構成すればよいのか理解することはほとんど不可能です。Watchdog for Infra は、このような問題を次の 2 つの方法で解決します。まず、インフラストラクチャーにおけるパフォーマンス異常をあらゆる規模で自動的に検出します。そして、ドメインの専門知識を適用することで問題の発生原因や解決方法を明確にします。

Watchdog for Infra が、HOT アップデートに対する PostgreSQL の割合が 6 時間以上にわたり高いことを示しています。グラフには関連メトリクスの変化が表示され、次のステップとして、詳細を得るために使用できるクエリが提案されています。

Watchdog for Infra は、インフラストラクチャーで以下の領域の異常パターンを検出します。

  • ホストレベルのメモリ使用量
  • ホストレベルの TCP 再送率
  • PostgreSQL
  • Redis
  • NGINX
  • Amazon Web Service (S3、ELB、CloudFront、DynamoDB)

Datadog では、さらに多くの技術をモニタリングできるよう Watchdog を拡張しています。詳しいリストは、ドキュメントでご確認いただけます。

ストーリーを理解する

Watchdog では、インフラストラクチャーのメトリクスを継続的に評価し、通常の基準値範囲を決定します。メトリクスが予想範囲外になると、Watchdog のページ にストーリーが表示されます。

Watchdog for APM をご使用になったことがあれば、Watchdog のストーリーに含まれる基本的な要素 (異常検知の時間がハイライトされたグラフ、システムのどの部分で何が起こったのかを詳しく示したわかりやすい説明) はご存知でしょう。ストーリーが、Redis、NGINX、PostgreSQL、AWS CloudFront など、Datadog のインテグレーションに関するものである場合は、具体的な意味を理解するためのガイドと、推奨される次のステップも提供されます。しかも、この情報を得るために必要なコンフィギュレーションも必要ありません。モニターの定義や、ダッシュボードの継続的なチェックも必要ないのです。

下記のスクリーンショットは、AWS Elastic Load Balancer (ELB) でのレイテンシーの急上昇を報告する Watchdog ストーリーの例です。

6 時間にわたり、3 つのアベイラビリティーゾーンで ELB のレイテンシーが上昇していることを示すグラフと Watchdog ストーリーのスクリーンショット。

このストーリーでは、3 つの異なるアベイラビリティーゾーンにおける ELB のレイテンシー値がグラフに示されています。Watchdog は、3 つのアベイラビリティーゾーンで有効になっている単一の負荷分散からこのメトリクス内の類似の異常検知を検出し、結果を 1 つのストーリーとして自動的にまとめます。低レイテンシーの継続後、3 つの全てのアベイラビリティーゾーンでメトリクスが急上昇したことがわかります (グラフでは、領域に異常検知の期間が強調表示されています)。

Watchdog for Infra のストーリーで報告された問題を迅速に調査するには、グラフをクリックしてメトリクス相関にアクセスし、考えられる根本原因を特定します。メトリクス相関機能では、複数のデータソース (インフラストラクチャー、インテグレーション、分散トレース、APM) を検索し、ストーリーの時点で発生した類似の異常を発見できます。

検出した問題を通知するモニターを作成する

Watchdog モニター では、環境内でパフォーマンスの異常検知が検出されると自動的にユーザーやチームに通知されるため、すぐに修正措置を講じることができます。無駄なアラートを減らすため、Watchdog モニターを最も重要なインフラストラクチャーの問題でのみトリガーされるよう構成しましょう。

Watchdog ストーリーから、今後生じる可能性のある似たような問題をチームに通知するためのモニターを作成できます。各 Watchdog ストーリーでは最低 1 つのモニターが提案されます。[Enable Monitor] ボタンをクリックすると、アラートのカスタマイズや有効化を行うことができます。

Watchdog for Infra のストーリーと、推奨モニターへのリンクが表示された行のハイライトのスクリーンショット。

また、モニターページで直接新しいモニターを作成することも可能です。[New Monitor] ボタンをクリックし、[Watchdog] を選択して [Infrastructure] タブをクリックします。デフォルトでは、お客様のモニターは、Watchdog for Infra ストーリーが作成された時点でトリガーされます。特定の技術をモニターするには、ページの [Select sources] セクションのメニューから 1 つ選択します (下記スクリーンショット参照)。

Datadog の New Monitor ページのスクリーンショット。選択されたストーリータイプは TCP 再送信で、グラフには関連メトリクスの急上昇し 15 時間続いたことが示されています。

さっそく Watchdog for Infra を開始

Watchdog for Infra は一般に公開されています。コンフィギュレーション不要のため、すぐにストーリーを表示しアラートを有効化できます。詳細は、Watchdog for Infra ドキュメント を参照してください。Datadog をまだご使用でない場合は、に今すぐご登録ください。