Machine Learning

急速に拡大する環境でも比例して人員を増やすことなく管理

今日のアプリケーションは常に変化しており、需要に応じてスケールのアップダウンを繰り返しながら、クラウドとコンテナインフラストラクチャーの間を行き来しています。これらのシステムがより複雑に、よりダイナミックになるにつれ、オペレーションタスクのエンジニアリングはますます時間を要するように。Datadog が提供する組み込み型の機械学習アルゴリズムなら、急速にスケーリングかつ進化するシステムをエンジニアリングチーム側で効果的にモニターし、管理することができます。IT オペレーションで機械学習と人工知能を活用する（「AIOps」と呼ばれる手法）ことでデータの可視性を強化し、ますます複雑化するシステムの全体像を把握することができます。これにより、特定されたイベントへのレスポンスを Webhook やカスタムスクリプトを利用して自動化し、Datadog の機械学習機能を活用して是正アクションをトリガーすることが可能となります。

「Watchdog を利用しはじめてから、インシデントへの対応をすばやく行えるようになりました。システムのどこに問題があるのか、これまでは知り得なかった情報が分かるようになったからです。システム内の他のどの部分に影響が及んでいるかも確認できますし…そのおかげで、お客様により高いレベルのサービスを提供できるようになっています。」
– Square 社エンジニアリングマネージャー Joe Sadowski

ユーザーセットアップなしで問題を自動検出

Datadog はインフラストラクチャーおよびアプリケーションパフォーマンスを自動的に分析するため、エンジニアリングチーム側ですばやく問題解決を行うことができます。発生しうるあらゆる故障モードに対して、手動でアラートを設定する必要もなくなります。Watchdog の異常検知エンジンは、アプリケーションやサービスにおける異常なエラーレート、データベースまたはクエリにおけるレイテンシーの上昇、クラウドプロバイダーのネットワークの問題などを自動的にフラグで分類。問題が検出されると、Datadog からすぐにトラブルシューティングに有用なインスタントコンテキストを提供し、アプリケーションコードからのエラーメッセージや Datadog APM の詳細なパフォーマンスデータへのリンクを活用して問題を精査することができます。

自動関連付けで機能で、「干し草の山から縫い針を探す」ような困難な根本原因をすばやく解明

何百というサービス、何千というホストやコンテナを抱えるアプリケーションアーキテクチャでは、問題の根本原因を特定するのにすら長い時間を要してしまいます。Datadog の相関ビューでは、調査したい対象にフォーカスして相関するメトリクスを絞り込み、パフォーマンスや可用性の変化を検知して潜在的な根本原因を浮かび上がらせます。アラートやメトリクスダッシュボードから相関するメトリクスをクリックするだけで、メトリクスの急上昇や急低下、その他の予期しない動作がないかを確認できます。たとえば、完了済みのチェックアウト数が予期せず低下した場合、相関ビューは自動的にどのサービスまたはインフラストラクチャーシステムが落ち込みの原因なのかを突き止め、システムごとに相関するメトリクスを特定します。単なる推測に頼ったり、潜在的な根本原因を探すために詳細な調査を実施することもなく、問題の原因に照準を合わせることができます。

トレンドと季節性に応じた異常検知

動的かつレスポンシブ、絶えずスケーリングするインフラストラクチャーのモニタリングにおける主要な課題の 1 つを解決してくれるのが Datadog の異常検知機能です。つまり、パフォーマンス上の「正常」と「異常」をいかに定義するかということです。静的なしきい値を設定していると、ウェブサイトのトラフィックや顧客のチェックアウトなどの主要なメトリクスが時間帯、曜日、日付によって変動するため、時には誤ったアラートが通知されてしまう場合があります。Datadog の異常検知は、これらの予期される変動はもちろん、長期的なトレンドも考慮して、真に予期しない動作のみをフラグ化するインテリジェントなシステムです。この異常検知アルゴリズムは既存の統計モデルに基づくものですが、大規模インフラストラクチャーやアプリケーションモニタリングに適応するよう改良されています。

外れ値検知で大規模かつダイナミックなフリートを監視

サーバー、コンテナ、IoT デバイス、アプリケーションインスタンスの大規模なフリート（大集団）をモニタリングする場合、そのフリート内の個々の要素の健全性やパフォーマンスを記録するのはとても困難です。Datadog の外れ値検知アルゴリズムは、大規模なフリートやグループを常時評価し、周りのデバイスと比べて異常な動作を見せている要素がないかどうかを確認します。外れ値検知を利用することで、エンジニア側で事前に通常の健全な動作を定義する必要なく、不健全なアプリケーションサーバーやデータベース、その他のメンテナンスを必要としているシステムを自動的に特定することができます。

事前予測でボトルネックを回避

いくら動的なシステムでも、多少の制限は存在するものです。このルールに違反すると深刻な事態を招く恐れがあります。たとえば、アプリケーションのメモリーやデータベースのディスク容量がゼロになると、結果としてシステムクラッシュが発生、故障が連鎖してユーザー機能が停止してしまうことも考えられます。Datadog では予測アルゴリズムを提供することで、このようなリソース面の制約をサポートしています。十分な時間的余裕をもって予測アラートが通知されるため、エンジニアチーム側での問題対処や回避に役立ちます。アラートの例としては、システムのディスク使用状況に関する現在のトレンドと季節に応じたパターンに基づいて、ディスク容量がなくなると予想される 1 週間前にチームに警告する、などがあります。また、Datadog の Webhook インテグレーションおよびAPI モニタリングを活用すれば、ログをアーカイブまたは削除してディスク容量を解放する、またより多くのアプリケーションインスタンスを用意してアプリケーションサーバー上のメモリ圧力を軽減するなど、様々な自動化 AIOps ワークフローを構築することができます。