Introducing Cluster-Level Service Monitoring [訳] | Datadog

Introducing cluster-level service monitoring [訳]

Author Jay Hotta

Published: 4月 21, 2015

April 21st, 2015 by Conor Branagan

原文へのリンク

2014年末にDatadogでは、Availability Monitoring(可用性の監視)機能を全面的にアップデートし、cluster-level service monitoring機能が追加されました。

この機能追加で、ホストやアプリやサービスを監視し、可用性障害に対するアラートを必要に合わせて柔軟に検出できるようになりました。

今回は、cluster-level service monitoring機能についてお知らせします。

今回のアップデートにより、 クラスタ内で可用性障害が起きているサーバの割合 を元にアラートを通知できるようになりました。

抵抗力があるクラウドベースアプリケーションの監視

これまでの可用性監視は、単体サーバまたはサーバ上の特定アプリケーションが使用不能になった場合にアラートを検出するものでした。

クラウドコンピューティングやAWSのようなプラットフォームの出現により、これまでのような個別のサーバの障害を検出する方法では対応できなくなってきました。 何より重要なのは、全体としてアプリケーションやサービスが稼働しているかどうかであり、現代の分散型インフラの性質を考えると、障害を発生している機材数の全体に対する割合が重要であると考えられます。

(そうでなければ、その部分は"single point of failure(単一障害点)“になっているはずです。)

Cluster-level service monitoring

たとえば、あなたが数百から数千のウェブサーバを運用しているとします。

どれか一台のサーバが障害になるたびにアラートを受けることは、望んでいないはずです。しかしクラウド環境では、このような事は日常であり、残念ながらこれまでの監視方法では、全てのアラートをオンにしノイズ(誤報)の多い状態に慣れてしまうか、アラートを全てオフにして主要な障害が発生するリスクに目を瞑るしかありませんでした。

今回のアップデートにより、複数のサーバで構成されたクラスター環境では、障害を起こしているサーバの割合を基準にアラートを検出する機能が追加され、ノイズ(誤報)を効果的にカットし、問題の根本を追跡することができるようになりました。

2種類のアラート閾値: 警告(warinig)と危険(critical)

Datadogは、2種類のアラートを設定する機能を提供しています:警告アラートと危険アラート。

以下に、これらの2種類のアラートをどのように設定するのかを示します。

例えばWebサーバーのクラスタでは、10%のサーバに障害が発生した状態を警告アラートの閾値に、20%のサーバに障害が発生した状態を危険アラートの閾値として設定します。

availability zone, environment, ロールを元にグループ化で監視

Datadogでは、任意のタグの組み合わせをダッシュボード上から設定することでサーバをグループ化し、そのグループに対してアラートを設定することができます。

もしもAWSでアプリケーションを実行してるなら、どれかのAWS Availability Zoneで、40%以上のサーバが停止したらアラート通知を受けたいはずです。 このような例では、サーバが停止していく過程で通知されるノイズ的アラートに惑わされることなく、問題を起こしているAvailability Zoneにたどり着くことができるようになります。

更にChefのような構成管理ツールを使っていれば、ロール全体を対象にしたアラートを設定することもできます。例えば、“Hadoop-HDFS"というロールを持つノード内の20%がダウンした場合、危険アラートを通知することができます。

Cluster-level service monitoring

各グループは、異なる閾値を設定することができます。 例えば、データベースのクラスターでは、アラートのためのパーセント閾値は低く設定すると良いかもしれません。それとは逆に、ロードバランサーは、障害に対する抵抗力もあり、多くのサーバが停止しないとパフォーマンスの問題が発生しないこともあります。

従って、アラートのパーセント閾値を高く設定しても問題ないということになります。

cluster-level service monitoringが運用業務に恩恵がありそうと感じたり、アプリケーションやインフラの状態を把握するのに役立つと思うなら、14日間の無料トライアルを試してみてください。 監視対象のホストにDatadog Agentをインストール後、メトリクスが表示されるようになれば直ちにPercentage-based availability monitoringは有効になり、お試しいただけるようになります。