Datadog でのインシデント管理 | Datadog

Datadog でのインシデント管理

Author Mary Jac Heuman

Published: August 11, 2020

お使いのアプリケーションが機能停止した場合は、そのアプリのインシデント対応に使用しているツールの種類で「問題をどれだけ早く解決できるか」、「同じ事象を将来的に回避できるか」といったチームの命運が分かれることとなります。インシデント管理ワークフローの効果は、アクセス利便性の高い統合型ツールであることに加えて、明確かつダイレクトなコミュニケーションチャネルがあるかどうかに依存します。また、問題が解決した後でも、発生した事象についてのドキュメント作成や分析を行って再発防止に努めることが重要です。インシデント管理アプリの多くは対応プロセスが難解で、新しいツールを習得するまでにかなりの時間を要するゆえにコーディネーションが妨げられてしまうことも珍しくありません。

こんな場合に活躍するのが Datadog のインシデント管理です。Datadog 内でインシデントを簡単に作成・追跡し、トラブルシューティング時のコラボレーションの効率を高めて解決までの平均時間 (MTTR) を短縮します。Datadog モバイルアプリDatadog Slack アプリ共同編集機能搭載のノートブックなどの拡張機能を搭載した一元管理型の新しいインシデント UI を活用することで、潜在的な問題の優先順位付けから根本原因の調査、問題の解決とドキュメント作成までを Datadog 内でシームレスに実施することが可能となります。

アラーム通知

インシデント管理ワークフローの第 1 ステップは、問題の優先順位付けを行い、本格的な対応が必要だと判断された場合に適切なメンバーに通知を発することです。すべての Datadog ダッシュボードとモニターに簡単にアクセスできる新しい Datadog モバイルアプリなら、こんな場合のオンコール対応が格段に便利に。通知が届いたら、どこにいても問題のアラートの調査をすぐに開始することができます。

モバイルアプリのアラートとモニター

Datadog は Slack 上でのグラフと通知の共有もサポートしています。Datadog Slack アプリを利用すれば、チャットウィンドウを開いたままで Datadog から情報を直接共有することができます。たとえば、モニターアラートのコンテキストを提供するグラフを共有する場合は、/datadog dashboard を使用してダッシュボードウィジェットを選択および投稿します。

チーム内でエスカレーションの実施に合意した場合は、/datadog incident ショートカットを使用して Slack から直接インシデント対応を開始することができます。作成されたインシデントには、重大度、顧客や請求への影響があるか、どの環境が影響を受けるかといった関連する情報のタグ付けが可能です。

また、すべてのダッシュボードグラフから、あるいは新しいインシデント UI を利用して、Datadog の内部でインシデントを宣言することもできます。その後、インシデント調査の責任者をアサインし、Slack チャンネルや PagerDuty、OpsGenie などのその他サービスを通じてメンバーに通知を送信します。

インシデント対応を一箇所で

Datadog インシデント UI はアクティブなもの、解決済みのものの双方を含むすべてのインシデントをまとめて表示します。チーム、重大度、ステータス、その他のタグ付けされた情報など、主要なメタデータによるインシデントのフィルタリングや並べ替えも可能です。インシデントを選択すると、インシデントのステータスが「安定」から「解決済み」に変更されたなどのタグの変更、追加されたタスクなど、問題の対応状況が時系列で表示されたタイムラインが開きます。チームメンバーはリンクやテキストなどの形でタイムラインにコメント、コンテキスト、およびその他の有用な情報を追加することができます。たとえば、すべてのチームメンバーは関連するメトリクスを表示する Datadog のダッシュボードからウィジェットを追加することができます。

インシデントタイムライン UI

インシデント発生後のレビューを効率化

問題を解決するのと同時に、その根本原因を分析して再発防止策を講じることも同じく重要です。Datadog のインシデント対応ワークフローにはドキュメントの共同編集に対応したツールが搭載されており、発生した問題から得た学びを文書化することができます。各インシデントの「修復」ビューで、インシデント後のタスクを作成・追跡したり、Datadog ノートブックなどの事後分析ドキュメントにリンクを貼ったりという操作が行えます。

新しくなったノートブックはリアルタイムの共同編集に対応。チームメンバー同士が連携しながら、データドリブンの情報分析手法を利用してインシデント対応と調査プロセスの文書化を進めることができます。たとえば、インタラクティブなメトリクスグラフを追加して見やすいドキュメントに仕上げるといったことも可能です。ノートブック内のグラフはすべての Datadog データソースをサポートしているほか、指定したタイムレンジで個別にスコープを設定できるため、インシデント対応中の正確な地点を可視化したい場合に便利です。高度なマークダウンにも完全対応しており、問題の解決手法の詳細を示すコードスニペットなどのリッチコンテキストを追加することも可能です。こうすることで、問題が再発した場合でも過去の手順に従って解決を進めることができます。

ノートブックでリアルタイムの共同編集が可能に

今すぐ始めよう

Datadog の新しいインシデント管理プラットフォームは現在公開ベータ版です。アプリケーションの機能停止に対応する一連の最新機能を、すでにお使いのモニタリングプラットフォームに完全一体化させる形でご利用いただけます。今後はさらに多くの機能、拡張機能、インテグレーションを追加していく予定です。Datadog を既にご利用のお客様は、インシデント UI および Datadog Slack アプリを今すぐにお試しいただけます。まだ Datadog をご利用でない場合は、をお試しください。

Datadog インシデント管理の利用方法についての詳細は、sales@datadoghq.com または営業担当者にお問い合わせください。