ダッシュボードの操作性と直感的なUIを評価してDatadogを採用 「弁護士ドットコム」や「税理士ドットコム」、「クラウドサイン」などのサービスを展開する弁護士ドットコムでは、設立当初からすべてのサービス基盤にアマゾン ウェブ サービス(AWS)を採用し、コンテナやマイクロサービスを活用しながら機能拡張を重ねてきた。全社横断でサービス基盤を支えるPlatform & Reliability Engineering部 (PRE部)では、ほぼすべてのプロダクトのインフラ整備と運用を担う。
同社はDatadog導入以前、他社の監視ツールを利用していたが、ダッシュボードの作成やアラート設定の操作性に課題があり、十分に活用できない状況が続いていた。そこで2018年に新たな監視基盤としてDatadogを導入した。その決め手になったのは、ダッシュボードの作りやすさとインテグレーションの豊富さだ。PRE部の原口慎太郎氏は次のように語る。
「初めての人でも、直感的にダッシュボードを作成できる点を評価しました。クラウドサービスとのインテグレーションも豊富で、GUIベースで接続設定ができる手軽さや、追加費用なしに標準で利用できる連携機能の多さも魅力でした」
同社は現在、Datadogを全プロダクトの監視基盤として展開しており、実際に利用率は100%に達している。利用部門はPRE部を含む約10部門で、約150名のエンジニアが利用。監視対象は、約50のAWSアカウント上に展開されている約200のマイクロサービスだ。
特徴的なのは、開発部門が積極的にDatadogを活用していることである。開発者自身がダッシュボードを作成し、サーバーの稼働やアプリケーションのパフォーマンスを可視化している。
「以前はPRE部が少人数体制であった経緯があり、開発者が自発的に監視に関わる文化が根付いていました。現在は約70のダッシュボードを運用しています。中には自作のダッシュボードを常時表示する専用のPCを用意して、サービスにエラーが出るとPRE部よりも早く反応するエンジニアもいます」(原口氏)
PRE部では現在、8人のメンバーがダッシュボードを整備し、ほぼすべてのプロダクトを監視している。アラートベースで障害を検知するとともに、定例のモニタリング会議でプロダクトオーナーや開発者などとダッシュボードを共有しながら改善点を協議している。
SLOも設定しており、複数プロダクトを横断的に監視している。PRE部 部長の熊谷晃氏は次のように説明する。
「AWSの外形監視サービスと連携し、得られた結果をもとにDatadogのSLO機能でサービスレベルを定量的に評価する運用体制を敷いています。取得した情報は、重要指標として経営層への報告にも活用しています」
写真左側 : 熊谷 晃 氏、右側 : 原口 慎太郎 氏 ダッシュボードをカスタマイズしながらチームコラボレーションを活性化 また、PRE部ではDDoS攻撃への対応にもDatadogを活用している。ログを見ながら攻撃元を分析しているが、同時に攻撃に伴うログ取得量の増加により、Datadogのコスト増が新たな課題として浮上した。そこで、コストを監視するモニターをダッシュボードに追加し、現在はチームの定例会議などで確認している。
「DDoS攻撃によるアクセス集中で、サービスに大きな負荷がかかった時がありました。後日、Datadogの担当者からログのコスト状況の共有を受けたことをきっかけにコスト監視のモニターを追加し、一定以上のコスト増加が発生した場合にアラートが通知されるように設定しました。現在は週次でダッシュボードを確認し、予期しないコスト増があった際はログの送信制御といった対策を講じています」(原口氏)
さらに近年は、開発現場にAIコーディングエージェントが浸透し、LLMの利用コストが増加傾向にある。そこで、LLMのコスト最適化に向けて、複数のLLM APIの利用を一元管理できる LiteLLMを導入し、Datadogにアクセスログを転送してユーザー単位でのモデル利用状況やトークン消費量をモニタリングしている。
「LLMのモニタリングを検討していたタイミングで、DatadogからLiteLLMのインテグレーションが発表され、メトリクスを容易に取得できるようになりました。さらにDatadogのデータをスプレッドシート形式で可視化・分析できる Sheets機能がリリースされていました。これにより、非エンジニアでもピボットテーブルを用いた利用料金の集計や、Excelでの利用状況分析が可能になりました」(原口氏)
Datadogに対する評価は高く、熊谷氏と原口氏ともに高い満足度を示している。熊谷氏が評価しているのは、ダッシュボード作成の容易さと視認性の高さだ。
「さまざまな監視ツールを使ってきましたが、Datadogの使いやすさは群を抜いています。Datadogの担当者とは月1回のミーティングを通じて最新情報の提供を受けています。困った時にSlackで迅速にサポートが得られる点も安心材料です」(熊谷氏)
2023年に中途採用で入社して初めてDatadogを利用した原口氏は、デフォルトのダッシュボードを容易にカスタマイズできる利便性を挙げる。
「オンプレミス環境の監視ツールに慣れていたため、当初は敷居の高さを感じましたが、使い始めると必要な情報を自由に可視化したり、アラートを設定できるダッシュボードの奥深さを実感しました。業務の中でさまざまなダッシュボードを作成することで、活用ノウハウを蓄積してきました」(原口氏)
また、ダッシュボードにグラフやメトリクスを追加する過程で、PRE部のチーム内でコラボレーションが活性化する点も評価している。
「例えば、デプロイ追跡のメトリクスをダッシュボードに反映させたことで、デプロイとエラーの相関関係が明らかになり、リリース方法の改善についてチーム内で議論が進みました」(原口氏)
今後については、Datadogの活用を全社に広げ、ビジネス価値と直結したモニタリングを実現していく方針だ。現在はPRE部や開発部門のエンジニアが中心だが、今後はビジネス部門や経営層への展開も視野に入れている。
「全社員がデータをもとに会話し、意思決定できる環境を実現したいと考えています。SLOもエンジニア視点での活用が中心ですが、ビジネス部門や経営層なら顧客接点で重視されるクリティカル・ユーザージャーニーの観点から評価ができます。カスタマーサクセス部門でもRUMを活用すれば、ユーザー行動の把握が可能になります」(熊谷氏)
AIの活用も今後も大きなテーマで、運用自動化への期待を寄せる。
「夜間対応の負担を考えると、完全復旧まで至らなくても、障害発生時の初動対応をAIが担うだけでも大きな効果があります。DatadogのAI機能であるBits AIに対する期待も大きく、現在も機能強化によって適用可能な領域も拡大していると聞いています。自動運用も夢の世界ではないと思いますので、コストとメリットのバランスを見極めながら、積極的に活用していきたいと思います」(原口氏)
運用自動化の観点から、DatadogのAI機能であるBits AIに期待しています。自動運用も夢の世界ではないと思いますので、コストとメリットのバランスを見極めながら、積極的に活用していきたいと思います
原口 慎太郎 氏 弁護士ドットコム株式会社 Platform & Reliability Engineering部 Platform Engineeringチーム