GUIベースの外形監視フロー作成を評価しDatadogを採用 JR西日本の観光情報サイト「JRおでかけネット」などで提供する各種サービスのシステム開発・運用を手がけるJR西日本ITソリューションズ。列車予約や運行情報などのサービスを提供するWebシステムの監視は、同社のITビジネスソリューション部が担うミッションである。ITビジネスソリューション部長の中野善元氏は「公共サービスとしてお客様への影響を最小限に抑えるため、システムの異常を素早く感知して初動につなげることが重要です」と説明する。
同部がDatadogを導入したのは、オンプレミス環境で運用する各種サービスの外形監視が最初で、そのきっかけは10年以上利用してきたセルフホスト型ソフトウェアが保守サービスの停止を迎えたことだった。ITビジネスソリューション部の関藤正宏氏は「当時、監視スクリプトを作成できるエンジニアが部内に少なく、属人化を招いていました。また、サービスが正常に稼働している状況で、ソフトウェアの癖でエラーと判断することもあり、調査に負荷がかかっていました。加えて、オンプレミス環境で運用していた既存の外形監視システムは、サーバーに接続できる端末も限られているため、監視結果をメンバーで共有するのも困難でした」と振り返る。
そこで同部は代替となる外形監視ツールの選定にベンダーの力を借りて着手。技術要件に対応している製品を複数ピックアップした中からDatadogを採用し、2024年2月より監視を開始した。採用の決め手は、GUIベースで外形監視のフローが作成できることであった。
「GUIベースであればスクリプトを書き慣れてないメンバーでも容易に使えるため、検証時のメンバーの評価も上々でした。加えて、ユーザー数課金でなく処理件数課金のDatadogは、多くのユーザーが利用することを想定した場合、コスト面でアドバンテージがありました」(関藤氏)
外形監視でDatadogを導入した時期に、同社では「JRおでかけネット」の一部システムをオンプレミスからアマゾン ウェブ サービス(AWS)に段階的に移行する計画が進んでいた。当初はそのままAWSに移行するクラウドリフトとし、監視ツールも既存のものを利用する想定だったが、JR西日本からサーバーレスを主体にモダナイズ化し、システムのアジリティを高める方針が示された。検討の結果、既存ツールでAWSのマネージドサービスを監視するのは困難と判断した同部は、AWS環境もDatadogで監視することに決め、2025年9月より、AWS上での新システム稼働開始と共にDatadogでの監視を開始した。
「外形監視でDatadogを使用しているとはいえ、他の製品やクラウド標準機能との比較はきっちり行い、そのうえでDatadogを選定しました。Datadogであれば先行導入した外形監視とAWS監視が集約できますし、AWSとの連携も容易です。UIも直感的でわかりやすく、監視の機能も充実していました」(関藤氏)
写真左側 : 中野 善元 氏、真ん中 : 関藤 正宏 氏、右側 : 長谷川 陽之 氏 属人的な運用や端末の制限がなくなりチーム全員での情報共有が実現 現在は「JRおでかけネット」の各種サービスの外形監視と、AWS上に移行したサービスの統合監視(Infra、Log、APM、DBM、RUM)でDatadogを利用している。約70名のユーザーには、サポートベンダーやサービスを企画・運営するJR西日本の担当者も含まれ、用途に応じて権限を付与している。
ITビジネスソリューション部の長谷川陽之氏は「ダッシュボードを作成し、ログの確認や、APMでアプリケーションを監視するのが主な使い方です。通知設定をしておき、アラートが発生した時に詳細を確認しています」と語る。関藤氏は「Datadogは時系列を追ってリアルタイムにメトリクスが見られるため、変化を追いながらシステムの異変を確認するのに役立っています。その結果、従来の受動的な対応から能動的な対応にシフトすることができました。Datadogは従来のオンプレミスの監視ツールと比べて、端末制限もないため、システム関係者全員で情報共有ができる点も便利です」と説明する。
一方、管理者の中野氏が重宝しているのが、ログやメトリクスの状況をノート形式でまとめて整理・共有できるNotebookの機能だ。「クラウド上でシステム障害が発生した際、瞬間的に何があったのか、サービスが何分間止まりどの程度の影響を及ぼしたのかといったことが後から参照できるので、経営層に的確に報告できるようになっています」と中野氏は語る。
Datadogの導入により、同社は外形監視とAWS監視のそれぞれで効果が得られた。外形監視では、フロー作成の属人化が解消され、2、3人に限定されていた対応可能者が15人まで増えた。長谷川氏は「従来はライセンスの関係でテストフローの作成に制限がありました。Datadogは実行回数による従量課金のため予算内であればフロー作成に制限がなく、またGUIで操作もわかりやすく属人化の解消が進みました」と語る。併せて誤検知の調査も平易化され、過去の履歴を遡りながら確認できるようになった。管理画面の共有も容易となり、利用場所も限定されることもなくなった。
AWS環境の監視においてもオブザーバビリティの強化が実現している。APMによりエラーやレスポンスといったアプリケーションの動作が把握できるため、運用や開発でも適切な対処が可能になった。
「あるサービスをAWSに移行した際、Amazon S3の費用が高騰する事象が起きました。APMでリクエストを確認すると大量のLISTリクエストが発生していることがわかり、APIの取得方法を修正することで利用料を約20%削減することができました。開発時においても、切り替えの4、5カ月前にAWS Lambdaの速度が遅くなる事象が判明しましたが、APMで確認したところCold Startが大量に発生していることがわかり、早急に開発ベンダーと対策に関する協議をすることができました」(長谷川氏)
メトリクスやログの集約などにより監視や調査時の負荷もなく、アプリケーションチームからも調査しやすいといった感想が寄せられている。オンプレミスの運用時にベンダーに委託していた監視ツールの設定変更も、内製で対応できるようになり、コスト軽減と社内へのノウハウの蓄積が進んだ。長谷川氏は「導入後に発生した13件の設定変更は、すべて内製で対応しました。これもDatadogのわかりやすいUIや丁寧なサポートによる支援があることが貢献していることは間違いありません」と語る。
Datadogのサポートについては、日本語による対応と、数日で回答が得られるレスポンスの速さ、カスタマイズされた教育プログラムを評価している。
「Datadogの導入時、当社から15名程度が教育プログラムに参加し、外形監視とAPMについて学びました。必要な内容を選択して学ぶことができ、実運用でも非常に役立ちました」(長谷川氏)
今後については、現在トライアル利用しているRUMやDBMの本格活用や設定の最適化に取り組む予定だ。また、DatadogのAIエージェント「Bits AI SRE」を活用して障害対応のスピードアップと運用工数の削減を進めるほか、On CallとWorkflowを利用した監視の自動化にも取り組む。さらに近年標準の監視ツールとしてDatadogを採用したJR西日本との連携も強化していく方針で、同社の基盤チームとの情報交換会を定期開催している。今後はグループ内の情報共有を密にしながらDatadogの活用レベルを高めていく。Datadogに感じている価値と今後について中野氏は次のように語った。
「外形監視からDatadogを導入し、能動的な監視体制が実現してからはや2年。利用範囲は大きく拡大し、今やサービス全体を監視するツールになりました。その間、Datadogの機能も拡充され、できることも多くなりました。今後は監視だけでなく、サービスレベルの向上やコスト最適化などにも活用を拡大し、使い倒すレベルまで高めていきます。私たちの活動を通してDatadogにもさまざまなフィードバックができますので、今後とも良い関係を築きながらお互いに成長していきたいと思います」
Datadogは時系列を追ってリアルタイムにメトリクスが見られるため、変化を追いながらシステムの異変を確認するのに役立っています。その結果、従来の受動的な対応から能動的な対応にシフトすることができました
関藤 正宏 氏 株式会社JR西日本ITソリューションズ カスタマーソリューション本部 ITビジネスソリューション部 e-ビジネスシステムIグループ マネージャー
APMによりエラーやレスポンスといったアプリケーションの動作が把握できるため、運用時だけでなくシステム開発時も原因究明に役立ち、トラブルに早急に対応することができました
長谷川 陽之 氏 株式会社JR西日本ITソリューションズ カスタマーソリューション本部 ITビジネスソリューション部 e-ビジネスシステムIグループ シニアインフラエンジニア