システム障害の発生箇所や影響範囲の早期特定に向け Datadogのダッシュボードを導入 住信SBIネット銀行は、迅速かつ柔軟なサービス提供を実現するため、2017年から全面的なクラウド移行を進め、2020年1月までに勘定系以外の商用システムをアマゾン ウェブ サービス(AWS)に移行した。現在は約50の商用システムがAWS上で稼働している。2022年からはマイクロサービス基盤の構築に着手し、2026年内にインターネットバンキングシステムのマイクロサービス化を完了する計画だ。
同社が商用システムをAWSに移行した2020年当時、システム障害が発生した際は顧客への影響範囲や影響度を調査するために、サーバーのログを集計してレポートを作成していた。しかし、システム各部の負担が大きく、ログの調査にも時間を要していた。ログの調査には、開発担当者が本番サーバーにログインするための経路を有効化する必要があり、その手続きにも時間を要した。そこでシステム障害の発生箇所や影響範囲が「ひと目」でわかるダッシュボードの導入を検討し、Datadogを採用した。
採用の決め手となった要素が、AWSインテグレーションの容易さだった。システム運営部 オペレーショングループリーダーの丹羽辰樹氏は「Datadogには多くのインテグレーションが用意されており、AWSと容易に接続ができます。接続時のチューニングもほとんど不要で、他社サービスとの差別化において大きなインパクトがありました」と振り返る。
Datadogの導入によりシステム障害時の影響調査時間は短縮され、約1分で済むようになった。システム運営部長の佐藤武氏は次のように語る。
「インターネットバンキングの口座数は順調に増加し、800万を超えるようになりました。そこで、ログインができない、振込ができないといったシステム障害はお客様に大きな影響を及ぼします。そのため、顧客影響の範囲が1人、2人なのか、数百人レベルなのか、どの程度の影響が出ているのかといった範囲や規模の迅速な特定は、運営部の重要なミッションです。Datadogの導入で顧客影響が即座に把握できるようになり、復旧までの時間短縮が実現したことは大きな成果です」
写真左側 : 丹羽 辰樹 氏、真ん中 : 佐藤 武 氏、右側 : 藤井 武芳 氏 監視機能をDatadogに一元化することで
複数システム間の障害やネットワーク障害を可視化
ダッシュボードの導入から約3年が経った2024年9月、同社は既存の監視ツールの更新を機に監視領域でDatadogを活用することを決定した。同年10月より商用システムに対してDatadog Agentのインストールと監視定義ファイルの移行を順次行い、2025年夏から本格的な運用を開始する。監視ツールをDatadogに移行した経緯について、システム運営部 プリンシパルの藤井武芳氏は次のように説明する。
「Datadogの監視機能は、既存ツール以上に柔軟性が高く、監視業務自体を大きく変えるポテンシャルを秘めていると感じました。決め手になったのは、Datadogにログを集約することで、本番サーバーにログインすることなく複数のログファイルが確認でき、障害対応の迅速化や顧客サービスの向上につながることです。もう1つは、Datadogのデータセンターが2023年に東京に開設され、日本リージョンの利用が可能になったことです。将来的な分析用途でのデータ活用も見据えて、日本リージョンに引っ越すことにしました」
導入後は開発部門・運用部門・業務部門の一部にてシステム監視やダッシュボードの用途でDatadogの利用を予定している。同社が期待する効果は以下の3点だ。
1点目は分散している監視機能を統合することで、複数システム間の障害やネットワークレイヤーの障害などが可視化されることだ。これまでネットワーク起因の障害か、サーバー起因の障害がわからず、複数箇所から情報を集めて原因を特定していたが、Datadogなら一元化した情報をもとに分析ができる。
2点目はOn-Callによる電話連絡の全面的な自動化だ。マニュアル対応時は1日あたり100本程度のアラートコールが発生し、オペレーターの負担になっていた。On-Callの導入でその手間がなくなるため、大幅な負担軽減が期待できる。
そして、3点目は開発部側でDatadogの監視定義を直接修正できるようにすることで、不要なアラートの抑止が柔軟にできること。これまでは監視定義の修正には申請が必要で、開発部から直接参照ができなかったが、Datadogならそれらがなくなり迅速化が実現する。
以上のようにさまざまな効果が期待できるが、同社が目指しているのは「監視の民主化」である。
「スピードが命であるネット銀行は、サービス形態が日々変化し、監視のあり方も変わっていきます。そうであるなら、監視のポイントを熟知している開発部や運営部が一定の裁量を持ってコントロールするべきです。監視の民主化の実現により変化への対応力が高まるはずです」(藤井氏)
Datadogによる監視体制の確立に向けて、現在もDatadogのTAM(テクニカルアカウントマネージャー)やサポートチームとコミュニケーションを取っている同社だが、技術力の高さとレスポンスの速さを評価する。
「仕様や設定の確認で頻繁に問い合わせをしていますが、こちらの困りごとを深く理解して対応いただけているので助かっています」(藤井氏)
2021年より利用しているダッシュボードについては、直感的に操作ができるわかりやすさと、画面の見やすさを評価する。
「ダッシュボードはビジュアルのインパクトが大きいため、システムの専門家でない業務担当者にDatadogの有用性について説明する際にも役に立ちました」(丹羽氏)
今後はアプリケーションパフォーマンス監視(APM)やリアルユーザーモニタリング(RUM)、ブラウザテストなどフロント側の監視にも拡大し、ユーザー体験の向上に取り組む計画だ。さらに、開発部向けにDevOpsのテストツールとして提供したり、ビジネス部門にダッシュボードを提供したりと、全社的にDatadogの活用を拡大していく。
「最終的には勘定系システムやOA系システムも含めて、システム全体をDatadogの監視下に置き、一気通貫で対応する世界を目指していきます。加えてシステム障害の予兆を検知して未然に食い止めるAI予兆検知の導入も検討していきます。Datadogにはこれまでと変わらないスピード感での対応を期待しています」(佐藤氏)
サービス形態が日々変化するネット銀行では、監視のポイントを熟知している開発部や運営部が一定の裁量を持ってコントロールするべきです。監視の民主化の実現により変化への対応力が高まるはずです
藤井 武芳 氏 住信SBIネット銀行株式会社 システム運営部 プリンシパル
Datadogには多くのインテグレーションが用意されており、AWSと容易に接続ができます。接続時のチューニングもほとんど不要で、他社サービスとの差別化においてインパクトがありました
丹羽 辰樹 氏 住信SBIネット銀行株式会社 システム運営部 オペレーショングループリーダー