開発部門が運用業務を巻き取って組織の生産性を2倍に向上 | Datadog
CASE STUDY

開発部門が運用業務を巻き取って
組織の生産性を2倍に向上

株式会社NTTドコモ

NTTドコモは日本の移動体通信事 業者。携帯電話サービス、光ブロ ードバンドサービス、衛星電話サ ービス、端末機器販売を行う。 2015年度よりスマートライフ事業 として、動画・音楽配信、電子書 籍サービス、金融・決済サービス などにも力を入れている。


主要成果

業務量2倍で残業を削減

クラウド移行時に開発チームが 運用業務を巻き取りました。業 務量は2倍に増えましたが Datadogなどを活用して社内コ ミュニケーションのコストを下 げ自動化を進めたことで逆に残 業は減りました。

主要32システム

システムは46個あり、稼働が 高い主要な32システムにはす べてDatadogが使われていま す。

課題と導入効果

トラブルの切り分けに時間が かかっていた。メトリクスを 見る、ログを見るは当然やっ ていたが、見る人はごく一部 で、トラブルの状態を伝える コミュニケーションコストが 大きくなっていた。 Datadogを導入することでコ ミュニケーションコストが低 下し、 ここをこうすればい いいとかの アイディアが浮 かびやすくなった。自動復旧 など次のアクションへのイン サイトを得やすくなり、切り 分けの手段が増えたので効率 化した。

なぜDatadogか?

運用で問題が起きたらすぐに解 決したかった。Datadogは様々 な事象を関連付けて分析ができ て、可観測性が高まり、対処ま での時間を短縮できる。ダッシ ュボードの表現力、使い勝手、 人気ランキングが表示されるな どの機能がメンバーを魅了し、 有益なダッシュボードが次々と 生まれた。DatadogがSaaS型 で運用不負荷が低く、マルチク ラウド対応しているところもよ かった。


開発手法の改革、組織統合に加えてDatadog導入で一気に最新鋭化

NTTドコモは日本の大手移動体通信事業者で、5GやLTE(Xi)など の携帯電話サービス、光ブロードバンドサービス、衛星通信サービ ス、端末機器などを提供している。これに加えて近年では「あなた と世界を変えていく」をスローガンに、動画・音楽配信、電子書籍 サービス、金融・決済サービスなどスマートライフ事業にも注力し ている。

多岐にわたる新規事業を支えるのは最新鋭のクラウド技術。同社で は2012年ごろからクラウドへのシフトを始めた。当初はAWSから、 2014年からはGoogle Cloudにも広げてマルチクラウド体制とした。 現在では46ほどあるシステムのうち、主力で稼働している32シス テムをDatadogで監視している。システムの多くがAWS Lambda やAWS Fargateを用いており、AWS Fargateで数えれば2000〜 3000程度が監視対象となる。

オンプレからクラウドへのシフトと並行して、開発手法の変革、開 発と運用の組織的な統合も進めるなか、Datadog導入も進めたため 「どこまでがDatadogの効果となるか正確に測定できませんが、大 きな変革が成し遂げられたことにDatadogが寄与したことは確かで す」と三井力氏は言う。

「クラウドでの開発と運用を進めるなか、Datadogを導入した目的 は統合監視ツールで様々な事象を関連付けて分析することです。 可観測性が上がり、問題の切り分けから対応までが迅速化するだ けでなく、開発者はAPMでただちに性能試験もできて、ボトルネ ックをすぐ発見できる。我々はビジネスロジックに集中し、アジ リティを高めたい。そうした要件があるなかDatadogはSaaSで提 供されているので運用不負荷が低く、マルチクラウドにも対応し ているところがよかった。」

株式会社NTTドコモ
サービスデザイン部 第三クラウド推進
担当部⻑ 三井 力 氏

ダッシュボードがコミュニケーションコストを激減

かつて現場では、開発と運用間のコミュニケーションに課題があった。開発チームは運用手順や対応方法をまとめた指示書を運用チームに渡すことになっており、このドキュメント作成に大きな労力がかかっていた。運用段階に入るとメトリクスやログを監視するメンバーが固定されているため、障害が発生すると「今はどうなっている?」と関係者間で情報が人づてで伝わるなど、多大なコミュニケーションコストが生じていた。

「ドキュメントにまとめられるものなら、自動化できる」と、手順書に ある作業の自動化を徐々に実装していった。ここにDatadogが導入され ることで、一気に効率化が加速し、コミュニケーションコストが激減し た。

「Datadogを導入したら、開発、運用担当者だけでなく、ビジネス部門 もDatadogのダッシュボードを見るようになりました。伝言ゲームがな くなり、問い合わせが来なくなったのです。今では実質的に専属の運用 者はほぼゼロです」(三井氏)

組織統合の影響もある。開発チームが運用チームを巻き取る形で組織統 合したため、開発チームが運用も担うことになった。開発者にとって運 用が「自分ごと」になると、開発者は運用に配慮した実装を心がけるよ うになった。開発者の意識が変化し、Datadogで運用保守のコミュニケ ーションコストが大幅に下がったことで、驚くべき効果が生まれた。三 井氏は「仕事が2倍になったのに、残業が減ったのです」という。今で はリアルタイムで監視できているため、品質が目標より低下したら品質 向上の優先度を上げるなどデータドリブンに要件を決める体制ができた と話す。

効率化のアイデアが次々と生まれて連鎖した

Datadogを導入することで変化が連鎖的に起きた。最初はメトリクスを 見て、ダッシュボードを試しに作成するところから始めた。ダッシュボ ードは閲覧回数に応じた人気ランキングも表示されるため、ちょっとし た競争意識が刺激された。メンバーが率先して分かりやすいダッシュボ ードを作るようになり、工夫のヒントが広まり、色分けやレイアウトが ぐんぐんブラッシュアップされていった。

ビジネス部門もDatadogのダッシュボードを閲覧している。たとえばキ ャンペーンの通知を多数のユーザーに配信する時、配信に遅延がないか ダッシュボードから確認できる。またDatadogのフォーキャスト機能で 近未来のシステムリソース混雑状況を予測できるため、ビッグデータ分 析をしようとしているユーザーから好評だという。⻑距離ドライブする 時に空いた道や時間帯を選ぶような感覚だ。

ちょっとした障害もアノマリー機能で素早く検知できている。Datadog からSlackを通じて関係者に通知を発行しており、三井氏は「グラフも添 付できて、問題の深刻度が分かりやすい」と絶賛する。異常発生時の Slack通知は2時間程度で実装した。

将来について三井氏は「CWS(クラウドワークロードセキュリティ)な ど、急速に実装が進んでいるセキュリティ機能に興味があります。 Datadogのセキュリティ機能を使いこなしてセキュリティを強化し、 DevSecOpsを実践できるようにしたい」と語る。

リソース