開発部門からAPMやRUMの要求を受け、社内で利用実績が豊富なDatadogを採用 総合サービスサイト「DMM.com」を運営する合同会社DMM.com。創業時からエンターテインメント領域に注力する同社において、総合動画配信サービスの「DMM TV」は中核を担う事業だ。旧「DMM動画」をリニューアルする形で2022年12月にサービスを開始したDMM TVは、“推しが見つかる。世界が変わる。“をコンセプトに、これまでにない総合的なコンテンツ体験を追求している。月額550円(税込 / App Store、Google Playからの登録は月額650円)のDMMプレミアム会員に登録することで、アニメ約6,300作品を中心に21万本以上のエンタメコンテンツが見放題で楽しめる。
DMM TVのインフラ(EC基盤)にはGoogle Cloudを採用し、GKE(Google Kubernetes Engine)を中心にプラットフォームを構築している。メディア基盤開発部 配信インフラグループ SREチーム リーダーの菅野滉介氏は「旧DMM動画時代はオンプレミス環境で運用してきましたが、売り切り型のDMM動画からサブスク型のDMM TVに刷新するにあたりゼロからプラットフォームを設計し、社内で技術検証が進んでいたGoogle CloudとGKEを採用しました」と語る。
サービス監視はオンプレミス時代から利用していたDatadogを継続する方針としたが、新たにAPMやRUMを活用する狙いがあった。メディア基盤開発部 配信インフラグループ SREチームの小林辰彰氏は「オンプレミス時代はCPUやメモリーの使用率などインフラのリソース監視がメインでした。DMM TVにリニューアルするにあたり、フロントエンドやバックエンドの開発チームからパフォーマンス影響をモニタリングしたいという強い要望が寄せられていたことから、それを実現するツールとしてDatadogが最適と判断しました」と振り返る。
DMM.comではDatadogが日本法人を設立した2019年から、ゲームや会員プラットフォームなど、複数のサービス基盤でDatadogを活用している。DMM TVへの適用においても社内に蓄積されていたノウハウが役に立ったという。
「DMM TVの開発では特にスピードが求められていたため、使い勝手を理解し、必要な機能がすべて揃っているDatadogを選択するのは自然の流れでした。とはいえ、SREチームにとってGoogle CloudにDatadogを導入するのは初めてでしたので、GKEでサービスを運用している他のチームにパラメータ設定やダッシュボードに関するアドバイスを仰ぎながら、DMM TV用にカスタマイズしました。導入時はAPMとRUMのデータを統合し、フロントエンドとバックエンドの双方から問題を突き止められるように工夫しました」(菅野氏)
写真左側 : 片岡 歩夢 氏、真ん中 : 菅野 滉介 氏、右側 : 小林 辰彰 氏 1日15分の日常監視でイレギュラーな状態をいち早く検知 現在、DMM TVではDatadogのインフラ監視、ログ管理、APM、RUM、ネットワークモニタリング、プロファイラーの機能をメインで活用。SRE、アプリ、フロントエンド、バックエンドの4チームで136名、プロダクトマネージャーなどのリードオンリーを含めると約160名が利用している(2025年11月時点)。監視項目は開発部門4チームごとに異なるため、それぞれでダッシュボードをカスタマイズして活用している。
SREチームでは、日常監視と特別監視の両輪で活用。日常監視ではイレギュラーな状態検知を目的に、Google CloudやGKEのメトリクスを集めたオーバービューダッシュボードを日次や週次で確認している。メディア基盤開発部 配信インフラグループ SREチームの片岡歩夢氏は「日次では2~3日の時間軸でAPM/RUMのエラー数、Podsの異常値、エラーログなどを確認し、短期的な変化を見逃さないようにしています。直近ではRedisのメモリーエラーを検知する専用ダッシュボードを作成し、問題が起きた際にすぐに確認できるようにしました。コストコントロール用にノードリソースを確認するダッシュボードも用意して、全体を見ながらGKEのノード数をコントロールしています。日次の確認時間は15分程度ですが、ダッシュボードがなければ倍以上の時間を要していたと思います」と語る。
異常検知時はDatadogのモニター機能で自動的にSlackやオンコールで専任チームに通知が届く。モニターの設定情報はTerraformで一元的に管理し、棚卸しやしきい値の変更などを行っている。
特別監視は大型キャンペーンや人気ライブ配信など、アクセスの急増でユーザー影響が見込まれるタイミングで実施。キャンペーン時の負荷情報は、ドキュメントを作成・共有できるDatadog ノートブックに実施期間、Podsの推移、アクションなどをまとめて記録し、後から参照できるようにしている。
また、特別監視の前にはキャパシティプランニングのための負荷試験を実施。試験環境にDatadogを導入し、数値ベースでモニタリングしながら必要なPodsを試算したり、性能改善を実施したりしている。
「負荷試験はSREチームが張り付いている必要もなく、バックエンド側のみで実施して後から結果を共有してもらうだけで済むこともあり、効率的に行うことができます」(菅野氏)
フロントエンドチームは主にRUMを監視し、レンダリングスピードなどコアウェブバイタルを確認してパフォーマンスの低下を防止している。バックエンドチームはAPMを確認ながら、レイテンシーの低下に影響するエラー検知や原因分析を行っている。想定外の遅延が発生した際にはフロントエンド、バックエンドともにDatadogのプロファイラー機能を活用し、原因分析をしながら早期の改善を図っている。SREチームでもエラーログなどを見ながら、問題があればフロントエンド、バックエンド、アプリのチームに検知した異常を通知して速やかに情報を共有している。
「Datadogを使ってみて思うのは、インフラだけでなくアプリの課題もSRE側から確認できることです。アプリの特定のAPIにエラーが発生していることを発見した際、SRE側からアプリチーム側に指摘したことがありました。Datadog ノートブックを使えば、手軽に他チームとメトリクス情報を連携でき、わかりやすく伝えることができる点もユニークです」(片岡氏)
Datadogの活用でサービス開始以来、ユーザー影響もなく安定運用を続けているDMM TV。Datadogのメリットについて小林氏は「エンドツーエンドでのフルスタックモニタリングができることにある」と指摘する。
「CPU負荷が高い時はAPMを見たり、ユーザー影響が発生した時はRUMを確認したりと、SRE、アプリ、フロント、バックエンドの開発者がDatadogですべてのデータを関連付けて見られることが大きいと思います」(小林氏)
今後はDatadogの機能のさらなる活用や、AIによるオブザーバビリティの強化に取り組む方針で、異常検知後の原因推論や解決策の示唆などにおいて、DatadogのAIアシスタント機能である「Bits AI」にも関心を寄せている。
「引き続きDatadogのナレッジを蓄積しながら、Browser testsなどの機能を使いこなしていきます。AIについても監視領域での活用を広げていきますので、情報共有などでのサポートを期待しています」(菅野氏)
「Datadogのメリットはエンドツーエンドでのフルスタックモニタリングができることにあり、SRE、アプリ、フロント、バックエンドの開発者がDatadogですべてのデータを関連付けて見られることが大きいです」
小林辰彰 氏 合同会社DMM.com メディア基盤開発部 配信インフラグループ SREチーム
「スモールスタートで始められる完全従量課金制であることと、ダッシュボード作成の容易さの2点を評価してDatadogの採用を決めました」
菅野滉介 氏 合同会社DMM.com メディア基盤開発部 配信インフラグループ SREチーム リーダー
(Note) This DMM.com case study produced by Datadog may not be translated or adapted into any language other than Japanese without the permission of both Datadog and DMM.com. / Datadog が制作した本 DMM.com 様の事例は、Datadog ならびに DMM.com の許可なく日本語以外の他の言語に転用することを禁じます。