今年のDASH では、Datadog が課題を検知・把握するだけでなく、信頼できる情報に基づいて対応できることを実際に示しました。本記事では、自動化を簡素化し、運用プロセス全体を大幅に強化する新機能をご紹介します。
Bits AI により、自然言語でワークフローをすばやく構築・実行できるようになり、オペレーションのスピードが大きく向上します。さらに、Kubernetes のオートスケーリングや AWS インフラのコスト管理を支援する新機能により、パフォーマンスとコストの最適化もより手軽に実現できます。
今回のアップデートが運用効率の向上にどうつながるのか、ぜひご確認ください。その他の主な発表については、基調講演のまとめ もご覧ください:
Bits AI でワークフローの自動化を素早く・簡単に実現
Bits AI を使って自然言語でワークフローの構築・実行をさらにスピードアップする
Bits AI を使えば、Datadog のワークフローをこれまで以上に迅速かつ直感的に構築できます。実現したいことを自然言語で入力するだけで、YAML やスクリプトは一切不要です。Bits AI アシスタントがワークフローをリアルタイムで生成・編集・反復し、数秒でアイディアを自動化へと落とし込みます。
たとえば、このように指示できます:
- 「モニターがトリガーされたら Lambda 関数を実行し、5 分後にアラートがまだアクティブかを再チェックするワークフローを作って」
- 「アラートが発生したら、AI でインシデントを要約し、関連ログとメトリクスを集約してパッケージ化し、Slack でチームに送信して」
- 「特定のセキュリティ シグナルが検出されたら、疑わしい Okta ユーザーを自動的にブロックするワークフローを構築して」
この機能はすべてのお客様にご利用いただけます。詳細は、ドキュメント (英語)をご覧ください。

AI が修復手順を表示し、Kubernetes の問題を数クリックで解決する
Datadog Kubernetes Active Remediation は現在プレビュー提供中で、明確なコンテキスト ガイダンスと推奨アクションにより、Kubernetes クラスターで頻発するインフラ問題の特定・修復する支援を行います。今回この機能に新たに追加された説明機能では、収集されたテレメトリデータと既知の障害パターンに基づいて、問題の根本原因をより深く把握できるようになりました。インシデント発生時には、AI による分析結果がサマリーに含まれるため調査が迅速になり、平均復旧時間(MTTR)を短縮できます。詳細は ブログ記事 (英語)をご覧いただくか、こちら からプレビューに登録してください。

Datadog の画面からそのまま修復・通知アクションを実行
Database Monitoring で、長時間実行中やブロック中のクエリをその場でキャンセルする
データベースにログインせずに、長時間実行されているクエリや他の処理を妨げているクエリを、Database Monitoring からキャンセルできるようになりました。この機能は [Active Connections] タブと Database Monitoring Recommendations の両方に組み込まれており、Postgres 環境におけるクエリ関連の問題を即座に修復できます。
クエリのキャンセル機能が Datadog の UI に統合されたことで、エンジニアは検出と同時にその場で直接アクションを実行できるようになり、MTTR の短縮につながります。さらに、データベースコンソールや外部ツールへの切り替え (コンテキストスイッチ) も不要になります。Datadog 上で承認ワークフローを設定すれば、Slack や Microsoft Teams 経由で承認を得ることも可能となり、既存のポリシーや運用フローにも柔軟に対応できます。この機能は現在プレビュー提供中です。ご利用を希望される場合は、カスタマーサクセス担当者までお問い合わせください。
Data Streams Monitoring でデッドレター キュー メッセージを確認し、SQS の問題をリアルタイムで修復する
Amazon SQS を利用するアプリケーションでは、デッドレターキューのアクティビティは問題の明確なシグナルとなります。しかし従来は、手動でアラートを設定し、メッセージの内容を確認して処理できなかった理由を理解するために、開発者が独自の検査ツールを作成する必要がありました。
現在は Data Streams Monitoring (DSM) 上でデッドレターキューメッセージを直接調査・管理できるようになりました。 DSM がデッドレターキューのアクティビティを検出すると、マップビュー上で該当のキューがハイライト表示されます。その状態から、次の操作を実行できます。
-
「Peek」機能で個別メッセージをその場でプレビューする
-
表示したメッセージを「Redrive」機能で元のキューに再投入する
-
トラブルシューティング後に「Purge」機能でデッドレターキューを一括削除
Data Streams Monitoring 上でデッドレターキューを使ったメッセージの問題を調査・管理できるようになったことで、トラブルの特定から対応までをよりシンプルに、リアルタイムに行えるようになりました。現在プレビュー提供中の、デッドレターキュー内のメッセージを自動で検知・可視化する機能を、ぜひお試しいただき、ご意見・ご感想をお寄せください。こちら からぜひご登録ください。

AWS の推奨事項を Cloud Cost Management 上ですぐに実行する
Datadog 内で AWS の推奨事項 を直接実行できるようになり、これまでよりもスムーズにコスト最適化に取り組めるようになりました。未使用の EBS ボリュームの削除や、アイドル状態の RDS インスタンスの終了、S3 ストレージクラスの Intelligent-Tiering へのアップグレードなど、さまざまな操作を Datadog Cloud Cost Management からワンクリックで実行可能です。
従来は推奨事項を適用するたびに AWS にログインし、該当のアカウントやリソースを探して、手動で変更をデプロイする必要がありました。Datadog の Cloud Cost Management では、具体的な推奨内容と対応する操作が UI 上で連携しているため、別のツールに切り替えることなくAWS インフラに推奨された変更をその場で適用できます。詳細は ドキュメント (英語) をご覧ください。

Datastore でアプリやワークフローのデータを保存・管理・取得する
Datastore は Datadog ネイティブのデータベースで、外部ストレージや専用インフラを用意することなく、アプリやワークフロー全体でデータの保存・管理・取得が行えます。Datastore のデータ永続化機能を活用することで、前回の処理結果や状態を引き継いで実行できる自動化や、設定の再利用、複数ステップにわたる処理ロジックの構築が可能になります。Datastore が提供する共有データストレージの主な特長は次のとおりです。
- すべてのアプリやワークフローに対して、実行時にデータを高速に検索・更新
- JSON オブジェクトや列単位での更新にも対応した柔軟なスキーマ
- チームでの共同作業を支える専用画面、事前定義済みの処理ステップ、RBAC に対応
詳細は ブログ記事(英語) をご覧ください。

Kubernetes ワークロードを Datadog でオートスケーリングする
Kubernetes ワークロードの多くはオーバープロビジョニングされた状態にあります。そのため、ワークロードのリソースを適正化すれば、大幅なコスト削減が期待できます。ただし、コスト効率とクラスターのパフォーマンスを両立させるのは簡単ではありません。Datadog Kubernetes Autoscaling(GA 版)は、アプリケーションのリソースを多次元的に自動で適正化し、各推奨の根拠となる Datadog のテレメトリを可視化できます。これにより、提案の妥当性を確認しながらコスト効率と安定性の両立を実現します。ワークロードのスケーリングは Datadog 上から直接、または既存の GitOps ワークフロー経由でも可能です。詳しくは ブログ記事(英語) をご覧ください。

Azure ログを Datadog に自動転送する
複数の Azure サービスから出力されるログを管理するには、ログ形式の正規化や保存先の指定など、さまざまなログ収集・転送の仕組みを構築する必要があり、運用が複雑になります。こうしたパイプラインは継続的な保守が欠かせず、手動による作業は設定ミスを引き起こしたり、Azure 上のワークロードで発生した問題の特定や対応を遅らせたりする原因にもなりかねません。Datadog は、Azure ログの収集とリアルタイムストリーミングを自動化することで、セットアップや保守の負担を大幅に軽減します。これにより、Azure 上で稼働するワークロード全体に対して、アプリケーションの健全性やセキュリティを安定かつ確実に監視できるようになります。詳細は ブログ記事 (英語) をご覧ください。

Datadog の CD ゲーティング機能でコードを安全にデプロイする
Datadog では、ログ、APM、Error Tracking、インフラ、ネットワークデータなどを指標として、デプロイの可否を自動的に判断する条件 (ゲート) を設定できます。Monitor Rules を設定するだけで、各サービスごとに複雑なクエリを書くことなく、品質基準に基づいたデプロイ制御が可能です。これにより、チームやサービスをまたいでスケーラブルにリリース制御を展開でき、追加の設定作業も最小限で済みます。
さらに、APM Faulty Deployment Rules を作成すれば、エンドポイントごとのエラー率に明らかな増加傾向が見られた場合や、未確認のスタックトレースなど新たなエラータイプが検出された場合に、自動的に異常を検知できます。これにより、各チームで個別の設定を行うことなく、すべてのサービスに対してベースラインとなるデプロイ制御を適用できます。
また、Datadog の UI 上で CD ルールの失敗率を可視化できるため、誤検知の抑制や、デプロイ制御プロセスへの信頼性を高めることにつながります。デプロイ条件を満たさず処理が停止した場合でも、開発者は Datadog 内でそのイベントを調査できるため、CI/CD プロバイダーの UI に切り替える必要がありません。
プレビュー版のご利用を希望される方は、こちらのフォーム からお申し込みください。

チームや環境をまたいだコラボレーションを一元的に管理
Block Kit を使ってワークフローから操作可能な Slack メッセージを送信する
Slack Block Kit アクションを使えば、Datadog ワークフローからチームに見やすく整理された情報を送信し、Slack 上でそのまま承認や入力を受け取ることができます。ファイル、ボタン、チェックボックス、日付をカレンダー形式で選択できる日付ピッカー、マルチセレクトメニューなどを組み合わせて、チームがすぐに対応できるメッセージを作成できます。たとえば、次のようなユースケースがあります。
- ボタンやメニューを追加して、エンジニアが Slack 上でインシデントの対応・承認・ルーティングを実行
- マルチブロックのアップデートやリリース ノートを送信して、チームの最新の取り組みを共有
- インシデント詳細、ポストモーテム入力、デプロイ メモを収集し、後続の自動化プロセスで活用
Slack Block Kit は Workflow Automation を使っている方なら誰でもすぐに使うことができます。まずは 新しいワークフローを作成 して、Block Kit アクションを追加してみましょう。

プライベート環境で発生するさまざまな問題に対応するワークフローやアプリを構築する
Datadog Action Catalog に含まれる 300 以上のプライベート アクションを活用して、セルフホスト型の Kubernetes クラスター、オンプレミスの PostgreSQL データベース、社内向け GitLab のデプロイ、プライベート API エンドポイントなど、さまざまなプライベート環境で発生する問題に対応する ワークフロー や アプリ を構築できます。
プライベート アクションの主な活用例
-
自動修復でセルフホスト環境のダウンタイムを削減
たとえば、Datadog のモニターが CPU 使用率の上昇を検知した際に、Kubernetes のデプロイを自動で再起動するワークフローを構築できます。例: Restart a Kubernetes deployment -
プライベートサービスの作成・管理をDatadog 内で高速化
たとえば、Kubernetes デプロイの作成・監視・再起動を Datadog 上で直接実行できるアプリを用意することで、エンジニアの生産性を高めることができます。例: Create, monitor, and restart Kubernetes deployments
詳細は ブログ記事 (英語) をご覧ください。

ドラフトモニターを使ってアラートを出すことなくモニターを作成・調整する
精度の高いモニターはアラート疲れを防ぎ、インシデントの見逃しを減らすことで、モニタリング全体の信頼性を高めます。ドラフトモニターを使えば、アラートを送信せずにモニターを作成・調整できます。作業中の設定を保存し、チームメンバーと共同で編集・検証を進めながら、準備が整い次第、本番用のモニターとして公開できます。詳しくは ドキュメント (英語)をご参照ください。
