Dash 2022: Datadog の最新発表 | Datadog

Dash 2022: Datadog の最新発表

Published: 10月 19, 2022

Dash 2022: Datadog の最新発表

本日、Dash 2022 にて、情報のサイロ化、シフトレフトテストの実施、クラウドとアプリケーションのセキュリティ監視などを可能にする新製品および機能を発表しました。クラウドコストデータを他のテレメトリーと一緒に分析したり、モバイルアプリケーションの Synthetic テストを作成したり、Datadog から直接 IP をブロックして環境内の悪意あるアクティビティを防止したりできるようになりました。機密データスキャナーを拡張し、APM、RUM、イベントストリームデータを含めることも可能となっています。また、中程度の影響レベルのアプリケーションやインフラストラクチャーを可視化する必要があるお客様向けに、Datadog インシデント管理、セッションリプレイ、Continuous Profiling を発表しました。この記事では、これらの新製品と Dash 2022 で発表された他のすべての重要な発表を要約し、お使いの環境でより深い可視性を得るために、これらの製品を使い始めるためのお手伝いをします。

サイロの打破

クラウド コスト マネジメント

クラウドサービスへの投資が拡大し続ける中、クラウドの導入にかかるコストの変化を可視化することは非常に重要です。Datadog クラウドコストマネジメントを導入することで、エンジニアやコスト管理責任者は、組織内のクラウドコストの変化の要因を明確に理解できるようになります。クラウドコストマネジメントでは、関係者がインフラストラクチャーやアプリケーションのテレメトリーと一緒にコストデータを分析できるほか、クラウド費用全体における各チーム、サービス、アプリケーションの内訳を確認することもできます。これにより、エンジニアリングチームは自分たちの業務がクラウドコストにどのような影響を及ぼすかを迅速に把握できるため、サービスのコスト効率を最適化し、コストを意識する文化を定着させるという意味でも効果的です。また、コスト管理責任者は、組織のクラウド費用の変化の根本原因を把握し、将来的なコストを削減するための効果的な戦略を実行することができます。詳しくは、Datadogのブログ記事をご覧ください。

クラウドコストマネジメントは、クラウド費用の傾向、内訳、配分を表示します。

CoScreen

現代のエンジニアリングおよびオペレーションチームは、かつてないほど分散化が進んでいるため、組織にとっては効率的で有意義なコワーキング文化をリアルタイムで促進するコラボレーションツールの導入が極めて重要です。そこで、Datadog はこの度、音声やビデオチャット、インタラクティブな画面共有を使用した仮想ミーティングを作成することで、ユーザーの作業環境をシームレスに統合できるリモートコラボレーションツールである CoScreen を立ち上げました。エンジニアリングチームと DevOps チームが互いのアプリケーションウィンドウを同時に共有し対話できるようにすることで、CoScreen ミーティングは不必要な行き来を減らし、デバッグ、技術導入、インシデント対応などを合理化します。CoScreen は Datadog インシデント管理とも連携しており、チームメンバーは Incidents ページや Slack、Google カレンダーから CoScreen ミーティングを簡単に作成、起動することができます。CoScreen はウェブサイトから新規登録いただくことですぐにお使いいただけます。

デスクトップウィンドウをシームレスに画面共有して、リアルタイムに共同作業を行うことができます。

データストリーム モニタリング

イベント駆動型のパイプラインでは、KafkaRabbitMQ などのキューイングやストリーミング技術が、システムの正常な運用に欠かせないものとなっています。しかし、このような環境には多くの技術やチームが関わっているため、サービス間でメッセージを確実かつ迅速に伝達することが難しい場合も出てきます。Datadog データストリーム モニタリングは、パイプラインの健全性と、システムを横断するイベントのエンドツーエンド遅延を測定するための標準的な方法を提供するツールです。データストリーム モニタリングが提供する深い可視性により、パイプラインの遅延や遅れを引き起こす不良の原因、コンシューマー、キューを正確に特定し、ブロックされたメッセージ、ホットパーティション、オフラインコンシューマーなどのデバッグが難しいパイプライン問題を発見したり、関連するインフラストラクチャーやアプリチーム間でシームレスにコラボレーションを行うことが可能です。パイプラインを簡単かつ大規模に管理するには、データストリーム モニタリングの非公開ベータ版へのアクセスリクエストをご利用ください。

インテグレーションがさらに充実

Datadog の基本的な役割は、特定のビジネスやユースケースに関係なく、お使いの環境の各レイヤーに対する深い可視性をすべてのチームに提供することです。Datadog では 700 種類以上の統合を活用して、すべてのスタックからの主要なメトリクス、ログ、その他のテレメトリーを統一されたプラットフォームで収集、可視化、アラートすることができます。過去1年間で、サードパーティのアプリケーション、データベース、開発ツール、セキュリティサービスなどとの統合を 70 種類以上リリースしてきました。その中には、Apache PulsarArangoDBConfluent CloudJumpCloudOracle WebLogicRedis EnterpriseSalesforce Commerce CloudVercelなどさまざまなツールが含まれています。詳しくはドキュメントをご覧ください。

シフトレフト

Continuous Testing

開発サイクルの早い段階でテストを行うことは、アプリケーションのパフォーマンスを向上させ、スムーズなユーザーエクスペリエンスを実現するために不可欠です。しかし、テスト自動化ツールがシステムの他の部分と効果的に統合されていないと、この種の「シフトレフト」テストの確立と維持にそれなりの時間を要する可能性があります。Datadog Continuous Testing は、ノーコードで迅速かつ信頼性の高いテストをチームに提供することでこの問題を解決し、より効率的なテストとパイプライン内の重要な問題の特定を可能にします。Datadog のコードレス Web レコーダーとクロスブラウザの並列テストにより、最小限の労力で検証可能なユーザーワークフローとシナリオの包括的なセットを作成することができます。また、自己修復機能を持つブラウザテストと自動再試行機能により誤検知を防ぎ、アラート疲れも軽減することができます。テストによって重要な問題が顕在化した場合、CircleCI、Azure DevOps、Datadog APM などのさまざまな統合機能によって、問題を迅速に解決するためのコンテキストが提供されます。詳しくはブログ記事をご覧ください。

Continuous Testing により、テストバッチを一箇所で可視化し、分析することができます。

Intelligent Test Runner

コードベースの拡大に伴い、継続的なインテグレーション (CI) による新しいコードのデプロイテストは時間がかかるうえに、脆いプロセスになる可能性があります。Datadog Intelligent Test Runner (ITR) は、デプロイで変更されたコードによって影響を受けるテストのみを自動的に選択して実行するため、テストスイートの有効性を維持しながらテストのダウンタイムを短縮することができます。各テストを分析して影響を受けるファイルを特定することにより、ITR はこのカバレッジとコミットで変更されたコードを相互参照し、関連するテストのみを実行します。テストサービスに ITR を利用することでテスト期間を短縮し、開発サイクルを短縮することができるのも利点のひとつです。また、コード変更の範囲外である不安定なテストでビルドに悪影響が及ぶリスクを最小化することができます。また、コミットやサービス全体のリソース削減量を、使い慣れた CI Visibility のページやワークフローで可視化することができます。ITR の詳細については、ブログ記事をご覧ください。

Datadog Intelligent Test Runner でテストに費やす時間を短縮できます。

クラウドとアプリケーションのセキュリティ

クラウド セキュリティ マネジメント

企業がアプリケーションをクラウドに移行するに従って、サイバー攻撃はますますの広がりを見せています。しかし、セキュリティソリューションはこれまでクラウド導入のペースについていけず、セキュリティチームと DevOps の間に断絶を生じさせてきました。Datadog クラウドセキュリティマネジメントと Resource Catalog は、組織のクラウドインフラストラクチャー全体のセキュリティリスクを統一的に表示することで、この問題に対処します。これにより、経営陣が使用している環境の簡潔なスナップショットを入手できるほか、セキュリティチームと DevOps がシームレスに協力して脅威や構成ミスの特定、優先順位付け、修正などを実施できるようになりました。

Datadog クラウドセキュリティマネジメントの詳細については、ブログ記事をご確認ください。Resource Catalog のベータ版への新規登録は、こちらのフォームよりお願いいたします。

Datadog クラウドセキュリティマネジメントで脅威や設定ミスを調査

アプリケーション セキュリティ マネジメント プロテクション

今年初め、Datadog は Datadog Application Security Management (ASM) を発表し、Web アプリケーションや API を標的とした攻撃を迅速に検知・修正できるツールをお客様に提供していました。今回は Datadog ASM を拡張し、ネイティブなプロテクション機能を追加。Datadog から直接、ワンクリックで悪意のある IP をブロックし、攻撃を防止できるようになりました。さらに、Datadog ASM には、アプリケーションのオープンソースライブラリの依存関係によってもたらされるコードレベルの脆弱性に自動的にフラグを立てる Vulnerability Monitoring (脆弱性モニタリング) も搭載されています。これらの新機能を組み合わせて活用することで危険にさらされているサービスを特定し、セキュリティ体制を向上させ、脅威が拡大する前に状況を緩和することができます。

Datadog ASM の詳細はこちらをご覧ください。デザインパートナーとしての新規登録はこちらから行っていただけます。また、初めてのお客様は 14 日間の無料トライアルをぜひご利用ください。

Datadog ASM から直接 IP アドレスをブロック

Google Cloud Platform 向けクラウドセキュリティポスチャ管理

Google Cloud Platform (GCP) を利用する企業は、ワークロードを急速なペースで拡張しており、管理および保護すべきリソースも増加しています。インフラストラクチャーを適切に可視化できなければ、コンフィギュレーションミスを見過ごし、攻撃に対して脆弱な状態に陥る可能性があります。Datadog Cloud Security Posture Management (CSPM) は、コストが発生する構成上の問題を特定することができますが、今回はこの CSPM のサポート範囲を GCP まで拡大しました (公開ベータ版)。これにより、企業は Datadog に組み込まれたコンプライアンス制御機能を活用し、Google Cloud 環境のすべてのリソースが最新の規制のベストプラクティスに従っているかどうかを確認することができます。

効率的にリスクを軽減し、コンプライアンスを維持する方法については、Datadog のドキュメントをご確認ください。

GCP ダッシュボード向けの CSPM

APM および RUM 向けの機密データスキャナー

顧客向けアプリケーションは通常、API キー、クレジットカード番号、メールアドレスなど、多くの種類の機密データを要求・処理しています。エンジニアリングの組織や技術が大きく複雑になるにつれ、これらの機密データはより多くのサービス間で移動することになるため、データの追跡が難しくなり、漏えいの危険性が高まります。Datadogの機密データスキャナーは、ログ管理でのログスキャンに加え、APM、RUM、イベントのストリームデータを取り込む際に継続的なスキャンを行い、すぐに使えるルールやカスタムルールに基づいて機密情報を検出、マスキング、またはハッシュ化することが可能になりました。この拡張機能は顧客のプライバシーを保護し、コンプライアンス規制を遵守するために役立ちます。

APM トレースから機密データをマスキング

自動化でアクションを便利に実行

イベント管理

イベント管理は、Datadog のイベントインシデント管理を拡張し、統一されたひとつのビュー内でイベントの関連付け、コンテキスト化、優先順位付けを行うものです。イベントは、Datadog の監視アラート、Watchdog のシグナル、その他のサードパーティソースなどのデータソースから、 700種類を超えるインテグレーションを通じて収集することができ、問題に関する完全なビューをチームに提供することが可能です。イベントやアラートはモニタリングに欠かせないものですが、アーキテクチャが大規模化・複雑化するにつれて受信するアラートやイベントの量は爆発的に増加します。さらに、どの通知に対応すべきか、どれに即時対応が必要かといった優先順位付けを行うことも難しくなります。

イベント管理は、関連するイベントやアラートを自動的に関連付けることで、これらの課題に対応します。これにより、調査が必要な通知の数を減らし、根本原因を迅速に特定することができます。例えば、OOMKilled エラーと JavaScript エラーの急増に関するアラートを別々に調査する必要がなくなります。イベント管理はこれらのアラートの関連性を検出し、1 つのページで調査できるよう 1 つの「問題」としてまとめることができるからです。また、Jira, ServiceNowSlack などのプラットフォームと統合されているため、チームメイトにすぐに連絡して調査を先へと進めることができます。

イベント管理は現在非公開ベータ版です。アクセスをリクエストするには、こちらのフォームにご記入ください。

Datadog イベント管理で問題を表示

ワークフローの自動化

エンジニアリングチームは、システムの障害に対処し修復するために、複雑かつエラーが起こりやすいプロセスを実行することがよくあります。これらのプロセスでは通常、異なるモニタリングツール間でコンテキストを定期的に切り替え、いくつかの手動タスクを実行する必要があるため、システムを正常な状態に戻すのに時間を要してしまいます。Datadog Workflows を使用するとタスクのフローを自動的に実行し、必要な場合にのみユーザー入力を取り入れることで、モニタリングとトラブルシューティングのプロセスを合理化することができます。Datadog Workflows は自動化およびオーケストレーション機能で、アラートやセキュリティ検出ルールのトリガーなどを特定のイベントに応じて実行することが可能です。さらに、ワークフローを手動でトリガーしたり、イベントトリガーをスケジュールして必要なときに確実に実行させることもできます。ワークフローは使いやすい UI で構成可能で、タスクを自動的に実行できる 700アクション以上の機能を備えています。例えば、エラー率が高いというアラートに対応して、Lambda 関数のリビジョンを自動的に再展開して実行するワークフローを構成できます。

Datadog Workflows でトラブルシューティングプロセスを自動化することで、チームの問題をいかに迅速に修正し、安定してシステムを管理できるかについては、Datadog のブログ記事をお読みください。

Datadog Workflow UI のコンフィギュレーション

規制対象産業

ログ管理および APM における PCI 準拠

Payment Card Industry (PCI) Data Security Standard (DSS) のガイドラインに沿ったモニタリングは、カード会員のデータをオンラインで保存、処理、または伝送する必要があるすべての組織にとって極めて重要です。この要件を満たすために、多くの組織が複数の監視プラットフォームを使用し、PCI 規制データと非 PCI 規制データを別々のサイロで管理しています。今回、Datadog は、PCI に準拠したログ管理およびアプリケーションパフォーマンスモニタリング (APM) の提供を開始しました。これにより、カード会員データを扱う企業の皆様に、PCI レベル 1 サービスプロバイダーである Datadog の US1 環境における包括的な監視ソリューションをご利用いただけるようになります。

Datadog の PCI DSS に対する姿勢と、お客様の組織におけるこのソリューションの導入方法については、こちらのブログ記事をご覧ください。

PCI に準拠したモニタリングとガバナンスの一元化

HIPAA に準拠した可観測性・セキュリティプラットフォーム

医療機関にとって、クラウド上でアプリケーションを実行することは「効率性」と「ユーザーへのサービス提供の向上」を意味します。しかし、クラウドは「データセキュリティの確保」という複雑かつ新たな課題をもたらすことも事実です。医療機関では、コンプライアンスと適切なデータガバナンスを維持しながら、アプリケーションの健全性とパフォーマンスを可視化する必要があります。HIPAA に準拠した Datadog の可観測性・セキュリティプラットフォームは、チームにアプリケーションの健全性、パフォーマンス、セキュリティに対するエンドツーエンドの可視性を提供します。医療機関内でメトリクス、ログ、トレース、およびその他の重要なテレメトリーを統合型のプラットフォームに集約し、モニタリングとトラブルシューティングを行うことができます。また、HIPAA 対応のログ管理およびセキュリティモニタリングツールによりデータのコンプライアンスを維持し、個人情報漏洩の可能性を迅速に特定することができます。

HIPAA に準拠した Datadog の可観測性・セキュリティソリューションの詳細については、こちらのブログ記事をご覧ください。

Datadog のサービスヘルスダッシュボード

Datadog for Government でのインシデント管理、セッションリプレイ、Continuous Profiler

政府機関やその他の組織は、データの収集と管理の方法について厳しい条件を定めている政府のセキュリティ基準の影響を受けるため、クラウドでの監視が特に困難となる場合があります。同時に、信頼性の高い公共機関の Web アプリケーションに対するニーズは高まっており、それに伴い、その信頼性と、重要で難解なガイドラインへの準拠を保証するための監視ソリューションに対するニーズも高まっています。この度、Datadog インシデント管理、セッションリプレイ、Continuous Profiling が、FedRAMP Moderate レベルの認証による保護が必要なお客様向けの専用サイト「US1-FED」でご利用いただけるようになりましたのでお知らせします。

これにより、政府機関、教育機関、その他の公共機関向けの既存のモニタリングツールが強化されました。この拡張されたツールセットにより、Datadog for Government を使用して、サービスの中断につながるインシデントの特定と緩和ユーザーエクスペリエンスの直接の把握と分析コードレベルのパフォーマンスの分析と最適化が可能になりました。これらのツールは、FedRAMP (https://www.fedramp.gov/) の厳しいセキュリティガイドラインに準拠した形で安全かつ着実に操作を実施できるため、お客様社内で安心してご利用いただけます。

デジタル エクスペリエンス モニタリング

モバイルアプリのテスト

Datadog のデジタルエクスペリエンスモニタリングツールを活用すれば、シミュレートされたリクエストやアクションによるエンドツーエンドの Synthetic テストを作成・実行し、本番環境における Web フロントエンドの機能やパフォーマンスを継続的に評価することができます。Datadog は、iOS と Android の両デバイスのモバイルアプリケーションの機能テストもサポートしており、主要なアプリケーションのワークフローを段階的に記録して、実際のデバイスでテストすることができます。モバイルアプリケーションテストは、CI/CD パイプライン内で自動的にトリガーされるため、本番環境に移行する前に回帰を検出・修正することが可能です。テストの実行後、Datadog より各ステップのスクリーンショットを含む詳細な合否結果が提供されるため、エンジニアは問題の根本原因を迅速に視覚化することができます。また、テストに回復力を持たせるために、Datadog は些細な UI の変更を自動的に検出して無視します。そのため、テスト作成者は細かい外観の調整があるたびにテストの定義を更新する必要がありません。非公開ベータ版に新規登録し、ぜひモバイルアプリケーションのテストをお試しください。

ステップバイステップの機能テストを作成し、アップデートを送信する前にモバイルアプリの回帰を検出

ヒートマップ

昨年、Datadog はセッションリプレイ をリリースしました。これは、個々のユーザーセッションをビデオのように記録し、フロントエンドエラーのトラブルシューティングから推測を排除し、解決までの平均時間を短縮するためのツールです。ヒートマップと併せて、フロントエンドのトラブルシューティングをさらに強化し、ユーザーの行動パターンを迅速に発見できるようにすることで、セッションリプレイの機能を進化させました。ヒートマップは、ユーザーのクリック数に応じて異なるレベルのページ領域を視覚的にハイライトすることで、ユーザーがウェブサイトやアプリケーションの特定のページとどのようにやり取りしているかを集約的に表示します。例えば、セッションリプレイを見ることによって、ページ上の何らかの要素が、ユーザーが収益を生み出す主要なボタンやリンクを発見するのを妨げていないかどうかをテストしたいとします。何十、何百ものリプレイを見る代わりに、ヒートマップの表示に切り替えれば、そのページでのユーザー行動の集計をすばやく得ることができるため、ページ上に邪魔な要素があり、ユーザーが主要な行動喚起 (CTA) にアクセスできないといった問題があるかどうかを判断できます。ヒートマップは、ユーザー行動の隠れたパターンを発見するのに優れたツールです。迅速なデバッグを促し、ユーザーが最も接触しているページの部分を図示することで組織の業務効率を向上させることができます。ヒートマップは現在、非公開ベータ版です。アクセスをご希望の場合は、こちらのフォームにご記入ください。

ヒートマップを使用し、ユーザーのクリック数に応じて強度が異なるアプリケーションの領域を可視化

Flutter モバイルアプリケーション向け RUM

Flutter は、1つのコードベースからマルチプラットフォームアプリケーションを作成できる人気のオープンソースフレームワークです。Flutter でコードを再利用すれば時間と労力を大幅に節約できますが、異なるデバイスや OS 間で効果的にトラブルシューティングすることが難しくなる可能性もあります。Datadog Mobile RUM for Flutter は、ユーザーセッションを深く理解することで、クロスプラットフォームアプリケーションのパフォーマンスを監視し、問題を調査するために必要なコンテキストを提供します。セッションタグは、ユーザージャーニーを掘り下げ、モバイルデバイス全体の UX を評価するのに役立ちます。また、モバイルバイタルはパフォーマンスの問題を調査し、コンテキストに沿ったクラッシュレポートのトラブルシューティングを可能にします。Mobile RUM と APM をリンクして Flutter のトレースを表示し、根本原因をより迅速に特定することもできます。詳細については、ブログ記事をご覧ください。

モバイル RUM のエラートラッキングで Flutter のユーザーセッションを把握できます。

APM

APM のサンプリングレートをリモートで構成

各環境で取り込むスパンの量と予算の使用状況の健全なバランスを見つけることは、ネットワークコストをビジネス目標に適合させる際に非常に重要です。この度、Datadog APM の Ingestion Control ページから Datadog Agent のトレースサンプリング速度を変更するためのリモート設定が可能になり、ニーズに応じて組織のトレース取り込みを拡張するためのルールを設定できるようになりました。サンプリングのコンフィギュレーションをリモートで管理することにより、Agent を再起動することなく、変更が取り込み量にどのように影響するかを即座に予測することができます。APM サンプリングレートのリモートコンフィギュレーションは、まもなく非公開ベータ版として提供される予定です。早期アクセスにご興味のある方は、Datadog サポートまでお問い合わせください。

Datadog プラットフォーム内で APM のサンプリングレートをリモートで構成します。

Admission Controller を介した Kubernetes 環境へのライブラリ挿入

これまで、コンテナ化されたアプリケーションのトレースには、アプリケーション起動時にトレースを設定するために必要なライブラリを含む新しいアプリケーションイメージを構築する必要がありました。しかし、Datadog Admission Controller を利用することで、Kubernetes コンテナにライブラリとそれぞれのコンフィギュレーション変数を挿入することができるようになりました。Admission Controller から直接ライブラリを挿入することで、アプリケーションイメージを変更することなく、コンテナ化されたワークロードから分散トレースを収集することができます。この方法では、アプリケーションセキュリティマネジメント、Continuous Profiler、データストリームモニタリングなど、他の APM スイート機能も迅速に設定することができます。これにより、アプリケーションのインスツルメンテーションに関するロジスティクスを簡素化し、クラウドのワークロードを数分でスケーリングしながら、そのパフォーマンスを完全に可視化できるようになります。ライブラリ挿入は、現在 Java と Node のライブラリに対してベータ版として提供されており、他の言語へのサポートも近々開始される予定です。詳細は、ドキュメントをご覧ください。

Kubernetes 環境に直接トレースライブラリを挿入

ダイナミックインスツルメンテーションを使用して、コードを変更することなく重要なメトリクス、トレース、ログを送信

分散システムにおけるトラブルシューティング、問題の再現・解決といった複雑なプロセスを回避するために、開発者はしばしばコードにログ行を追加したり、他のタイプのテレメトリーをインスツルメントして、本番環境で問題をより良く理解しようとします。しかし、本番環境に到達する前に、これらのコードの変更が複数の環境でのビルド、テスト、デプロイメントを含む CI/CD パイプライン全体を通過しなければなりません。すべてを通過しても、追加のテレメトリーが欠落している可能性があり、この場合は同じプロセスを繰り返す必要があります。Datadog ダイナミックインスツルメンテーションは、アプリケーション開発者がコードを変更したり、再デプロイすることなく、その場でテレメトリーを追加できるようにすることで、この負担を解消します。これにより、開発、運用、QA、その他のチーム間の摩擦が減り、問題解決までの時間が短縮されます。さらに、ダイナミックインスツルメンテーションでは、ローカル変数や呼び出しパラメーターなどの実行コンテキストデータを、コードが実運用環境で実行されているときに Datadog UI から直接追加できるため、実際に運用されているコードも深く掘り下げることができます。ダイナミックインスツルメンテーションを通じて追加したテレメトリーはいつでもワンクリックで削除できるため、不要なデータを取り込んでしまった場合でも安心です。ダイナミックインスツルメンテーションは現在非公開ベータ版です。アクセスをご希望の方は、こちらのフォームにご記入ください。

コードの変更や再デプロイなしで即座にテレメトリーを追加

NDM

SNMP トラップによるネットワークパフォーマンスの問題点の監視

Datadog Network Device Monitoring (NDM) は、ルーター、スイッチ、ファイアウォールを含むオンプレミス機器全体を監視し、ネットワークエンジニアや組織にリアルタイムのヘルスおよびパフォーマンスデータを提供します。NDM は、これらの機器を SNMP でポーリングしますが、ポーリング期間外に発生した問題やハードウェアの故障は、SNMP では検出されません。このような可視性のギャップを埋めるために、Datadog NDM では SNMP トラップを収集しています。SNMP トラップイベントは、ネットワーク機器が (突然の状態変化など) 異常なアクティビティに遭遇した際にトリガーされ、重要なネットワーク問題を発生時にキャッチすることが可能です。特定の SNMP トラップイベントに対して Datadog モニターを設定し、メール、ServiceNow などの発券ツール、モバイルデバイス通知でアラートを受信することで迅速な対応が可能となります。また、これらのアラートを使用して、他のデバイスからの関連するトラップを識別するのに役立つ Log Patterns などのツールでトラブルシューティングを行ったり、すべてのネットワークデバイスとすべてのレイヤーからの主要メトリクスを視覚化するネットワークデバイスページでネットワーク全体の状態を分析したりすることもできます。

SNMP トラップについての詳細は、ブログ記事をご覧ください。

SNMP トラップでネットワークの問題を即座にキャッチ

NetFlow モニタリングで IP トラフィックフローを可視化

ネットワークの健全性を完全に可視化するには、ネットワーク機器からの方向とフローを示す情報が必要です。そのため、NetFlow はネットワークデバイスのメッシュを横断する IP トラフィックフローを監視するためのプロトコルとして一般的になってきています。Datadog Network Device Monitoring (NDM) は NetFlowトラフィックモニタリングをサポートしており、Agent を介して NetFlow データを Datadog に送信するように、すべてのデバイスを設定することができます。NDM を使用して NetFlowトラフィックを測定することにより、デバイス、ポート、プロトコルなどのファセットでトラフィックを分解できます。これにより、特定のルーターで上位の発信者  (アプリケーションまたはデバイス) を簡単に見つけ、ネットワークの輻輳をデバッグし、各チームによる帯域幅の消費量を監査することができます。NetFlow Monitoring は、現在公開ベータ版として Datadog のお客様向けに提供されています。詳しくはドキュメントをご覧ください。

Datadog NPM で NetFlow 対応機器のフローレコードを可視化およびモニタリング

ログ管理

Observability Pipelines コンフィギュレーションビルダー

Datadog [Observability Pipelines] (https://www.datadoghq.com/blog/datadog-observability-pipelines/) は、観測データを任意のソースから任意の宛先にペタバイトスケールで取り込み、変換、ルーティングできるツールです。増大するテレメトリーをさらにコントロールするために、この度 Datadog では使いやすい UI でパイプラインを作成・管理できる「Observability Pipelines コンフィギュレーションビルダー」の提供を開始しました。パイプラインのソース、方向、処理ルールをドラッグ & ドロップで簡単に変更でき、パイプラインのネスト関係を可視化します。Observability Pipelines の使用方法については、ドキュメントをご参照ください。

コンフィギュレーションビルダーのシンプルな UI により、ソース、トランスフォーム、シンクを視覚的に探索し、選択することができます。

カスタム宛先へのログ転送

大規模な組織では、ログを取り込んで分析するために様々なプラットフォームに依存することが多いのが現状です。往々にしてツールの乱立を招き、ロギング標準の適用が困難になる場合があります。Datadog ログパイプラインを使用すると、ログ処理のアクティビティを一元化できますが、これらのログを「チームに配布する」際にやはり課題に直面することになります。そこで今回の機能拡張では、ログパイプラインで Datadog から Splunk、Elasticsearch、HTTP エンドポイントにログを転送できるようになりました。ログ転送を使用すると、カスタム宛先を迅速かつ容易に設定し、RBAC で保護し、処理されたログをプラットフォーム間で自動的にルーティングすることができます。これにより、Datadog でログを一元的に収集、解析、標準化しながら、組織内の各チームが効果的に作業するために必要な柔軟性を提供することができます。ログ転送は、Datadog ログ管理への移行に伴う既存のワークフローへの対応、異なるプラットフォームを使用するチーム間のコミュニケーションの合理化、コンプライアンス目的でのローカルバックアップの維持、プロジェクトにおける外部組織との容易なコラボレーションなどを支援します。詳しくは、ブログ記事をご覧ください。

ログ転送を使用して、ログをカスタムの Splunk、Elasticsearch、または HTTP の宛先にルーティングします。

ログの異常検知とアラートの送信

モニターは、アプリケーションの問題を常に把握するために重要です。しかし、効果的なモニターを作成するには、将来のインシデントの原因を特定する必要があるため、インフラストラクチャーの問題を解決した経験が必須です。さらに、経験豊富なチームメンバーであっても未知の問題に対処することは難しいでしょう。今回の機能拡張では、Datadog Log Anomaly Detection (LAD)](https://www.datadoghq.com/blog/accelerate-incident-investigations-with-log-anomaly-detection/) を利用した Watchdog モニターを作成し、環境、サービス、ソース、ステータスでスコープすることができるようになりました。LAD を搭載したモニターは、自動的にログをスキャンして異常な動作を表面化させます。推測や、インシデントに関する知識・経験は不要です。例えば、LAD を搭載したモニターで本番環境のログだけをスキャンして、問題 (新しいエラーパターンやエラーパターンの急増など) が発生したときに警告を出すよう設定することができます。さらに、LAD を搭載したアラートは Watchdog アラートフィード に流れ込むため、継続的な調査を行うというプレッシャーなしに、アプリケーションを継続的に改善するために役立つ異常を発見することができます。LAD を利用したモニターを利用するには、こちらより非公開ベータ版への新規登録をお願いいたします。

ログ異常検知機能を搭載したモニターの作成

ログトランザクションでマルチステップのクエリを構築

ログは、ユーザーの行動やアプリケーションのリクエストとセッションの詳細を記録することができるため、事業活動を可視化する上でとても重要です。ログトランザクションを使用すると、ログを一意の識別子に基づいて一連のイベントに集約し、ビジネス活動の分析とエラーのトラブルシューティングを簡単に行うことができます。例えば、ログをトランザクションにグループ化すると、技術スタック全体に伝播するリクエストについてエンドツーエンドのコンテキストを得ることができます。しかし、実際のトランザクションは、チェックアウトのステップや CI/CD パイプラインのジョブなどより小さなジャーニーで構成されていることがよくあります。Datadog では、監視したいサブトランザクションの開始条件と終了条件を定義することで、マルチステップクエリを構築することができるようになりました。このようにトランザクションを意味のあるステップに分割することで、ステップごとに重要なメトリクスを算出し、より深いビジネス分析を促進するなど、システムやユーザーの行動をより詳細に可視化することができます。詳しくはドキュメントをご覧ください。

ログトランザクションでマルチステップのクエリを構築