The Monitor

DASH 2025 Act & Automate: Datadog의 최신 발표 내용 가이드

19 minute read

Published

Share

DASH 2025 Act & Automate: Datadog의 최신 발표 내용 가이드

Datadog은 DASH에서 단순한 문제 감지를 넘어, 상황을 정확히 파악하고 정보에 기반한 조치를 즉시 제시할 수 있는 기능을 선보였습니다. 이 요약에서는 자동화를 간소화하고 전반적으로 프로세스를 크게 개선하는 새로운 기능을 중점적으로 소개합니다.

Bits AI를 이용하면 자연어를 사용하여 워크플로우를 더 빠르게 구축하고 실행할 수 있습니다. 성능 및 비용 관리의 복잡성을 줄여주는 Kubernetes 오토스케일링 및 AWS 인프라에 대한 비용 관리 개선도 함께 발표했습니다.

이번 업데이트를 통해 조직의 운영 효율성을 어떻게 개선할 수 있는지에 대해 알아보세요. 그리고 키노트 요약에서는 다음과 같은 중요 발표 내용도 살펴보실 수 있습니다.

Bits AI를 통한 자동화

자연어를 사용하여 더 빠르게 워크플로우를 구축할 수 있는 Bits AI

Bits AI를 사용하면 더욱 빠르고 직관적으로 Datadog 워크플로우를 구축할 수 있습니다. YAML이나 스크립트 없이도 달성하고자 하는 것을 자연어로 설명하기만 하면 됩니다. Bits AI 어시스턴트가 실시간으로 워크플로우를 생성, 편집, 반복해주므로 아이디어에서 자동화 실현까지 단 몇 초면 됩니다.

활용 예시:

  • "모니터가 트리거되었을 때 람다 함수를 호출하는 워크플로우를 만들고, 5분 후에 다시 점검해서 경고가 여전히 활성인지 확인해줘."
  • "모니터에 이상이 감지되었을 때 AI를 사용해서 인시던트를 요약해주고, 관련 로그와 메트릭을 집계해서 Slack을 통해 우리 팀에 패키지로 보내줘."
  • "특정 보안 신호가 감지되면 의심스러운 Okta 사용자를 자동 차단하는 워크플로우를 빌드해줘."

이 기능을 이제 모든 고객이 사용할 수 있습니다. 자세한 내용은 이 문서를 참고하세요.

Build workflows with the Bits AI Interface
Build workflows with the Bits AI Interface

AI를 활용하여 Kubernetes 문제 해결 속도 향상

현재 프리뷰로 이용 가능한 Datadog Kubernetes Active Remediation은 명확한 상황별 지침과 권장 조치를 제공하여 Kubernetes 클러스터 내에 흔히 발생하는 인프라 문제를 식별하고 해결하는 데 도움을 줍니다. 이제 Kubernetes Active Remediation의 최신 개정판이 발표되어, 근본 원인에 대한 심층적인 인사이트를 AI 기반으로 설명해줍니다. 문제가 발생하면 수집된 텔레메트리 데이터와 알려진 패턴을 기반으로 한, AI로 분석한 내용이 문제 요약에 포함됩니다. 그래서 조사 속도가 빨라지고 평균 해결 시간(MTTR)을 단축할 수 있습니다. 시작하려면 블로그 게시물을 확인하거나 프리뷰에 등록하세요.

Information about an application error. The screen shows what happened, analysis from Bits AI, and recommended next steps.
Information about an application error. The screen shows what happened, analysis from Bits AI, and recommended next steps.

Datadog 내에서 실행 조치

Database Monitoring에서 느린 쿼리 또는 차단 상태의 쿼리 취소

이제 데이터베이스에 로그인하지 않아도 Datadog Database Monitoring에서 바로 느리게 실행되는 쿼리 또는 차단 쿼리를 종료할 수 있습니다. 이 기능은 Active Connections 탭과 Database Monitoring Recommendations에 모두 임베드되어, Postgres 환경에서 쿼리 관련 문제를 즉시 해결할 수 있도록 해줍니다.

쿼리 취소가 Datadog UI에 통합됨으로써 엔지니어가 탐지 시점에 바로 조치할 수 있어, MTTR이 줄어들고 데이터베이스 콘솔이나 추가 타사 도구로 컨텍스트를 전환할 필요가 없어졌습니다. 팀이 Datadog내에 승인 워크플로를 셋업하여 Slack 또는 Microsoft Teams를 통해 승인하여 기존 정책 및 운영과의 불일치를 예방할 수도 있습니다. 이 기능은 현재 프리뷰로 제공되므로, 사용하려면 고객 성공 매니저(CSM)에게 문의하세요.

Cancel Queries in Database Monitoring.
Cancel Queries in Database Monitoring.

Data Streams Monitoring에서 DLQ(Dead Letter Queue) 메시지를 검사하여 SQS 문제를 실시간으로 해결

Amazon SQS에 의존하는 애플리케이션의 경우, 데드 레터 큐 활동은 문제가 있음을 보여주는 분명한 신호입니다. 그러나 이를 감지하려면 일반적으로 수동 경고를 셋업해야 하며, 문제를 해결하기 위해서는 개발자가 메시지를 검사하는 도구를 빌드하여 내용을 확인하고 처리될 수 없는 이유를 더 면밀히 파악해야 합니다.

이제 사용자가 Data Streams Monitoring에서 직접 데드 레터 큐(DLQ) 메시지를 조사하고 관리할 수 있습니다. DSM이 DLQ 활동을 감지하면 맵 뷰에 해당 큐가 강조 표시되어 사용자에게 표시됩니다. 그러면 사용자는 바로 다음과 같이 조치할 수 있습니다.

  • 개별 메시지를 "Peek"(엿보기)하여 실시간 검사
  • 본 메시지를 다시 소스 큐로 "Redrive"(재유도)
  • 문제 해결 후 데드 레터 큐를 "Purge"(퍼징)하여 초기화

이러한 탐지·해결 옵션을 Data Stream Monitoring에서 제공하게 되어 기쁘게 생각합니다. 여러분의 피드백을 기다리겠습니다. 이제 DLQ (Dead-Letter Queue) 활동 감지 및 메시지 가시성 기능을 프리뷰로 이용하실 수 있습니다. 여기에서 등록하세요.

Redrive, peek, or purge SQS Queues in Data Streams Monitoring
Redrive, peek, or purge SQS Queues in Data Streams Monitoring

Cloud Cost Management 내에서 AWS 권장 사항에 대한 조치 수행

AWS recommendations 내에서 직접 조치하여 클라우드 비용 최적화를 가속화할 수 있습니다. 이제 Datadog Cloud Cost Management에서 직접 미사용 EBS 볼륨을 삭제하고, 유휴 RDS 인스턴스를 종료하고, S3 스토리지 클래스를 Intelligent-Tiering으로 업그레이드하는 등의 작업을 할 수 있습니다.

과거에는 비용 권장 사항에 조치하려면 변경을 실행하기 위해 AWS에 수동으로 로그인하고 올바른 계정과 리소스로 이동해야 하는 등, 변경 준비 및 배포를 위해 다른 도구로 전환해야 했습니다. Datadog은 Cloud Cost Management UI 내에서 실행 가능한 인사이트와 직접 리소스 제어를 통합하여 이러한 불편을 해소했습니다. 이제 다른 도구로 전환할 필요 없이 AWS 인프라에 권장 변경 사항을 즉시 적용할 수 있습니다. 자세한 정보는 이 문서를 참고하세요.

Delete RDS Instance in Cloud Cost Management
Delete RDS Instance in Cloud Cost Management

Datastore로 앱 및 워크플로우에서 수집된 데이터를 저장, 관리, 검색

Datastore는 외부 스토리지나 인프라 없이도 앱과 워크플로우 전반에서 데이터를 저장, 관리, 검색할 수 있는 네이티브 Datadog 데이터베이스 시스템입니다. Datastore의 데이터 지속성을 활용하면 스테이트풀 자동화를 구축하고, 구성을 재사용하고, 여러 실행에 걸쳐 다단계 로직을 구축할 수 있습니다. Datastore가 제공하는 공유 데이터 스토리지에는 다음과 같은 특징이 있습니다.

  • 모든 앱과 워크플로우에 대한 실시간 조회 및 업데이트
  • JSON 오브젝트 및 열 업데이트 등, 복잡한 필드를 지원하는 유연한 스키마
  • 전용 UI, 즉시 사용 가능한 액션, RBAC 지원 등 협업 도구

Datastore에 대해 자세히 알아보려면 이 블로그 게시물을 읽어보세요.

A custom incident management app built using Datastore.
A custom incident management app built using Datastore.

Kubernetes 워크로드를 자동으로 확장해주는 Datadog

대부분의 Kubernetes 워크로드는 오버프로비저닝되어 있어, 워크로드를 적정 크기로 조정하면 많은 비용을 절약할 수 있습니다. 하지만 비용 효율성과 클러스터 성능의 균형을 맞추는 것은 쉽지 않습니다. Datadog Kubernetes Autoscaling(정식 출시됨)은 안정성에 영향을 주지 않으면서, 애플리케이션 사이즈를 다각도로 조정하고, 자동화를 통해 전체 공간을 쉽게 관리하고, 각 권장 사항에 해당하는 Datadog 텔레메트리에 대한 가시성을 확보할 수 있게 해줍니다. 이제 Datadog에서 직접 또는 기존 GitOps 워크플로우를 통해 워크로드를 자동 확장할 수 있습니다. 자세히 알아보려면 이 블로그 게시물을 확인하세요.

Scaling recommendations for a Kubernetes workload, with the estimated cost savings displayed
Scaling recommendations for a Kubernetes workload, with the estimated cost savings displayed

Azure 로그를 Datadog으로 자동 전송

여러 Azure 서비스에서 로그를 관리하는 것은 다양한 로깅 파이프라인을 구성해 로그 형식을 정규화하고 로그 저장 목적지를 정의해야 하는 복잡한 작업입니다. 이러한 파이프라인은 지속적인 유지 관리가 필요하며, 이 작업을 수동으로 하게 되면 구성 오류와 Azure 호스팅 워크로드의 문제 식별 역시 지연될 수 있습니다. 이제 Datadog이 Azure 로그 수집을 자동화하고 Datadog으로 실시간 스트리밍해줌으로써, 셋업 및 유지 관리가 간소화되고 시간과 노력이 절약됩니다. 이러한 Azure 로그 전송 자동화는 운영 효율성을 높이고 조직이 Azure 호스팅 워크로드 전반에서 애플리케이션 상태 및 보안을 안정적으로 모니터링할 수 있도록 해줍니다. 자세히 알아보려면 블로그 게시물을 읽어보세요.

Azure logs in Log Explorer.
Azure logs in Log Explorer.

Datadog 내에서 CD 게이팅을 통해 안전하게 코드 배포

Datadog은 이제 로그, APM, 오류 추적, 인프라, 네트워크 데이터를 기반으로 배포를 제어할 수 있도록 지원합니다. 이 기능을 이용하면 매 서비스마다 복잡한 쿼리를 작성하지 않아도 배포 품질을 강화하는 모니터링 규칙을 구성할 수 있습니다. 그래서 각 팀마다 추가 구성 업무는 최소화하면서 확장 가능한 방식으로 팀 및 서비스 전반에 규칙을 적용할 수 있습니다.

또한 통계적으로 유의미한 엔드포인트당 오류율 증가와 새로운 오류 유형(예: 보이지 않는 스택 추적)을 자동으로 감지하는 APM Faulty Deployment 규칙을 만들 수도 있습니다. 그러면 각 팀에서 별도의 구성 작업 없이도 모든 서비스에 대한 기준 규칙을 얻을 수 있습니다.

또한 Datadog UI 내에서 CD 게이트의 실패율을 추적하여 오탐지를 줄이고 게이팅 프로세스에 대한 신뢰를 구축할 수 있습니다. 또한 게이트가 실패하면 개발자가 CI/CD 제공자의 UI로 컨텍스트를 전환할 필요 없이 Datadog 내에서 이벤트를 조사할 수 있습니다.

프리뷰에 참여하려면 이 양식을 작성하세요.

Production monitor with deployment quality rule in Datadog CD Visibility
Production monitor with deployment quality rule in Datadog CD Visibility

팀 및 환경 전반의 협업 조율

워크플로우 내에서 대화형 Slack 메시지를 전송할 수 있는 Block Kit

Slack Block Kit 액션을 이용하면 팀에 적절한 형식의 컨텍스트를 제공하고, 구조화된 입력 또는 승인을 Slack으로부터 직접 수집하도록 Datadog 워크플로우를 구축할 수 있습니다. 파일, 버튼, 체크박스, 날짜 선택기, 다중 선택 메뉴 등을 전송하여 액션을 유도하는 맞춤형 메시지를 작성할 수 있습니다. 그 예는 다음과 같습니다.

  • 엔지니어가 Slack에서 나가지 않고도 문제를 인지, 승인 또는 라우팅할 수 있는 버튼과 메뉴를 포함
  • 멀티블록 업데이트 또는 릴리스 노트를 전송하여 팀의 최근 활동을 알림
  • 인시던트 세부정보, 사후 분석 내용, 배포 노트를 수집하고 다운스트림 자동화에 사용

Slack Block Kit은 Workflow Automation의 모든 사용자가 사용할 수 있습니다 새 워크플로우 생성으로 시작하고 Block Kit 액션을 추가하세요.

Slack Block Kit Action in Workflows
Slack Block Kit Action in Workflows

프라이빗 환경 전반에서 문제를 해결해주는 워크플로우 및 앱 구축

WorkflowsApps을 구축하여 Datadog Action Catalog 내에 포함된 300여 개의 프라이빗 액션을 사용하여 프라이빗 환경(예: 자체 호스팅 Kubernetes 클러스터, 온프레미스 PostgreSQL 데이터베이스, 내부 GitLab 배포판, 프라이빗 API 엔드포인트 등) 전반의 문제를 해결할 수 있습니다.

프라이빗 액션을 이용하면 다음과 같은 이점이 있습니다.

  • 자동 해결을 사용하여 자체 호스팅 시스템의 다운타임을 줄일 수 있습니다. 예를 들어, Datadog 모니터가 높은 CPU 사용량을 감지하면 Kubernetes 배포판을 자동으로 재시작하는 워크플로우를 구축할 수 있습니다.
  • Datadog 내에서 프라이빗 서비스 생성 및 관리 속도를 모두 높일 수 있습니다. 예를 들어, 엔지니어가 Datadog에서 직접 Kubernetes 배포판 생성, 모니터링, 재시작할 수 있도록 하는 앱을 만들 수 있습니다.

이 블로그 게시물에서 프라이빗 액션에 대해 자세히 알아보세요.

Workflow for restarting a Kubernetes deployment.
Workflow for restarting a Kubernetes deployment.

드래프트 모니터를 만들어서 경고 전송 없이도 모니터링 구축 및 설정

고품질 모니터는 경고 피로를 줄이고, 인시던트 누락을 방지하여 팀원들이 수신하는 신호의 신뢰성을 높입니다. 드래프트 모니터를 사용하면 경고 전송 없이도 모니터를 구축하고 정리할 수 있습니다. 새로운 고품질 모니터를 게시할 준비가 될 때까지, 작업 중인 구성을 저장하고, 팀원들과 협업하고, 로직을 테스트할 수 있습니다. 자세히 알아보려면 이 문서를 참고하세요.

Monitor configuration page shows a Save as Draft option.
Monitor configuration page shows a Save as Draft option.

Related Articles

DASH 2025 Observe & Analyze: Datadog의 최신 발표 내용 가이드

DASH 2025 Observe & Analyze: Datadog의 최신 발표 내용 가이드

DASH 2025: Datadog의 최신 발표 내용 가이드

DASH 2025: Datadog의 최신 발표 내용 가이드

DASH 2025 Secure & Govern: Datadog의 최신 발표 내용 가이드

DASH 2025 Secure & Govern: Datadog의 최신 발표 내용 가이드

Start monitoring your metrics in minutes