DASH에서 Datadog이 서비스 모니터링, 최적화, 보안에 어떻게 도움을 주고 있는지 공유했습니다. 이 요약에서는 성능 문제와 시스템 이상을 해결하기 위해 포괄적인 분석을 제공하고 실행 가능한 인사이트를 자동으로 제시해주는 새로운 기능을 중점적으로 소개합니다.
Datadog은 사용자 마찰을 정확히 찾아내는 RUM Recommendations, 프로파일링 데이터를 실시간으로 해석하는 Automated Analysis, CI 파이프라인의 테스트 안정성을 크게 향상시키는 one-click recommendations를 선보였습니다. 그리고 인프라뿐만 아니라 Datadog 서비스에 대한 비용 관리도 훨씬 쉬워졌습니다.
이번 업데이트와 Product Analytics, Software Catalog 등의 새로운 기능이 문제를 더욱 빠르게 탐지하고 해결하는 데 어떻게 도움이 될 수 있을지 알아보세요. 그리고 키노트 요약에서는 다른 중요 발표 내용도 살펴보실 수 있습니다.
자동화된 인사이트로 문제 진단 및 해결
오류와 지연의 원인을 식별할 수 있는 Tag Analysis
애플리케이션 성능이 저하되었을 때 근본 원인을 식별하려면 관련성이 있을 수 있는 태그를 추측하고 수동으로 추적을 그룹화하는 지루하고 시간 소모적인 프로세스를 시작해야 하는 경우가 많습니다. Datadog Tag Analysis는 지연 시간 급증 또는 오류와 가장 밀접한 상관관계가 있는 태그를 자동으로 식별하여 이러한 마찰을 해소합니다. 통계적으로 유의미한 특성을 순위대로 나열한 목록을 생성하여 영향받는 범위 내에서, 그리고 기준 성과와 비교해 각 태그의 값이 얼마나 차이가 나는지 보여줍니다. 이러한 인사이트를 활용하면 새로운 서비스 버전과 관련된 속도 저하 또는 특정 지역에 집중된 문제 등 비정상적인 행동을 결정짓는 요소를 빠르게 파악할 수 있습니다. 직관에 의존하거나 수동으로 태그를 조합해보지 않아도 무엇이 문제를 일으키는지에 대한 명확한 데이터 기반 관점을 얻을 수 있으므로 조사에 집중해 문제를 더 빠르게 해결할 수 있습니다. 이 블로그 게시물에서 자세히 알아보세요.

사용자에게 영향을 미치는 문제를 식별하고 해결하여 프론트엔드 성능을 개선해주는 Datadog RUM Recommendations
빠르고 안정적인 프론트엔드 경험을 제공하려면 먼저 문제가 어디에서 발생했는지 파악해 최적화에 집중해야 합니다. Datadog RUM Recommendations는 애플리케이션의 각 뷰를 분석하고 느린 로드 시간이나 짜증을 유발하는 클릭 등 사용자 마찰의 징후를 표면화하여 성능 및 사용성 문제를 사전에 감지하고 해결할 수 있도록 합니다.
Datadog은 사용자 영향에 따라 권장 사항의 우선순위를 정하고 코드 변경을 제안하여, 가장 시급한 문제를 빠르고 효과적으로 해결할 수 있도록 해줍니다.
RUM Recommendations는 현재 프리뷰 단계입니다. 프리뷰에 등록하거나 이 문서에서 자세히 알아보세요.

지속적인 프로파일링 데이터에 대한 실행 가능한 인사이트를 제공해주는 Automated Analysis
Continuous Profiler가 제공하는 Automated Analysis는 애플리케이션을 지속적으로 모니터링하고 치명적인 문제를 실시간으로 파악하여 실행 가능한 인사이트와 함께 해결책을 안내해줘, 코드 프로파일링에 대한 심층적 전문 지식 없이도 문제를 빠르게 감지하고 해결할 수 있도록 돕습니다.
Datadog이 문제를 식별하면 Automated Analysis가 문제에 대한 명확한 요약을 제공하고 문제가 중요한 이유를 설명하며 영향받는 메서드, 패키지 또는 프로세스와 같은 관련 프로파일링 데이터를 강조 표시합니다. 또한 즉시 조치할 수 있게 다음 권장 단계를 제시해줍니다. Automated Analysis는 낮은 수준의 성능 데이터를 명확하고 개발자 친화적인 지침으로 연결해, 서비스 상태를 더 쉽게 개선하고 문제 해결 시간을 단축해줍니다. 여기에서 프리뷰 액세스를 요청하고, 자세한 정보는 이 문서를 참고하세요.

쿼리 성능 저하를 감지하고 조사할 수 있는 Datadog Database Monitoring
의도하지 않은 쿼리 처리 시간의 증가를 의미하는 쿼리 성능 저하는 페이지 로드 지연, 분석 워크로드 중단, 시스템 중단의 주요 원인입니다. 이제 Datadog DBM(Database Monitoring)을 이용하여 쿼리 성능 저하가 발생할 때 이를 선제적으로 감지할 수 있습니다. Datadog DBM은 과거 기준선을 설정하고 이상 징후 탐지를 통해 가장 흔히 사용되는 쿼리에서 성능 저하를 식별하고 일련의 진단을 자동으로 실행함으로써, 문제를 신속하게 식별하고 해결할 수 있도록 돕습니다. 자세히 알아보려면 이 블로그 게시물을 확인하세요.

알림 폭주 상황을 더 잘 해결해주는 Topological Correlation
특히 많은 관련 시스템 자산에 수많은 경고가 트리거되는 알림 폭주는 운영 및 개발팀의 업무를 빠르게 마비시킬 수 있습니다. 이제 Datadog Event Management 내의 Topological Correlation을 이용하면 복잡한 경고 폭풍도 더 쉽게 해결할 수 있습니다. Topological Correlation은 임포트된 시스템 관계를 통해 종속 애플리케이션 또는 인프라에서 받은 경고, 예컨대 단일 서버 중단으로 인한 일련의 애플리케이션 오류 등을 그룹화해 통합된 케이스를 만듭니다. 이 통합된 분류 접근 방식은 당면한 문제의 범위 전체를 해결할 수 있는 하나의 단일 작업 항목을 지목해줌으로써 경고 피로를 줄이고 인시던트 해결 속도를 높여줍니다. Topological Correlation은 현재 프리뷰로 이용 가능하므로, 시작하려면 고객 성공 매니저(CSM)에게 문의하세요.

데이터 기반 UX 디자인 의사결정에 도움을 주는 Product Analytics
채택률과 전환율부터 사용 패턴과 흐름에 이르기까지, 사용자 행동의 모든 측면을 이해하려면 실제 사용자 데이터를 기반으로 인사이트를 확보해야 합니다. Datadog Product Analytics를 이용하면 애플리케이션 전반의 사용자 데이터를 쉽게 분석하고 프로젝트의 범위에 기반해 분석을 맞춤화할 수 있습니다. Heatmaps, Pathways, Session Replay 등 다양한 기능을 통해 사용자 참여와 상호 작용에 대한 데이터를 시각화하여 다양한 각도에서 UX를 빠르게 평가할 수 있습니다. Product Analytics는 이제 정식 출시되었습니다. 자세히 알아보려면 이 블로그 게시물을 확인하세요.

CCM 예산과 ML 기반 비용 이상 징후 추적을 통해 조직 전반에 비용 오너십 문화 조성
FinOps 실무자는 팀 전면에 예산을 편성하고, 예산을 초과할 수 있는 이상 징후에는 엔지니어와 협업해야 하는 난관이 있어, 조직 전반에 비용 오너십 문화를 조성하는 데 어려움을 겪습니다. Cloud Cost Management의 예산 기능을 이용하면 FinOps 팀이 클라우드 및 SaaS 제공업체 전반에 걸친 예산을 편성할 수 있으며, 엔지니어링 팀은 월별 또는 연도별로 예산이 어떻게 추적되는지 확인할 수 있습니다. 머신 러닝 기반의 이상 감지가 계정 전반에 예기치 않은 비용 변동, 특히 예산을 초과할 수 있는 이상 징후가 발생하면 FinOps 및 엔지니어링팀에 알려줘, FinOps가 변동의 원인인 팀 또는 서비스를 특정해 연락할 수 있습니다. 자세히 알아보려면 이 문서를 확인하세요.

비즈니스 필요에 맞게 비용 권장 사항을 커스터마이징할 수 있는 CCM Recommendations
이제 CCM Recommendations를 통해 비용 권장 사항을 커스터마이징하여 비즈니스 필요에 맞도록 구성할 수 있습니다. 리소스에 대한 권장 사항을 만드는 데 사용되는 메트릭 임계값과 해당 임계값을 평가하는 데 사용되는 시간 프레임을 커스터마이징할 수 있습니다. 이러한 커스터마이제이션은 AWS, Azure, Google Cloud 전반에서 노이즈를 줄이고, 권장 사항에 맞게 더 빨리 조치하며, 비용 절감을 신속하게 실현하는 데 도움이 될 수 있습니다. 시작하려면 프리뷰에 등록하세요.

메트릭 이상의 원인을 실시간 식별하는 Watchdog Explains
레이턴시가 급증하거나 오류율이 높아지면 근본 원인을 특정하기 위해 여러 번 시행 착오를 거쳐 다각도로 분석하는 데 몇 분이 걸리기도 합니다. Watchdog Explains는 그래프에서 이상 징후를 스캔하고 어떤 태그가 변동의 주원인인지 자동으로 식별하여 이 프로세스를 몇 초로 단축합니다. Watchdog Explains는 다양한 태그 키-값 조합을 테스트하여 지역, 배포판, API 경로 또는 호스트 등 메트릭에 통계적으로 가장 중요한 기여자를 강조 표시해주므로, 인프라 또는 소프트웨어 스택의 문제가 있는 영역에 담당자가 신속하게 조사를 집중할 수 있습니다. 이 기능은 대시보드 내의 메트릭 기반 timeseries 그래프에서 사용할 수 있습니다. 이 문서에서 자세히 알아보거나 지금 사용해보세요.

인프라 변경 및 성능 문제에 선제적으로 대응
직원용 디바이스의 상태 및 성능을 보장해주는 End User Device Monitoring
데스크톱, 랩톱, 워크스테이션 등 최종 사용자 디바이스는 임직원, 계약직, 학생들이 매일 사용하는 필수 도구입니다. 엔터프라이즈 환경에서는 이러한 디바이스가 안정적으로 기능해야 생산성 저하를 방지할 수 있습니다. IT 관리자와 엔터프라이즈 IT 운영 및 엔드포인트 관리 팀은 모두 회사가 제공한 하드웨어가 항상 이용 가능하고 제대로 작동하도록 보장하는 역할을 합니다. Datadog End User Device Monitoring은 디바이스 상태 및 성능에 대한 가시성을 제공합니다. 그래서 성능 저하 또는 네트워크 연결 문제와 같은 각종 문제가 사용자에 영향을 미치기 전에 IT 팀이 신속하게 진단하고 해결할 수 있습니다. 디스크, 메모리, CPU, 가동 시간, 서비스, 프로세스에 대한 검사가 기본 탑재되어, 디바이스 문제를 효율적으로 해결할 수 있습니다. 이 즉시 사용 가능한 통합 기능은 블루스크린 오류(BSOD)와 같은 중요한 이벤트에 대한 알림을 제공하며, Wi-Fi 및 네트워킹 모니터링으로 연결 문제를 정확히 특정하고 해결할 수 있습니다. 지금 프리뷰에 등록하여 실제로 이용해보세요.

NDM에 고가용성을 지원하는 Datadog Agent로 네트워크 디바이스의 지속적인 모니터링 보장
이제 Datadog Agent의 고가용성(HA) 지원을 NDM(Network Device Monitoring)에 정식으로 이용할 수 있습니다. 지정된 활성 Datadog Agent가 사용 불가가 되면 HA 지원 덕분에 대기 Agent 로 매끄럽게 페일오버됩니다. HA 지원으로 (OS 업데이트 또는 Agent 패치 등) 예정된 유지보수 기간 동안 또는 예기치 않은 사고 발생 시에도 네트워크 디바이스를 지속적으로 모니터링할 수 있습니다. 네트워크 디바이스를 모니터링 중인 활성 Agent가 다운되면 대기 Agent가 90초 이내에 자동으로 해당 네트워크 디바이스의 모니터링을 인계받아 활성 Agent로 전환됩니다.
Datadog Agent 의 HA 지원에 대한 자세한 정보는 이 문서를 참고하세요.

코드 없이 호스트의 모든 프로세스를 모니터링할 수 있는 Full Host Profiling
Datadog Full Host Profiling은 애플리케이션 코드를 수정하지 않고도 (데이터베이스, 시스템 서비스는 물론 커널 등) 호스트에서 실행되는 모든 프로세스에 대해 상시적인 제로 코드 가시성을 제공합니다. Full Host Profiling은 eBPF 및 OpenTelemetry를 기반으로 빌드되어 최소한의 오버헤드로 모든 런타임에서 충실도 높은 성능 데이터를 캡처하므로 대규모 프로덕션 환경에서도 안전하게 사용할 수 있습니다. 해결하려는 것이 CPU 스파이크 문제든 시스템 수준 성능 최적화든, Full Host Profiling은 코드 작성 없이 심층적인 컨텍스트를 제공합니다. 여기서 프리뷰에 등록하세요.

사용자 경험 데이터를 백엔드 성능에 연결하여 프론트엔드 문제를 더 빠르게 진단할 수 있는 Browser Profiler
Datadog은 이제 사용자가 경험하는 것뿐 아니라 그 이유까지 더 쉽게 이해할 수 있게 해줍니다. Browser Profiler로 RUM(Real User Monitoring)과 Continuous Profiler를 결합하여 프론트엔드 상호작용부터 백엔드 병목현상까지 애플리케이션 성능에 대한 완벽한 가시성을 제공합니다.
RUM이 느린 로드 시간, 응답하지 않는 페이지, 불안정한 상호작용 등 사용자가 겪는 문제를 강조 표시합니다. 그러면 Continuous Profiler가 문제를 일으키는 코드 경로, 메서드 또는 종속성을 정확히 표시하여 원인을 밝혀냅니다. 이 엔드투엔드 뷰는 근본 원인 분석을 통해 해결 시간을 단축함으로써 더 빠르고 안정적인 경험을 자신 있게 제공하도록 돕습니다.
RUM과 Continuous Profiler를 함께 사용하면 스택 전체에서 성능을 선제적으로 개선할 수 있습니다. 여기서 프리뷰 액세스를 요청하세요.

Datadog 비용 데이터로 Datadog 지출을 관리할 수 있는 Cloud Cost Management
Datadog 공간을 확장하게 되면 비용 변화의 주요인을 파악하고 비용 인식을 높이고자 하는 것이 당연합니다. 하지만 의미 있게 조치하려면 월 청구서를 보는 것만으로는 충분하지 않고, 서비스와 팀을 연계한 맥락적인 실시간 비용 데이터가 필요합니다. 이제 CCM(Cloud Cost Management) 내의 Datadog 비용 데이터를 활용하면 Datadog 서비스를 운영하는 데 드는 비용을 파악하고, 적절한 곳에 지출을 할당해 선제적으로 지출을 관리할 수 있습니다. Datadog 비용 메트릭을 CCM Explorer, 대시보드, Notebooks 및 Monitors에서 확인할 수 있어, 일상 활동 중에도 비용에 우선순위를 둘 수 있습니다. 제한적으로 제공되는 이 기능에 대해 자세히 알아보려면 이 블로그 게시물 및 문서를 확인하세요.

Amazon S3, Google Cloud Storage, Azure Blob Storage의 스토리지 비용을 절감하고 효율성을 높여주는 Datadog Storage Monitoring
Datadog의 새로운 Storage Monitoring 기능은 Amazon S3, Google Cloud Storage, Azure Blob Storage 전반의 사용량에 대한 세분화된 가시성을 제공하여 클라우드 스토리지 비용을 절감하고 효율성을 개선할 수 있도록 해줍니다. AI 앱에서 생성되는 것과 같은 데이터 집약적인 워크로드가 계속 증가함에 따라 오브젝트 스토리지 내의 사소한 비효율도 비용과 성능에 상당한 골칫거리가 될 수 있습니다. Storage Monitoring은 S3 Prefix 단위 메트릭과 버킷 수준 수명 주기 및 보존 정책에 대한 가시성을 갖춰 아카이브 스토리지 내의 콜드 데이터를 식별하고, 핫 접두사로 인한 성능 병목현상을 특정하며, 수명 주기 정책을 더욱 효과적으로 관리하는 데 도움이 됩니다. S3용 Storage Monitoring은 현재 프리뷰 단계이며, Google Cloud Storage 및 Azure Blob Storage에 대한 접두사 수준 사용량 메트릭도 함께 제공됩니다. Google Cloud Storage 및 Azure Blob Storage의 요청 관련 메트릭은 곧 제공될 예정입니다.
프리뷰에 등록하고 이 블로그 게시물에서 자세히 알아보세요.

Flex Logs 컴퓨팅 사용량 모니터링 및 최적화
쿼리 워크로드가 성능에 끼치는 영향을 더 깊이 이해할 수 있도록 Datadog의 Flex Logs에 이제 컴퓨팅 사용량 시각화가 포함되었습니다. Flex Logs Controls 페이지에 새로 추가된 그래프가 스로틀링이 발생하는 시점, 영향받는 쿼리, 사용량이 많은 사람을 표시해주므로, 더 쉽게 속도 저하 문제를 해결하고 구성을 최적화할 수 있습니다. 이 데이터를 활용하면 대시보드를 조정하고 쿼리 동작을 개선하거나, 필요하다면 컴퓨팅 용량을 확장하면 됩니다. 이번 업데이트로 대량 로그 워크로드에 대한 Flex Logs의 비용 및 성능 제어 능력이 향상되었습니다. 이 블로그 게시물에서 자세히 알아보세요.

인프라 구성 변경을 자동으로 표면화해주는 Resource Changes
최신 멀티클라우드 환경에서는 작은 구성 변경도 수십 개의 서비스에 파급되어 인시던트 발생 시 핵심 질문인 변경된 것이 무엇인지에 대한 답을 구하기 어려울 수 있습니다. 이 문제를 해결하기 위해 Datadog Resource Changes는 AWS, Google Cloud 및 Azure 클라우드 리소스 전반의 인프라 구성 변경을 기존 워크플로에 자동으로 표시해줍니다.
모니터에 경고가 발생하면 Resource Changes로 바로 연결되어 관련 시간 프레임과 관련 태그 등 경고의 인시던트 컨텍스트를 모두 확인할 수 있습니다. 리소스 변경을 클릭하면 최대 1주일간의 구성 변경 내역에서 구성의 차이와 관련 변경 로그를 풍성하게 비교하며 확인할 수 있습니다. 클라우드 리소스 변경이 중앙집중식 페이지에 취합되어 가능한 근본 원인과 변경한 사람을 손쉽게 식별해 조치함으로써 조기에 해결할 수 있습니다. 이 블로그 게시물에서 자세히 알아보세요.

완전 자동화된 Datadog의 QuickStart 셋업으로 몇 분 만에 OCI 환경 전체를 모니터링
Datadog의 새로운 OCI(Oracle CIoud Infrastructure) QuickStart는 단 몇 번의 클릭으로 OCI 환경 전체를 모니터링할 수 있는 빠르고 완전한 관리 방식이 특징입니다. 메트릭, 로그 및 30여 개의 OCI 서비스를 기본 지원하는 QuickStart는 인프라 전반에 대한 즉각적이고 통합된 가시성을 제공합니다. 클라우드 환경이 진화함에 따라 새로운 리소스와 컴파트먼트를 자동으로 검색하고 모니터링합니다. 또한 Resource Catalog 내에서는 자세한 리소스 메타데이터를 수집하여 컨텍스트를 더욱 심층적으로 파악할 수 있어, 문제 해결 속도가 빨라지고 운용 효율성이 개선됩니다.
새로운 OCI QuickStart는 프리뷰로 제공됩니다. 지금 시작하려면 액세스 요청에 등록하세요. 자세히 알아보려면 이 블로그 게시물을 읽어보세요. 더 많은 리소스를 둘러보려면 Datadog 계정에서 Integration 문서 또는 OCI tile을 확인하세요.

Databricks 서버리스 작업을 추적하고 최적화할 수 있는 Data Jobs Monitoring
Databricks 서버리스 컴퓨팅은 Databricks 워크로드의 시작 시간을 단축하고 인프라 관리를 간소화하여 성능 향상과 비용 절감을 원하는 팀들 사이에서 널리 채택되고 있습니다. 호스트 수준의 모니터링이 필요한 기존 클러스터와 달리 서버리스 워크로드는 작업 수준의 성능, 효율성, 비용에 초점을 맞춘 옵저버빌리티를 요구합니다. Datadog은 이제 DJM(Data Jobs Monitoring) 내에서 직접 서버리스 SQL 웨어하우스를 포함한 Databricks 서버리스 작업 모니터링을 지원합니다. 그래서 서버리스 및 클러스터 기반 작업 모두에서 레이턴시, 오류, 사용량 추세를 하나의 통합된 뷰에서 추적하여 가시성 저하 없이 파이프라인 처리를 최적화할 수 있습니다. 자세히 알아보려면 전용 블로그 게시물을 참조하세요.

ECS Fargate 작업의 네트워크 활동을 모니터링하는 Cloud Network Monitoring
직접 관련 인프라를 관리하지 않기 때문에 ECS Fargate 등의 서버리스 플랫폼에서 실행되는 워크로드의 네트워크 상태에 대한 가시성을 확보하기 어렵습니다. Datadog CNM(Cloud Network Monitoring)이 이제 ECS Fargate 작업을 지원하여, 이러한 작업 간은 물론 Fargate에서 도메인, 호스트 또는 서비스와 같은 다른 엔터티로의 중요한 네트워크 메트릭을 모두 수집할 수 있습니다. TCP 연결 실패 횟수, 재전송, 레이턴시와 같은 네트워크 메트릭을 활용해 Fargate 작업 간에 네트워크에 문제가 있는지 쉽게 파악할 수 있습니다. 시작하려면 이 문서를 참조하세요.

데이터의 구조화, 시각화, 그리고 탐색
OpenTelemetry와 Datadog을 통합하는 DDOT(Datadog Distribution of the OTel) Collector
OpenTelemetry(OTel)는 분산 시스템에서 추적, 메트릭, 로그와 같은 텔레메트리 데이터를 벤더 중립적인 형식으로 수집하고 내보낼 수 있는 표준화된 오픈소스 프레임워크를 제공합니다. DDOT(Datadog Distribution of the OTel) 컬렉터는 OTel의 유연성과 Datadog 의 우수한 옵저버빌리티, 보안 및 자동화 기능을 Datadog Agent에 직접 결합합니다. 네이티브 OTLP 구성을 지원하는 DDOT 컬렉터를 사용하면 텔레메트리 데이터를 쉽게 처리하고 커스텀 OTel 컴포넌트로 옵저버빌리티 기능을 확장할 수 있습니다. DDOT 컬렉터는 운영 오버헤드를 간소화하여 Datadog의 모니터링 에코시스템 내에서 확장 가능한 관리와 신속한 문제 해결을 가능하게 합니다. 자세히 알아보려면 이 블로그 게시물을 읽고 이 문서를 참고하세요.

OpenTelemetry 기반 의미 체계로 Datadog을 더 강력하게 활용
OpenTelemetry(OTel)은 옵저버빌리티 데이터 수집과 전송에 있어 업계 표준으로 급부상하고 있습니다. Datadog은 자체 네이티브 텔레메트리 형식을 계속 지원하면서 여러 가지 OTel 네이티브 데이터 전송 및 수신 방법을 지원합니다. 일관된 모니터링 환경을 제공하기 위해 Datadog은 이제 Datadog 내 대시보드, 쿼리 및 핵심 시각화 전반에 Datadog 네이티브 메트릭과 함께 OTel 네이티브 메트릭 사용을 지원합니다. 이제 추가 구성 없이도 OOTB(Out-Of-The-Box) Datadog 통합 대시보드에서 OTel 네이티브 메트릭을 볼 수 있고, Datadog 및 OTel 데이터 어디든 자체 쿼리를 모니터링에 쉽게 작성할 수 있습니다.
그 결과, OpenTelemetry를 통하든, Datadog Agent를 통하든, 둘을 조합하여 데이터를 전송하든 통합된 옵저버빌리티 환경을 제공하며, 기존 모니터링 워크플로우를 중단하지 않고도 원하는 속도로 OTel을 유연하게 채택할 수 있습니다. Datadog과 OpenTelemetry 메트릭 의미 체계 간의 호환성을 알아보려면 이 블로그 게시물을 읽거나 프리뷰 등록하세요.

SQL 쿼리를 통해 모든 인프라 데이터에 액세스할 수 있는 DDSQL Editor
DDSQL Editor를 이용하면 SQL 쿼리를 통해 모든 인프라 데이터에 액세스할 수 있습니다. AWS, Azure, Google Cloud 테이블, Datadog Agent가 있는 호스트, 컨테이너 및 Kubernetes 클러스터를 조인하여 쿼리를 작성하고 환경과 관련한 복잡한 질문에 대한 답을 얻을 수 있습니다. 예를 들어, 서비스 전반의 모든 Java 라이브러리를 나열하거나 Agent 버전 및 리전별 호스트 수를 계산하는 쿼리를 쉽게 작성할 수 있습니다. 또한 AI를 사용하여 자연어로 쿼리를 작성하고, 작성된 쿼리를 대시보드에 전송하여 결과를 시각화하고 보고할 수 있습니다. 자세한 내용은 이 블로그 게시물 및 문서에서 확인하세요.

DDSQL Editor 내에서 로그 및 메트릭 쿼리 및 조인
DDSQL Editor를 이용하면 SQL 쿼리를 통해 모든 인프라 데이터에 액세스할 수 있으며, 로그와 스칼라 메트릭에 대해서도 쿼리 및 조인할 수 있습니다. 예를 들어, 오류 로그를 특정 컨테이너와 조인하여 최근 발생한 인시던트의 근본 원인을 파악할 수 있습니다. 로그와 메트릭을 쿼리할 수 있는 기능이 제공되므로, 컨텍스트를 전환하지 않고도 더 복잡한 조사를 수행할 수 있습니다. 또한 시각화를 만들면 인프라의 한계를 넘어 텔레메트리를 관리할 수 있습니다. 이 블로그 게시물에서 자세한 내용을 읽어보거나, 프리뷰에 등록하세요.

자연어를 사용한 로그 분석
NLQ(Natural Language Queries)는 사용자가 쿼리 구문을 알지 못해도 쉬운 영어로 검색할 수 있도록 해주어 로그 데이터를 탐색하고 분석하는 과정을 간편하게 만들어줍니다. NLQ는 Datadog의 쿼리 언어를 배울 필요성을 줄여주기 때문에 엔지니어, 제품 관리자나 협업 환경에 있는 팀원들이 로그로부터 신속하게 인사이트를 얻을 수 있습니다. 이 기능은 쿼리 구성에 소요되는 시간을 줄이고 더 빠른 조사를 가능하게 하여 운영 효율성을 향상시킵니다. 쿼리가 자동 번역되어 사용자는 쿼리 작성 방법이 아닌 찾고자 하는 내용 자체에 집중할 수 있습니다. NLQ는 초보 사용자라도 즉시 온보딩하고 디버깅 및 문제 해결 워크플로에 기여할 수 있게 합니다. 자세히 알아보려면 이 문서를 읽어보세요.
사용자 환경에 저장된 로그를 검색하고 분석하는 Datadog CloudPrem
글로벌 데이터 규제가 더욱 엄격해짐에 따라 로그 데이터를 생성된 환경 내에서 보관해야 할 필요가 있는 조직이 점점 많아지고 있습니다. 그래서 많은 팀이 여러 지역에 파편화된 로깅 도구를 사용하면서 운영 복잡성, 비용 증가, 가시성 저하라는 결과가 초래되었습니다. 이러한 문제를 해결하기 위해 Datadog은 Datadog의 Log Management 플랫폼의 모든 기능을 조직 자체의 인프라에 제공하는 하이브리드 로그 관리 솔루션인 CloudPrem을 출시했습니다. 클라우드 환경이나 데이터 센터에 Datadog CloudPrem을 배포하면 로컬에서 로그를 수집, 저장, 인덱싱하는 동시에 Datadog UI를 통해 계속 쿼리하고 시각화할 수 있습니다. 이렇게 하여 사용성이나 중앙 집중식 가시성을 유지하면서도 데이터 보존 및 컴플라이언스 요건을 충족할 수 있습니다. 자세히 알아보려면 이 문서를 확인하세요.

Datadog Cloudcraft로 AWS 인프라의 최신 상태에 대한 심층적인 시각화
클라우드 환경이 더욱 복잡해짐에 따라 이러한 환경의 기저 인프라를 정확하게 포착하여 최신 상태의 시각화 데이터를 유지하는 데 어려움이 가중되고 있으며, 그 결과 가시성 및 조율에 지장이 생기고 있습니다. 이러한 문제를 해결하기 위해 Datadog은 동적 AWS 인프라 다이어그램을 자동으로 생성하는 새로운 플랫폼 기능인 Cloudcraft를 발표했습니다. 이렇게 만들어진 다이어그램은 조직의 인프라에 대한 소스의 핵심 출처 역할을 하며, 권장 사항과 연결된 실시간 옵저버빌리티, 보안 및 비용 데이터가 추가되어 풍성하게 표현됩니다. Cloudcraft는 하나의 대화형 인터페이스 내에서 사각지대를 감지하고, 보안 구성 오류를 수정하고, 클라우드 비용을 최적화할 수 있도록 해줍니다. Datadog 플랫폼과 긴밀하게 통합된 Cloudcraft가 명확하고 실행 가능한 인사이트를 제공해주므로 클라우드 아키텍처를 더욱 효과적이고 협업적으로 파악하고 관리할 수 있습니다. 자세한 정보는 이 블로그 게시물을 참고하세요.
실시간 인프라 시각화 데이터에서 추출된 권장 사항을 활용한 클라우드 비용 효율성 제고
대규모의 복잡한 환경에서 비용을 최적화하려고 할 때 팀에서 담당하고 있는 인프라의 영역이 어디까지인지 확인하기 어려울 수 있습니다. 불완전한 태깅과 공유 인프라는 어느 팀이 어떤 리소스를 소유하고 있는지 파악하기 어렵게 만듭니다. 이러한 문제를 해결하기 위해 Datadog은 Cloudcraft 인프라 다이어그램 내에 Cloud Cost Recommendations를 발표했습니다. Cloudcraft 다이어그램에 관련 인프라가 VPC, 서브넷 및 보안 그룹으로 그룹화되어 있어, 다이어그램에서 가까운 인프라를 확인하면 팀, 서비스 또는 비용 센터와 관련된 태그가 지정되지 않았거나 소유자가 없는 인프라의 절감액을 쉽게 확인할 수 있습니다. 자세히 알아보려면 이 문서를 확인하세요.

커스텀 비용 배분 규칙을 사용하여 클라우드 제공업체 전반의 공유 비용을 비즈니스 단위 별로 배분
비용 할당은 FinOps의 기본이지만, 데이터베이스 및 네트워킹과 같은 공유 서비스는 소유권이 명확하지 않기 때문에 정확한 쇼백 또는 차지백을 확인하는 데 어려움을 겪는 조직이 많습니다. Datadog CCM(Cloud Cost Management)에서 이제 커스텀 할당 규칙을 정의하여 AWS, Azure, Google Cloud 전반의 공유 비용을 비즈니스 단위 별로 적정하게 귀속시킬 수 있습니다. 공유 또는 미할당 비용을 커스텀 비율로 분할하는 커스텀 할당도 포함됩니다. FinOps 실무자가 과거에 귀속이 곤란했거나 태깅하기 어려웠던 기저 인프라 공유 비용을 나눌 수 있게 되었습니다. 자세히 알아보려면 이 문서를 확인하세요.
Wildcard 위젯을 사용해 Vega-Lite 시각화 자료를 바로 생성
Wildcard 위젯은 Datadog 대시보드와 Notebooks에서 직접 커스텀 Vega-Lite 시각화를 코딩할 수 있게 해줍니다. 다루는 것이 독특한 데이터 형식이든 외부 소스든 특정 변환이든 고급 시각화 기능이 필요한 사용 사례라면 모두 지원합니다. 맞춤 표현을 만들고, 내장된 쿼리 편집기를 사용하여 데이터를 구조화하고, 조건부 서식을 적용하고, Data Preview를 사용하여 차트 구성 후에 렌더링하고, JSON 수동 편집 없이도 주요 속성을 조정할 수 있습니다. 자세히 알아보려면 이 블로그 게시물을 참고하세요.

커스텀 엔터티로 완전한 스택 표현을 만들 수 있는 Software Catalog
Datadog의 Software Catalog가 이제 커스텀 엔터티 유형을 지원하여, 소프트웨어 빌드 및 운영 방식을 반영한 아키텍처를 모델링할 수 있습니다. 엔터티가 내부 라이브러리든, 파이프라인이든, 작업이든, 인프라 모듈이든, 획일적인 카탈로그에서는 보이지 않았던 것을 개발자가 찾아 조치할 수 있는 유연성을 갖춤으로써, 탐색, 스코어카드 정확성, 문제 해결 능력이 향상됩니다. 카탈로그를 서비스 이상으로 확장하면 소프트웨어 에코시스템 전체에 소유권, 가시성 및 모범 사례가 적용되도록 할 수 있습니다. 자세한 내용은 이 문서에서 확인하세요.

RUM without Limits™ 을 사용하여 모든 세션을 캡처하고 중요한 것은 보관
RUM without Limits™ 은 전통적인 샘플링의 높은 비용 및 제한 없이 웹 및 모바일 사용자 경험에 완전한 가시성을 제공하여 Real User Monitoring을 재정의합니다. 고정된 샘플링으로 인해 중요한 데이터를 상실했던 과거와 달리, RUM without Limits™은 사용자 세션을 100% 캡처하고, 장기 보존 가치가 있는 정밀하고 실행 가능한 메트릭을 제공합니다. 보존 필터를 커스터마이징함으로써 담당 팀이 영향이 큰 세션에 우선순위를 둬 저장하고, 프론트엔드 오류, 성능 저하, 사용자 불만을 즉시 파악할 수 있습니다. 여기에 Session Replay를 추가 활용하면 문제를 신속하게 시각화하고 해결하여 애플리케이션 성능을 최적화하고 비용을 더 잘 관리할 수 있습니다.
RUM without Limits™ 은 정식 출시되었습니다. 새로운 모델을 활용하는 방법을 알아보려면 블로그를 읽어보세요.

개발 속도 및 안정성 향상
Datadog의 IDP에서 커스터마이징 가능한 임원 보고용 Engineering Reports를 생성하고 조직 전반의 핵심 엔지니어링 메트릭 추적
Datadog IDP(Internal Developer Portal)가 이제 엔지니어링 경영진이 트렌드를 파악하고 제품 안정성, 엔지니어링 표준 준수, 개발 속도 및 안정성의 격차를 파악할 수 있도록 돕는 커스터마이징 가능한 보고 기능을 기본 제공합니다. 보고서에는 팀별로 세분화된 메트릭이 집계된 뷰가 포함되어 있으며 이메일이나 Slack을 통해 공유할 수 있으므로 엔지니어링 디렉터와 경영진에 보고하기 적합합니다. 메트릭을 집계하는 방법을 선택하고, 과거 추세 뷰를 조정하고, 다양한 필터를 사용하여 정보 범위를 지정하는 등 조직의 필요에 맞게 보고서를 쉽게 커스터마이징할 수 있습니다. Datadog의 IDP에서 액세스 가능한 엔지니어링 보고서로는 Reliability Overview, Scorecards Performance, DORA Metrics Summary가 있습니다. 자세히 알아보려면 이 블로그 게시물 및 이 문서를 확인하세요.

근본 원인을 연관 분석하고 MTTR을 단축해주는 Issue Correlation
분산된 시스템 전반에 오류가 발생하면 원인이 무엇이고 누가 문제를 해결해야 하는지 파악하는 것은 복잡한 문제입니다. Issue Correlation이 서비스 전반에서 관련 문제를 자동으로 매핑하여 개발자가 문제를 진짜 원인에 트레이싱할 수 있게 도와줍니다. 범람하는 경고를 하나씩 살펴보는 대신, 정말 중요한 것, 즉, 가장 치명적인 오류와 그 영향 전체에 집중할 수 있습니다. 이 기능은 업스트림과 다운스트림의 관계를 표면화해, 근본 원인 분석을 가속화하고 해결에 걸리는 시간을 단축해줍니다. 더 빠른 디버깅, 더 스마트한 협업, 스택 전반의 명확한 가시성을 향한 큰 발걸음이라 할 수 있습니다. 프리뷰에 등록하세요.

테스트 상태를 정량화하고 One-Click Recommendations으로 개선
고르지 못한 테스트는 업무 속도를 늦추고 CI 내에서 신뢰를 저해합니다. 새로운 Test Health 대시보드를 이용하면 이제 실패한 파이프라인의 수부터 손실된 CI 시간까지, 장애가 파이프라인에 미치는 영향을 정확히 정량화할 수 있습니다. 또한 저장된 파이프라인과 복구된 CI 시간 등, 테스트 최적화 노력이 얼마나 도움이 되었는지도 확인할 수 있습니다.
Test Health는 영량력이 큰 권장 사항, 즉, 특정 리포지토리에 연결된 타깃팅된 데이터 기반 제안도 표면화하기 시작합니다. 각 권장 사항은 특정 기능을 활성화하여 절감될 수 있는 장애 감소 및 CI 시간을 추정하며, 명확한 전후 예상치를 제시해줍니다.
권장 사항을 클릭 한 번으로 쉽게 조치할 수 있어, 테스트의 신뢰성과 효율성이 자동으로 향상됩니다. 앱에서 Test Health 대시보드 및 권장 사항을 살펴보세요. 자세한 정보는 이 문서를 참고하세요.

결함 있는 테스트를 추적, 분류, 해결할 수 있는 Flaky Test Management
새로운 Flaky Test Management 페이지에는 조직 전반의 결함 있는 테스트를 추적, 분류, 해결할 수 있는 중앙집중식 뷰가 제공됩니다. 단일 인터페이스에서 Active(활성), Quarantined(격리됨), Disabled(비활성화됨), Fixed(해결됨) 등 모든 테스트 상태를 살펴볼 수 있고, 실패율, 파이프라인 장애, 낭비된 CI 시간 등, 영향이 큰 주요 메트릭도 확인 가능합니다.
Quarantine을 사용하면 병합을 차단하지 않고도 결함 있는 테스트를 격리할 수 있습니다. 테스트가 여전히 백그라운드에서 실행되지만 더 이상 파이프라인을 깨뜨리지 않습니다. Disable을 사용하면 문제가 있는 테스트를 완전히 건너뛸 수 있습니다. 두 워크플로 모두 CI 노이즈를 줄이는 동시에 트레이스 가능성과 통제력을 유지해줍니다.
결함 있는 테스트 정책을 구성해 테스트 라이프사이클 방식을 관리할 수 있습니다. 예를 들어, 기본 브랜치에서 실패하는 테스트를 자동 격리하고, 30일 후에도 해결되지 않으면 비활성화할 수 있습니다. 결함 있는 테스트에 대한 케이스와 JIRA 티켓을 생성하여 이를 해결하는 작업을 추적할 수 있습니다. Flaky Test Management는 현재 프리뷰 단계입니다. 액세스를 요청하려면 프리뷰에 등록하세요.

Datadog에서 직접 AWS Lambda를 위한 일괄 원격 계측
AWS Lambda를 위한 일괄 원격 계측을 사용하면 Datadog에서 직접 Lambda 함수를 대량으로 계측할 수 있습니다. 이렇게 하면 함수가 계측된 상태로 유지되어 향상된 메트릭, 트레이스, 오류 추적 등의 기능을 쉽게 추가할 수 있습니다. 담당 팀이 코드를 재배포하지 않아도 서버리스 애플리케이션에 트레이싱을 신속하게 추가하여 개발자가 개별 기능을 수동으로 계측하는 데 소비하는 시간을 줄이고 실시간으로 계측을 적용할 수 있습니다.
일괄 원격 계측을 이용하면 중앙 운영 및 옵저버빌리티 팀이 굳이 모든 애플리케이션 또는 서비스 소유자와 조율하지 않아도 중요한 서버리스 애플리케이션이 계측되도록 할 수 있습니다. 개발 중에는 계측되지 않았던 Lambda 함수라도 중요 인시던트 또는 피크 트래픽이 있는 기간에 담당 팀이 트레이싱을 추가하면 문제를 신속하게 조사하고 해결하는 데 필요한 가시성을 확보할 수 있습니다.
AWS Lambda의 서버리스 모니터링에 대해 자세히 알아보려면 이 문서를 참고하고, 일괄 원격 Lambda 계측 프리뷰에 등록하세요.

모니터 알림 규칙으로 경고 라우팅 로직 중앙집중화
모니터 알림 규칙을 사용하면 경고 라우팅 로직을 중앙집중화하여, 개별 모니터 설명에 수신자를 추가할 필요가 없어집니다. Monitor (모니터) 또는 그룹 태그(예: team:payments
, env:prod
등)와 일치하는 규칙을 정의하면 Datadog이 자동으로 올바른 이메일, Slack 채널 또는 호출받은 로테이션으로 알림을 전달합니다.
라우팅이 한 곳에 상주하므로 추가 구성 없이 새 모니터를 구동할 수 있어, 경고를 쉽게 확장할 수 있습니다. 담당 팀이 모니터링 정의를 깔끔하게 유지하고, 조직 정책을 강제 적용하며, 치명적인 신호가 누락되지 않도록 할 수 있습니다. 자세히 알아보려면 이 문서를 참고하세요.
