올해 DASH 키노트에서는 AI 기반 인사이트를 통해 옵저버빌리티를 높이고 더욱 효율적이고 탄력적인 워크플로우를 지원하는 Datadog 플랫폼 진화의 새로운 장을 열었습니다. 이번 키노트에서는 사일로를 해소하고 인프라 복잡성을 줄이며 성능 및 보안 문제를 신속하게 해결하는 데 도움이 되는 수십 가지의 새로운 기능을 소개했습니다.
AI 워크로드 디버깅, 커스텀 Datadog 앱 빌드, 멀티 클라우드 환경 보안, 테스트 신뢰성 향상 등 Datadog는 자율성을 유지하면서도 더 빠르게 발전할 수 있는 도구를 제공합니다.
Datadog의 인프라 모니터링, 소프트웨어 제공, 거버넌스 기능에 대한 주요 업데이트 등, 중요한 키노트 발표 내용을 아래에서 모두 살펴보세요. 그리고 다음 내용을 다룬 다른 요약 게시물도 읽고 Datadog가 어떤 역할을 할 수 있을지 확인해보세요.
AI 워크로드 모니터링 및 보안
복잡하고 분산된 비결정적 에이전트 시스템 문제 해결
멀티 에이전트 시스템은 에이전트에 동일 내용이 입력되어도 다른 결정을 내리거나 다른 경로를 택할 수 있는 비결정적 동작으로 인해 디버깅이 어렵습니다. Datadog LLM Observability의 새로운 실행 흐름 차트는 AI 에이전트의 실행 과정 및 의사결정 경로를 시각화합니다. 이 새로운 시각화는 에이전트가 서로 상호작용하는 방식을 강조해주고, 에이전트가 어떤 도구를 사용했고, 이를 위해 밟아야 했던 검색 단계는 무엇이었는지를 보여줍니다. 쉽게 설정할 수 있는 LLM Observability SDK는 OpenAI Agent SDK, LangGraph, CrewAI, Bedrock Agent SDK 등의 프레임워크로 빌드된 AI 에이전트 작업을 자동으로 추적합니다. 더 자세한 내용은 블로그를 참고하세요. 정식 출시 전에 이 기능에 액세스하려면 프리뷰에 등록하세요.
LLM Experiments를 사용하여 LLM 앱 구축, 평가, 성능 최적화
LLM Experiments는 LLM 애플리케이션 및 에이전트를 빌드하는 라이프사이클 전반을 지원하는 LLM 제품 스위트의 새로운 기능입니다. 데이터 세트를 처음부터 새로 생성하거나 프로덕션 트레이스를 사용하여 버저닝할 수 있습니다. 실험 기능을 실행하고, 강력한 시각화를 사용하여 결과 로깅 및 비교함으로써 프롬프트, 모델, 공급업체, 아키텍처의 변경이 성능에 어떤 영향을 끼치는지 파악할 수 있습니다. LLM Experiments는 최적의 버전을 식별하여 프로덕션에 배포하는 데 도움이 됩니다. 또한 반복 작업을 빠르게 수행할 수 있도록 Prompt Playground도 출시했습니다. 이는 다양한 프롬프트를 테스트하고 최적화할 수 있는 환경을 모델 제공업체에 제공합니다.
이 블로그에서 자세한 내용을 읽어보거나 여기 프리뷰에 등록하여 새 기능을 사용해 보세요.
스택에 있는 모든 AI 에이전트의 동작과 상호작용을 모니터링할 수 있는 AI Agents Console
AI Agents Console을 이용하면 OpenAI의 Operator 같은 컴퓨터 조작형 에이전트, Cursor와 같은 IDE 에이전트, Github Copilot과 같은 DevOps 에이전트, Agentforce와 같은 엔터프라이즈 비즈니스 에이전트는 물론, 조직 내부에서 자체 구축한 에이전트까지 스택에 포함된 모든 AI 에이전트의 동작과 상호작용을 모니터링할 수 있습니다. 모든 에이전트의 액션에 대한 완전한 가시성, 에이전트의 보안 및 성능에 대한 인사이트, 사용자 참여에 대한 분석, 모든 에이전트의 측정 가능한 비즈니스 가치를 중앙 집중화된 위치에서 모두 확인할 수 있습니다. AI Agents Console은 현재 프리뷰 단계입니다. 여기에서 액세스를 요청하세요.

AI 인프라를 최적화하고 문제를 해결할 수 있는 Datadog GPU Monitoring
AI 및 LLM 워크로드를 확장하면 비효율적인 GPU 사용과 활용률이 낮은 인프라로 인해 비용이 증가하고 성능이 저하될 수 있습니다. Datadog GPU Monitoring을 이용하면 엔지니어링 및 ML 팀이 클라우드와 온프레미스, 그리고 Coreweave, Lambda Labs 등의 GPUaaS 플랫폼 전반에서 GPU 플릿 상태를 모니터링할 수 있습니다. 할당, 활용률, 장애 패턴에 대한 실시간 인사이트를 통해 병목현상을 쉽게 발견하고, 유휴 GPU 지출을 제거하며, 프로비저닝 격차를 해소할 수 있습니다. Datadog은 사용량 메트릭을 비용과 직접 연결하고, 성능에 영향을 주는 하드웨어 및 네트워크 문제를 가시화함으로써, AI 워크로드를 대규모로 안정적으로 운영하기 위한 빠르고 비용 효율적인 의사결정을 팀이 내릴 수 있도록 지원합니다. 자세한 내용은 블로그 게시물에서 읽어보세요. 프리뷰 액세스를 요청하려면 프리뷰에 등록하세요.
데이터 수명주기에 대한 자신감을 심어주는 Data Observability
데이터 옵저버빌리티는 수집부터 변환, 다운스트림 사용에 이르는 데이터 수명주기 전반에 신뢰성을 보장하는 데 핵심적인 역할을 합니다. 하지만 적절한 데이터 옵저버빌리티 솔루션이 없으면 사용자가 수동 검사, 임시 SQL 쿼리 또는 사후 대응적 경고에 의존하여 데이터 품질 문제를 파악해야 하는 경우가 많으며, 심지어 무언가 잘못되었음을 관계자가 알아차린 후에야 이런 대응에 나서기도 합니다. Datadog Data Observability는 품질 검사(예: 볼륨, 행 변경, 최신성), 커스텀 SQL 기반 모니터, 이상 감지, Snowflake 및 Tableau 등 시스템 전반의 열 수준 데이터 계보, 풀 파이프라인 가시성, 데이터 문제 발생 시 타깃 경고 등을 갖춘 완전한 솔루션을 제공합니다. 이 블로그 게시물에서 자세히 알아보거나 프리뷰에 등록하여 직접 시작해보세요.
로그를 효율적으로 저장하고 쿼리
컨텍스트 전환 및 장기 로그 스토리지 오버헤드를 해소해주는 Flex Frozen
Datadog Log Management의 새로 도입된 Frozen Tier인 Flex Logs는 모든 로그를 하나의 플랫폼에서 비용 효율적으로 중앙 집중화하여 외부 스토리지 솔루션 유지에 따른 오버헤드는 물론 컨텍스트 전환에 따른 혼란을 해소합니다. Flex Frozen을 이용하면 로그를 최대 7년간 완전 관리형 스토리지에 보관하면서 비용을 절감할 수 있으며, 리하이드레이션 없이도 그대로 검색할 수 있어 감사 및 장기간 분석 작업을 신속하게 처리할 수 있습니다. 따라서 Flex Frozen은 컴플라이언스 또는 포렌식 조사 목적으로 장기간 보관하는 로그에 이상적인 솔루션입니다. Flex Logs에 대해 자세히 알아보려면 이 블로그 게시물 및 이 문서를 읽어보세요.

아카이브된 로그를 리하이드레이션 없이 그대로 쿼리하고 활용할 수 있는 Archive Search
Archive Search를 사용하면 데이터를 리하이드레이션하거나 외부 도구로 내보내지 않고도 클라우드 스토리지(예: Amazon S3) 또는 Datadog의 Flex Frozen Tier에서 바로 아카이브된 로그를 직접 쿼리할 수 있습니다. 그래서 기존에 사용 중인 것과 동일한 Datadog 인터페이스와 쿼리 언어 그대로 인시던트 조사, 컴플라이언스 감사, 장기 추세 분석을 손쉽게 수행할 수 있습니다. Log Workspaces 및 Datadog Sheets와 통합된 Archive Search는 로그를 인프라 메트릭 및 트레이스와 연관지어 조사 속도를 높이고, 도구 간 전환을 최소화하는 데 도움이 됩니다. 저장 위치에서 직접 로그를 미리 보고, 전체 맥락을 파악하며, 로그 수명주기 전반에 걸쳐 가시성을 유지하는 모든 작업이 Datadog 플랫폼 내에서 가능합니다. 이 블로그 게시물 또는 여기에서 프리뷰에 등록하세요.

Datadog Notebooks 내에서 대화형으로 분석하고 시각화할 수 있는 Bits AI Data Analyst
Bits AI Data Analyst를 사용하면 Datadog Notebooks 내에서 바로 자연어와 AI 기반 안내를 통해 데이터를 탐색하고, 시각화를 생성하며, 문제를 조사하고, 대화형 보고서를 바로 작성할 수 있습니다. 복잡한 쿼리를 작성하거나 SQL과 변환 로직을 직접 조합할 필요 없이, 다음과 같은 고급 분석 질문을 자연어로 입력하면 됩니다.
- "지난 하루 동안의 모든 오류 로그를 제공해주고, 특이 사항이 있는 로그 메시지를 보여줘."
- "서비스별로 지연 시간을 세분화해서 가장 영향이 큰 것들을 식별해줘."
- "오류 로그를 알려진 문제 테이블과 비교해서 새로운 것이 있으면 하이라이트해줘."
- "배포판 태그와 연관된 5xx 오류 내의 스파이크를 보여줘."
Bits AI는 프롬프트를 해석하고 쿼리, 변환, 조인, 시각화 등 노트북 셀의 논리적 시퀀스를 빌드하여 완전한 단계별 분석을 형성해줍니다. 각 셀은 이전 셀을 기반으로 빌드되므로 사용자가 문제를 더 심층적으로 조사하고 조사 내용을 정리하여, 맥락 내에서 결과를 이해할 수 있습니다. Notebooks 내의 Data Analyst는 프리뷰 단계입니다. 여기에서 액세스를 요청하세요.
복잡한 데이터 세트 분석
직관적인 스프레드시트 환경에서 데이터를 분석할 수 있는 Sheets
Datadog Sheets는 스프레드시트 스타일 인터페이스 내에서 로그, RUM 이벤트, 클라우드 비용 데이터, 인프라 메트릭 등 텔레메트리 데이터를 분석할 수 있습니다. 익숙한 스프레드시트 기능을 사용하여 조회하고, 피벗 테이블을 생성하며, 계산된 열도 쉽게 만들 수 있습니다. 그래서 코드 작성 없이도 데이터 세트를 조인하고, 결과를 집계하고, 추세를 탐색할 수 있습니다. 결과를 시각화해 동료와 공유하거나 대시보드에 추가하여 지속적인 모니터링과 협업도 가능합니다. 자세한 내용은 이 블로그 게시물 및 이 문서에서 읽어보세요.

Notebooks에서 풍부한 맥락과 함께 다단계 분석 구축
Datadog Notebooks에서 고급 분석 기능을 바로 사용할 수 있게 되었습니다. 유연하고 시각적인 인터페이스에서 다단계 쿼리를 수행하고, 변환을 적용하며, 결과를 함께 연결할 수 있습니다. 이러한 기능을 이용하면 Datadog을 벗어나지 않고도 복잡한 로그에서 인사이트를 추출하고, 데이터 세트를 상호 연관시키며, 조사를 문서화하는 등의 모든 작업을 수행할 수 있습니다. Notebooks는 Log Workspaces의 모든 기능을 그대로 제공하면서도, 인라인 설명 및 다른 분석 도구와의 통합과 같은 더욱 향상된 기능을 추가 제공합니다. 더 자세한 내용은 이 블로그 게시물에서 읽어보세요.

소프트웨어 배포와 더 신속한 인시던트 대응
Datadog IDP로 소프트웨어를 빠르고 안정적으로 배포
Datadog IDP(Internal Developer Portal)를 사용하면 개발자는 공유된 엔지니어링 지식을 쉽게 찾아볼 수 있고, 셀프 서비스 방식으로 대부분의 프로덕션 작업을 실행하며, 신규 서비스 코드의 프로덕션 준비 상태도 쉽게 평가할 수 있습니다. Datadog IDP에 포함된 세 가지 핵심 기능은 다음과 같습니다.
- Software Catalog는 계층 구조 차트를 시각화하여 개발자가 서비스, 큐, 데이터 스토어가 더 큰 시스템에 어떻게 들어맞는지 더 잘 파악할 수 있게 해줍니다. 또한 각 컴포넌트의 업스트림 및 다운스트림 종속성을 매핑하고 각 컴포넌트를 통해 이동하는 실시간 트래픽을 자동으로 감지합니다.
- Self-Service Actions를 통해 개발자는 인프라나 플랫폼 팀에 별도 요청 없이 인프라를 프로비저닝하고, 새로운 서비스를 스캐폴딩하고, CI/CD를 구성할 수 있습니다.
- Scorecards는 새 서비스 출시 전 납품 가드레일을 제공하여 개발자가 옵저버빌리티 모범 사례, 소유권 및 문서화, 프로덕션 준비 상태 등의 기준에 따라 애플리케이션 코드를 평가할 수 있도록 해줍니다.
Datadog IDP가 어떻게 소프트웨어 배포를 가속화해주는지 자세히 알아보려면 이 블로그 게시물 또는 이 문서를 확인하세요.

Incident Response를 통한 문제 해결 및 커뮤니케이션 통합
인시던트 대응은 갈피를 잡기 힘들 수 있습니다. 처음 몇 분은 문제를 분류하기 위해 다양한 장치와 플랫폼을 전환해야 하며, 인시던트가 계속되는 동안 정기적으로 또 다른 도구로 전환해 관계자에게 업데이트 소식을 알려야 하기 때문입니다. Datadog On-Call 및 Incident Response에 새로 추가된 기능은 이러한 업무를 매끄럽게 관리할 수 있게 해줍니다. AI 음성 에이전트를 이용해 문제를 신속하게 파악하고 스마트폰에서도 직접 조치를 시작할 수 있습니다. 핸드오프 알림으로 관련 컨텍스트로 바로 이동해 다른 대응자와 신속하게 커뮤니케이션할 수 있습니다. 마지막으로, 상태 페이지에서 해결 진행 상황을 사용자에게 자동으로 업데이트할 수 있습니다. 이러한 기능에 대해 자세히 알아보려면 이 블로그 게시물을 확인하세요.

APM Latency Investigator를 통한 지연 문제 실시간 진단
분산된 시스템에서 응답 시간 증가의 원인을 특정하려면 트레이스, 메트릭, 로그, 프로파일링으로부터 받은 데이터를 수동으로 조합하고, 이와 동시에 다운스트림 병목현상, 배포판 변경 또는 데이터베이스 속도 저하에 대한 여러 가설을 검증하기까지 해야 하는 경우가 많습니다. 현재 프리뷰 단계인 Datadog의 APM Latency Investigator는 백그라운드에서 가설을 자동으로 조사하여 과거 트레이스를 비교하고 변경 내용 추적, DBM, 프로파일링 신호 간의 상관 관계를 파악합니다. 그래서 담당 팀이 원시 텔레메트리 데이터를 살펴볼 필요 없이 근본 원인을 신속하게 격리하고 영향을 파악할 수 있습니다. 액세스를 요청하려면 이 양식을 작성하세요.

성능 인사이트를 실제 해결로 전환해주는 Proactive App Recommendations
시스템이 복잡해짐에 따라 성능 및 신뢰성 문제를 발견하고 조치하기가 더 어려워집니다. Proactive App Recommendations는 APM, RUM(Real User Monitoring), Continuous Profiler, DBM(Database Monitoring)에서 얻은 텔레메트리 분석으로 문제를 자동 감지하고 실행 가능한 해결책을 제시해 선제적으로 대응할 수 있게 합니다. 트레이스 데이터, 세션 리플레이, 프로파일링 인사이트 등의 컨텍스트를 사용하여 영향을 파악하면 탐지부터 해결까지 단 한 번의 워크플로우로 빠르게 진행 가능합니다. 그런 다음 Datadog에서 벗어나지 않고도 권장 해결책을 적용하기 위한 풀링 요청을 신속하게 생성할 수 있습니다. Proactive App Recommendations는 옵저버빌리티를 토대로 시퀀셜 API 호출로 인한 레이턴시 해결, 프론트엔드 장애 신호 해결, 비효율적인 코드 경로 최적화 등 실제 조치 방안을 제시해줍니다. 이 블로그 게시물에서 자세히 알아보세요.

업무에 적용된 AI로 워크플로우 간소화
자연어를 사용하여 Bits AI로 Datadog 앱을 더 빠르게 빌드
이제 Bits AI에 자연어 요청을 제출하여 Datadog 앱을 빌드할 수 있습니다. 예를 들어, "GitLab에서 배포를 되돌릴 수 있는 앱을 빌드해줘"와 같은 요구 사항을 설명하면 Bits AI가 기존 데이터 및 권한에 매핑된 UI 컴포넌트, 액션 및 로직을 자동으로 생성합니다. 채팅만 반복하면 코드를 건드리지 않고도 필드, 흐름 또는 스타일을 조정할 수 있어, 배포 속도는 높이면서도 언제든 내부 기본 설정까지 직접 수정할 수 있는 여력을 확보할 수 있습니다. 액세스하려면 이 프리뷰를 작성하거나 고객 성공 매니저(CSM)에게 문의하세요.

AI 온콜 업무를 돕는 Bits AI SRE를 소개합니다!
Bits AI SRE는 자율적으로 알림을 조사하고 인시던트 대응을 조율하도록 빌드된, 언제든 요청하면 응답하는 AI 팀원입니다. Datadog, Slack, GitHub, Confluence 등과 통합된 Bits는 텔레메트리를 분석하고, 문서를 읽고, 최근 배포 내용을 검토하여, 노트북을 열기도 전에 알림을 발생시킨 근본 원인을 찾아냅니다. 실제로 Datadog On-Call을 사용하고 있다면 Bits가 찾아낸 결과를 휴대폰으로 바로 확인해 볼 수 있어, 어디에 있든 한발 앞서서 대응할 수 있습니다. 경고가 인시던트로 전환되면 Bits가 관계자에게 정보를 제공하고, 관련 문제를 자동으로 식별해 보여주고, 사후 검토를 위한 리뷰 보고서를 생성하는 등 대응 조율에 개입합니다. 팀이 이미 사용 중인 툴 내에서 팀원처럼 작동하고 채팅을 통해 협업하며 모든 조사를 통해 학습합니다. 자세히 알아보려면 이 블로그 게시물을 읽어보세요.

문제를 자동으로 식별하고 코드 픽스를 생성해주는 Bits AI Dev Agent
Bits Dev Agent는 텔레메트리 데이터를 자율적으로 모니터링하고, 주요 문제를 식별하고, 프로덕션 준비가 된 풀링 요청을 생성하여 개발자의 생산성을 아껴주도록 설계된 Datadog의 AI 기반 코딩 어시스턴트입니다. Datadog 플랫폼에 완전히 통합된 Dev Agent는 실시간 로그, 메트릭, 보안 신호 및 런타임 컨텍스트를 사용하여 팀 표준에 부합하는 테스트를 거친 정확한 픽스를 제공합니다. 개발자가 맥락이 풍부한 비동기식 PR을 명확한 설명과 함께 제공받아, 문제 해결 보다 해결책 검토와 더 나은 코드 빌드에 집중할 수 있습니다.
Bits AI Dev Agent에 대해 자세히 알아보려면 이 블로그 게시물을 확인하거나 프리뷰에 등록하여 시작하세요. 새로운 Bits AI SRE 및 Bits AI Security Analyst 기능 등 다른 새로운 내용에 대해서도 꼭 읽어보세요.

Cloud SIEM 분석을 자동화해주는 Bits AI Security Analyst
Datadog의 Bits AI Security Analyst는 Datadog Cloud SIEM 신호를 자율적으로 분류하여 보안팀의 조사 방식에 혁신을 가져옵니다. Datadog에 네이티브로 빌드되어 잠재적 위협에 대한 심층 조사를 수행하고, 명확하고 실행 가능한 권장 사항을 제공합니다. 그래서 보안팀이 맥락이 풍부한 대응 방안을 제공받아 진화하는 위협에 더욱 효율적이고 정밀하게 사전 대응할 수 있습니다.
Bits AI Security Analyst는 현재 프리뷰 단계입니다. 액세스를 요청하거나 이 블로그 게시물에서 자세히 알아보세요.

Action Interface 내에서 자연어로 Bits에게 자동 대응 요청
Action Interface에서 Bits AI에서 채팅을 통해 워크플로우나 앱 없이, 인프라에 대한 감사 액션을 안전하게 설정할 수 있습니다. 신뢰성(SRE), 온콜, 플랫폼 및 보안 엔지니어가 안전하고 통제된 방식으로 몇 초 만에 서비스 재시작, 서버 재부팅, 캐시 플러싱, 사용자 계정 격리 등의 조치를 수행할 수 있습니다. 모든 액션은 역할 기반 정책에 따라 검증되고 Datadog Audit Trail에 로깅되어 책임 소재도 명확합니다. 자세한 정보는 이 문서를 참조하세요.

Datadog Cursor Extension으로 프로덕션 이슈를 실시간으로 디버깅
Datadog Cursor Extension은 Datadog 원격 MCP 서버를 사용하여 개발자가 Cursor IDE 내에서 직접 Datadog 도구 및 옵저버빌리티 데이터에 액세스할 수 있도록 해줍니다. 즉, Cursor 챗과 상호작용하면 Cursor Agent가 Datadog Error Tracking 및 Live Debugging을 사용하여 애플리케이션 코드에 로그포인트를 추가해 오류를 해결하고 라이브 프로덕션 데이터를 기반으로 유닛 테스트를 생성할 수 있습니다. Cursor Extension을 사용하면 실행 중에도 로그포인트가 캡처하는 실시간 변수 값을 볼 수 있으며, Cursor Agent를 사용하여 당장 문제를 일으키는 코드 줄이 무엇인지도 식별할 수 있습니다.
Datadog Cursor Extension은 현재 프리뷰로 제공됩니다. Cursor Extension을 사용하여 어떻게 실제 비즈니스 문제를 해결할 수 있는지 이 블로그 게시물에서 알아보거나, 이 문서를 확인하여 자세히 알아보세요.
Datadog MCP Server를 사용하여 AI 에이전트를 Datadog 도구 및 컨텍스트에 연결
원격 Datadog MCP Server는 Datadog에서 받은 텔레메트리에 AI 에이전트가 액세스할 수 있게 해줍니다. 그래서 인증이나 HTTP 요청 처리 등 AI 에이전트를 사용하는 데 겪게 되는 복잡한 문제들을 해결하고, 관련성 높은 응답을 제공받을 수 있습니다. MCP Server는 자연어 프롬프트의 의도를 파악하고 해당하는 Datadog 엔드포인트를 호출하여 쿼리의 의도를 파악합니다. 예를 들어, 이제 Cursor, Claude, Codex 등 다른 MCP 호환 에이전트에게 Redis 오류를 검색하도록 요청할 수도 있습니다. 그러면 에이전트가 Datadog MCP Server를 사용하여 Datadog 환경에서 Redis 로그를 검색하고 오류를 파악하여 보여줍니다.
Datadog의 원격 MCP Server는 현재 프리뷰로 제공됩니다. 이 기능에 대해 자세히 알아보려면 이 문서를 확인하거나 이 블로그 게시물를 읽어보세요. Redis 오류를 파악해서 보여주고 이를 현재 진행 중인 인시던트와 상관 관계를 만드는 예시를 모두 확인하실 수 있습니다.