VROONG의 Datadog 도입 사례: Datadog 기반 통합 Observability와 FinOps 문화 구축 | Datadog
VROONG의 Datadog 도입 사례: Datadog 기반 통합 Observability와 FinOps 문화 구축

case study

VROONG의 Datadog 도입 사례: Datadog 기반 통합 Observability와 FinOps 문화 구축

About 부릉 (VROONG)

2013년 설립된 배달대행 플랫폼 부릉은 인공지능(AI)과 빅데이터 등 차별화된 기술력을 기반으로 고객에게 필요한 프리미엄 맞춤 배달 서비스를 제공하고 있다.

Delivery & Logistics
200+ Employees
한국
“Datadog은 단순한 모니터링 툴을 넘어 모두를 FinOps의 주인공으로 만들어주는 강력한 솔루션입니다.”
“Datadog은 단순한 모니터링 툴을 넘어 모두를 FinOps의 주인공으로 만들어주는 강력한 솔루션입니다.”
이승윤 SRE 챕터 팀원 VROONG

Why Datadog?

VROONG은 Datadog을 통해 통합 모니터링 환경을 구축하고 강력한 상관 관계 분석 기능으로 신속하게 문제를 파악하게 됐으며, 쿠버네티스 환경의 리소스 모니터링 및 최적화 체계를 갖췄다. 특히 Datadog CCM(Cloud Cost Management)을 활용해 비용 가시성을 확보하고, 개발팀의 FinOps 참여를 유도하며 비용 절감 성과를 달성했다.

Challenge

VROONG은 파편화된 모니터링 환경으로 인해 컨텍스트 스위칭 부담과 장애 대응 시간 지연 문제에 직면했다.

Key results

50%↓ $14 → $7

일 평균 비용 50% 감소

통합 모니터링 환경 구축

다양한 지표 가시성 확보

FinOps 문화 구축

데이터 기반 피드백 루프 구축

관리 복잡성을 높이는 분산된 모니터링 환경

VROONG은 다양한 모니터링 도구를 활용해 인프라를 관리했지만, 도구의 파편화로 장애 대응이 지연되고, 운영 비용이 불투명해지는 문제를 겪고 있었다. APM, 이슈트래커, ELK 스택, Grafana, AWS CloudWatch 등 다수의 솔루션을 운영하면서 조직의 효율성과 안정성이 저해됐다. 장애 발생 시 담당자는 여러 모니터링 도구를 오가며 원인을 찾아야 했다. 여러 담당자 간 협업도 불편했다. 여러 도구를 넘나들며 진행하는 원인 분석은 장애의 근본 원인을 파악하고 조치하는 시간을 지연시켰다. 각 솔루션은 알람 포맷과 정책의 불일치를 초래해 관리 포인트를 늘렸다. 또한, 애플리케이션과 인프라 지표를 별도로 수집하면서 마이크로서비스 간 통신 상태를 직관적으로 파악하기 어려워 네트워크 가시성이 제한되는 문제도 있었다.

VROONG은 단일 플랫폼에서 모든 인프라의 데이터를 유기적으로 연결하고 분석할 수 있는 통합된 해결책을 필요로 했다.

VROONG 배달 서비스

Datadog을 활용한 통합 Observability 확보

VROONG은 Datadog 도입을 검토하면서 여러 지표를 한곳에서 볼 수 있는 ‘통합 모니터링 환경’, 서로 다른 데이터를 유기적으로 연결해 상관관계를 분석하는 강력한 ‘Correlation 기능’ 등에 주목했다.

Datadog은 다양한 메트릭을 단일 플랫폼으로 수집하고, APM, 인프라, 로그 등의 지표를 통합 대시보드로 만들 수 있다. 특히 특정 시점 동시간에 발생한 여러 지표를 연결해 볼 수 있는 Correlation 기능을 활용하면 장애 대응 시간을 줄일 수 있을 것으로 기대했다.

Datadog의 Correlation 기능은 데이터베이스(DB) 장애 대응에서 효과를 발휘했다. VROONG은 Datadog을 통해 신속하게 문제의 근본 원인을 파악하고 파급 효과까지 분석할 수 있었다. 예를 들어, Datadog 대시보드에서 특정 DB의 CPU 사용량 급증이란 이상 징후를 실시간으로 포착하고, 담당자는 CPU 급증 지표를 클릭해 연관된 Datadog DBM 화면으로 즉시 이동했다. DBM의 Query Sample 기능을 통해 해당 시간대에 길게 동작한 REINDEX 쿼리가 CPU 부하의 직접적인 원인임을 신속하게 밝혀냈다. 여기서 그치지 않고, 문제된 REINDEX 쿼리 실행 이후 다른 주요 비즈니스 SELECT 쿼리들의 처리 시간(Duration)이 눈에 띄게 길어진 것을 확인하고, 장애의 2차적 파급 효과를 파악해 대응할 수 있었다.

VROONG은 Datadog Notebook 기능을 활용해 장애 회고 문서를 작성하고, 이를 기반으로 ‘서비스 위클리 회의’를 진행하고 있다. 모니터링하는 환경별 링크를 Notebook의 한 페이지에 모아 회의를 진행하며, 장애 분석과 지식 공유 프로세스를 획기적으로 개선했다.

기존의 ‘제한적인 네트워크 가시성’ 문제는 Datadog NPM을 통해 해결됐다. VROONG은 컨테이너 노드에 설치된 Datadog Agent를 통해 실제 서비스 간 통신 데이터를 수집하고, 이를 시각화해 복잡한 네트워크 구조를 한눈에 파악할 수 있게 됐다. 쿠버네티스 환경은 여러 서비스를 연동하는 상호 의존 구조이기 때문에 서비스 간 통신을 관리하는 게 매우 중요하지만, 직관적으로 파악하기 어렵다. Datadog은 쿠버네티스 상에서 특정 서비스와 다른 서비스의 통신을 시각적 ‘서비스 맵’으로 그려주고, 특정 지점에 장애가 발생했을 때 어떤 서비스로 전파될지 예측하게 해준다. VROONG은 이를 통해 장애 영향도를 신속하게 파악하고 대응 범위를 결정할 수 있었다. Datadog NPM의 서비스 맵은 신규 입사자에게 복잡한 전체 서비스 아키텍처와 네트워킹 구조를 설명하는 교육 자료로도 활용돼 온보딩 시간을 크게 단축시키고 있다.

VROONG은 쿠버네티스 리소스 모니터링도 용이해졌다. 컨테이너 노드에 설치된 Datadog Agent는 신규 서비스의 쿠버네티스 운영 환경 배포 후 별도의 애플리케이션 연동 작업 없이 즉시 해당 파드(Pod)의 리소스 사용량을 실시간으로 확인하게 한다. 이를 통해 리소스 request/limit 설정의 적절성을 분석하고, 잠재적인 리소스 부족으로 인한 성능 저하를 사전에 예방하며 트래픽 급증 전 선제적으로 리소스를 최적화할 수 있게 됐다.

Datadog CCM 기반 FinOps 문화 구축

기술적 안정성과 운영 가시성을 확보한 VROONG은 운영 데이터를 재무적 인텔리전스와 비용 효율성으로 전환하는 새로운 과제에 집중할 수 있는 역량을 갖추게 됐다.

쿠버네티스 환경은 여러 서비스의 자원 공유란 특성 때문에 서비스별 정확한 비용을 산출하기 어렵고, 리소스 요청량과 실제 사용량의 차이로 인해 유휴 자원 비용(Idle Cost)이 발생할 수 있다. 이는 비용 관리의 어려움을 낳는다. VROONG은 Datadog CCM을 도입해 운영과 개발 조직 전반의 FinOps(Financial Operations) 환경을 구축하고 전사적인 FinOps 문화를 형성했다.

VROONG의 개발자는 Datadog CCM 대시보드에서 직접 비용 지표를 확인할 수 있어, 자신의 작업물이 클라우드 비용에 미치는 영향을 파악할 수 있다. 개발자는 비용 지표를 감안해 개발 단계부터 리소스를 최적화하게 됐다. 한 서비스 개발 사례에서 일 평균 파드 비용이 14달러에서 7달러로 줄어들었고, 월간 약 200달러의 비용을 절감하는 효과로 이어졌다.

VROONG은 Datadog CCM의 도입을 통해 단순한 비용 절감을 넘어 개발 및 운영 전반에 성공적으로 FinOps 피드백 루프를 구축하는 성과를 거뒀다. CCM이 비용 가시성을 제공하고, 개발자가 직접 데이터를 참고하며 행동에 나서며, 그 결과가 동일한 도구로 검증되면서 FinOps 문화의 가치가 조직 전반에 각인됐다.

Datadog CCM은 에이전트를 통해 자동으로 수집한 실시간 리소스 사용량과 클라우드 비용 데이터, 비용 변동 시점의 애플리케이션 배포, APM 데이터 등 다양한 데이터를 통합 분석할 수 있게 한다. 태그를 이용하면, 서비스와 팀별 비용을 분류할 수 있어 비용 사용 주체를 명확하게 하고, 비용 최적화의 기회를 발견하기 용이하게 된다.

VROONG은 Datadog CCM에서 여러 지표와 인사이트를 통해 유휴 비용을 파악하고, 트래픽 급증에 대한 인프라 증설을 예측함으로써 안정적으로 서비스를 운영하면서 비용도 최적화할 수 있었다. 선제적인 예산 관리 비용 임계치 및 이상 탐지 알람을 구성해 예산을 초과하기 전에 미리 대응하는 선제적 비용 관리가 가능해졌다.

네트워크 가시성이 확보되면서 이전에 놓치기 쉬웠던 Cross-zone 데이터 전송 비용이나 쿠버네티스 클러스터 내부의 워크로드별 네트워크 비용 등 숨겨진 비용을 가시화해 최적화의 기회를 발견하게 됐다. Datadog에서 제공한 대시보드는 네트워크 비용에 대한 숙련된 지식없는 엔지니어도 대시보드 화면을 통해 바로 알 수 있게 했다.

“진정한 FinOps는 '누군가의 책임'이 아닌 '문화'일 때 완성됩니다. 개발, 운영, 기획 모두가 비용을 인지하고 함께 개선의 주체가 되는 것입니다. Datadog은 단순한 모니터링 툴을 넘어 모두를 FinOps의 주인공으로 만들어주는 강력한 솔루션입니다.”

미래 계획: 데이터 기반 워크플로우 자동화 및 고도화

VROONG은 비용 가시성과 FinOps 문화의 구축을 기반으로 지능적이고 자동화된 비용 관리 체계를 확보하겠다는 목표를 갖고 있다.

VROONG은 Datadog을 통해 확보한 데이터를 기반으로 비용 관리 워크플로우를 자동화해 업무 효율을 극대화할 계획이다. 코스트 모니터 기능을 통해 이상 탐지를 구성하고, 모니터링 알람 내용에 관련 대시보드를 첨부해 근본 원인을 탐색하는 시스템을 구축하는 것이다. VROONG은 Datadog의 기본 모니터링 기능과 대시보드 기능만 활용해도 워크플로우를 별도로 구축하지 않고 근본 원인의 탐색 시간을 절약하는 환경을 구성할 수 있다고 판단하고 있다.

나아가 비용 증감 데이터를 보고 자동화 워크플로우 하에서 자동으로 중요한 비용 변화를 파악할 수 있는 환경도 구성하려 한다. 비용 이상을 탐지하면, AI 서비스가 Datadog의 관련 지표를 자동으로 수집·분석해 원인을 요약한 리포트를 작성하고, Slack이나 Notion으로 전송하는 워크플로우를 구상 중이다.

이같은 자동화는 비용 증감 원인을 수동으로 분석하고 보고하는 데 투입되던 막대한 공수를 제거하고, 고부가가치 엔지니어링 시간을 반응적 분석이 아닌 선제적 개발에 재투자하게 한다는 계획이다.

VROONG은 궁극적으로 APM 지표, CCM 지표, 인프라 지표 등에 비즈니스 지표를 결합해 ‘배달 건당 클라우드 비용’을 계산하는 것을 목표로 한다. 이를 통해 ‘배달’이라는 핵심 비즈니스 가치와 IT 비용을 직접적으로 연결하고, 기술 투자의 투자수익률(ROI)를 정량적으로 분석해 데이터 기반의 비즈니스 의사결정을 내릴 수 있을 것으로 기대된다.

리소스

gated-asset/gartner2025obplatformopengraph200x630

guide

2025 Gartner® Magic Quadrant™ for Observability Platforms
gated-asset/reduce_it_costs_ebook_og

ebook

Reducing IT Costs with Observability