유통 거인의 디지털 전환 여정
GS리테일은 1974년 국내 최초의 슈퍼마켓으로 시작해 1990년 편의점 프랜차이즈 ‘GS25’, 1995년 홈쇼핑 사업, 2010년 홈쇼핑 모바일 앱, 2022년 ‘우리동네 GS 앱’ 등 전통적인 소매 유통사업부터 이커머스, 모바일 앱 서비스 등 다양한 디지털 서비스를 제공하고 있다. GS리테일은 비즈니스를 24시간 365일 중단 없이 운영해야 하는 운영 리스크와 전사적 클라우드 전환이란 변화의 지점에 직면했다.
GS리테일에 시스템 장애는 막대한 비즈니스 손실, 고객 경험 악화, 전국 가맹 경영주의 불만으로 이어지는 중대한 위협이다. GS25 전국 매장 기준으로 단 10분의 시스템 장애 발생으로 예상되는 손실은 평균 매출 1억6488만원, 영향 고객수 3만4722명에 달하는 것으로 조사됐다. 결제 시스템 장애는 각 매장에서 고객의 불만을 증가시키고, 전국 1만8000 가맹점의 불만이 GS리테일 콜센터로 쏟아진다.
과거의 장애 대응은 각 팀의 책임이 순차적으로 넘어가는 수동적이고 사일로화된 프로세스에 의존했다. 장애 발생 감지 → 고객 문의 접수 → 콜센터 확인 → 운영팀 전달 → 개발팀 분석 → 문제 해결 순의 선형적 장애 대응 프로세스는 각 단계별 정보 전달과 상황 재파악의 과정을 거쳐야 해 시간 지연을 필연적으로 일으켰다. 개발팀이 최종적으로 문제를 분석하기까지 여러 단계를 거치면서 초기 정보 왜곡이나, 정보 부족의 문제를 드러내 신속하고 정확한 근본 원인 파악에 어려움을 겪었다.
GS리테일은 2023년 기존에 임차했던 인터넷데이터센터(IDC)의 서비스 종료로 전사 인프라를 클라우드로 이전해야 했다. 비즈니스의 연속성을 유지하면서 매우 짧은 기간 내 신규 클라우드 환경으로 시스템을 안정적으로 이전해야 했고, 약 25년 간 운영해온 상용 데이터베이스를 PostgreSQL로 이전하면서 데이터 정합성 보장과 애플리케이션 호환 등의 문제를 해결해야 했다. 비즈니스 변화에 빠르게 대응하기 위해 클라우드 네이티브로 전환하기로 했지만, 쿠버네티스 기반 환경에서 역동적으로 생성과 소멸을 보이는 파드(POD)를 추적하고 관리할 방안이 필요했다. 비즈니스 패턴에 따른 트래픽 피크를 고려해 인프라를 동적으로 조정할 수 있는 체계도 갖춰야 했다.
Datadog을 통한 통합 모니터링 및 보안 혁신
GS리테일은 직면한 복합적 문제를 해결하기 위해 개발, 운영, 보안을 아우르는 통합 모니터링 솔루션으로 Datadog을 선택했다. 단순히 새로운 모니터링 도구를 도입하는 차원을 넘어, 장애 대응, 클라우드 운영, 현장 지원, 보안 등 전사적 IT 운영 프로세스를 데이터 기반으로 전환하는 작업이었다. GS리테일은 Datadog을 통해 인프라 모니터링, 리얼유저 모니터링, APM, DBM, 로그 매니지먼트, 네트워크 모니터링 등을 수행하고 있다. Datadog 도입 후, GS리테일의 장애 대응 프로세스는 수동적이고 사후 대응적이던 방식에서 벗어나 민첩하고 선제적인 프로세스로 전환됐다. 고객이 인지하기 전 장애 감지 → 지능형 알람을 통한 선제적 조치 → 빠른 근본 원인 분석 순으로 이어지는 새로운 워크플로우가 구축됐다.
Datadog을 통해 통합 대시보드를 만들면서 장애 발생 지점을 확인하고 데이터에 기반해 장애의 근본 원인을 찾아 조치할 수 있게 됐다. 장애발생을 인지한 인프라 엔지니어가 개발자에게 대시보드와 이벤트 정보를 알리고, 개발자가 현업 담당자에게 내용을 전달하는 팩트 기반 소통이 DevOps 체계에 정착됐다. 추측 위주로 이뤄졌던 담당자 간 논의가 모든 고객사례 DevSecOps with Datadog 관련자의 Datadog 대시보드 기반 소통으로 바뀌어 부서 간의 소통 오류가 줄었고, 문제의 본질에 집중해 해결 속도를 높일 수 있었다.
Datadog은 GS리테일의 클라우드 전환 과정에서 마주했던 기술적 난제 해결에도 도움을 줬다. 클라우드로 전환된 시스템에서 예상치 못한 문제가 발생했을 때, Datadog은 이를 즉각적으로 감지하고 담당자에게 알람을 보내 신속한 초동 대응을 가능하게 했다. Datadog은 방대한 양의 로그와 분산된 시스템 간의 호출 데이터를 자동으로 수집하고 분석해, 복잡한 클라우드 환경에서도 문제의 근본 원인을 신속하게 규명할 수 있는 데이터 기반의 근거를 제공했다.
쿠버네티스 환경에서 POD는 끊임없이 생성·소멸되고, IP가 고정되지 않는다. GS리테일은 기존 정적 모니터링 도구 대신 Datadog으로 클라우드 네이티브 인프라에 맞는 모니터링 환경을 구축해 역동적인 클라우드 네이티브 환경을 추적하고 운영할 수 있었다.
클라우드 전환 작업도 데이터 기반으로 이뤄졌다. 100개 이상의 온프레미스 워크로드를 단계적으로 클라우드 환경에 이전할 때 시스템 간 연관 관계 변화가 발생하는데, Datadog의 데이터를 기반으로 이슈를 파악하고 분석해 매끄럽게 이전 작업을 진행했다. 또, Datadog으로 네트워크 맵을 시각화해 복잡하게 얽혀 있는 쿠버네티스 환경의 서비스 간 통신 구조를 직관적으로 파악했다. 이를 통해 담당자는 전체 시스템의 아키텍처를 쉽게 파악하고 병목 현상이나 통신 오류를 신속하게 진단할 수 있게 됐다.
Datadog RUM으로 현장 지원 혁신
GS리테일은 전국 1만 8000 가맹 경영주 지원 시스템에 고질적인 소통의 비효율 문제를 안고 있었다. 디지털 기기에 익숙하지 않은 사용자를 지원하는 디지털 격차 해소가 최대 난제였다. 그로 인한 복잡하고 비효율적 업무 프로세스는 현장과 본사 간의 불필요한 인계 및 지연을 발생시켰고, 문제에 대한 낮은 가시성은 실제 상황을 파악하기 어렵게 했다. 본사는 가맹점의 문제 상황을 정확하게 재현할 수 없어 원인 파악에 난항을 겪었다.
GS리테일은 Datadog RUM(Real User Monitoring)으로 AI 챗봇의 디버깅이나, 이슈 해결 등의 용도로 사용하면서, 1만8000 편의점 가맹점 경영주의 문의 응대를 해결하는데도 활용하고 있다.
Datadog RUM은 디지털 경험 최적화와 사용자 경험 향상을 위한 솔루션이다. 웹 애플리케이션 전반에 걸쳐 사용자 경험에 영향을 미치는 중요 이슈를 식별하고, 우선 순위를 지정하며, 해결하게 한다. 프론트엔드 성능 문제를 탐지, 조사, 해결하게 하고, 전체 사용자 세션에 대한 완벽한 가시성을 제공한다. 로그, 트레이스, 실제 사용자 행동 등을 상호 연관시켜 오류를 더 빠르게 해결하도록 지원하며, 프론트엔드와 백엔드 모니터링을 통합해 팀간 사일로를 해소시킨다.
GS리테일은 Datadog RUM을 활용해 User Key로 특정 경영주를 식별하고, 실제 가맹점 기기 화면과 행동을 영상처럼 그대로 재현하는 Session Replay 기능을 활용해 사용자 행동을 재현함으로써 문제 상황을 팩트 중심으로 진단하고 소통하고 있다. 이를 통해 문의 처리 속도가 단축되고, 데이터 기반의 정확한 질의응답이 가능해졌으며, 허위 행위 문의가 근절돼 문의처리가 줄어들었다.
Datadog 통합 보안 모니터링 체계 구축
클라우드 환경은 크리덴셜 스터핑, BPF 도어 공격, 랜섬웨어 등 새로운 보안 위협에 노출될 가능성이 높다. GS리테일 역시 클라우드 계정 관리, 리소스 보안 설정, 보안 로그 분석 등에서 여러 도전 과제를 안고 있었다.
GS리테일은 애플리케이션, 인프라, 보안이 동일한 도구를 활용해 모두의 책임으로 보안을 관리하는 DevSecOps 문화를 구축하고자 했다. Datadog은 여러 보안 모니터링을 통합하고 부서 간의 사일로를 해소했다. Datadog SIEM은 기존에 운영 목적으로만 수집됐던 로그를 보안 분석에 이용할 수 있게 했다.
GS리테일은 Datadog을 활용해 애플리케이션, 인프라, 보안 등의 각 팀이 동일한 데이터를 바라보는 ‘단일화된 관점(Single Pane of Glass)‘을 제공하게 됐다. Datadog이란 하나의 플랫폼에서 개발자는 애플리케이션의 보안 취약점을, 인프라팀은 리소스 접근 제어를, 보안팀은 전체적인 위협 동향을 모니터링함으로써 기술적 장벽에서 초래된 조직 간 장벽을 허물고 보안을 공동 책임으로 전환시켰다.
비즈니스 성과와 조직 문화의 변화
Datadog의 도입은 단순히 기술적 문제를 해결하는 수준을 넘어, GS리테일의 비즈니스 운영 방식과 조직의 일하는 문화를 근본적으로 바꾸는 핵심적인 혁신을 가져왔다.
GS리테일은 비즈니스 민첩성을 확보해 빠르게 변화하는 시장 환경과 고객의 요구에 신속하게 대응할 수 있는 기술적, 조직적 역량을 갖추게 됐다. 새로운 서비스 출시나 인프라 증설 시 복잡한 과정 없이 클릭 몇 번으로 필요한 모니터링 환경을 빠르고 쉽게 설정할 수 있게 됐다. 문제 발생 시 근본 원인을 신속하게 파악하고 해결해 서비스 중단 시간을 최소화함으로써, 비즈니스 손실과 고객 불편을 획기적으로 줄였다. 이상 징후를 사전에 포착하는 지능형 알람 체계를 통해, 고객이 불편을 느끼기 전에 문제를 인지하고 조치하는 선제적 운영이 가능해졌다.
“Datadog을 통한 민첩성 확보와 문화적 혁신은 급변하는 유통 환경 속에서 GS리테일이 지속 가능한 성장을 이룰 수 있는 핵심 동력으로 작용하고 있습니다. GS리테일은 Datadog을 통해 확보한 기술적 역량과 데이터 기반의 조직 문화를 발판 삼아, 앞으로도 고객에게 더 나은 가치를 제공하기 위한 혁신적인 도전을 계속해 나갈 것입니다.”