클라우드 전환과 통합 모니터링의 필요성
티맵모빌리티는 2020년 SK텔레콤에서 분사하면서 ‘모빌리티 플랫폼’으로의 진화를 추진해왔다. 티맵모빌리티는 현재 티맵 내비게이션을 필두로 택시, 대중교통, 주차, AUTO, 안심대리, 전기차충전 등 다양한 모빌리티 서비스를 하나의 앱에서 제공하고 있다. 앞으로도 이용자들이 필요로 하는 이동과 관련된 모든 서비스를 플랫폼 기반으로 제공하겠다는 계획을 가지고 있다.
이를 위해서는 IT 인프라의 유연성과 민첩성이 필수적이다. 다양한 서비스를 언제든 새롭게 개발하고 운영할 수 있어야 하며, 시기별 트래픽 변화에도 빠르게 대응할 수 있어야 하기 때문이다. 하지만 분사 당시 티맵모빌리티의 IT인프라는 기존 SK텔레콤에서 사용하던 IDC에서 서비스를 제공하는 온프레미스 구조였다. 유연성과 민첩성 면에서 ‘모빌리티 플랫폼’이라는 비즈니스의 요구를 담아내기 어려웠다. 특히 IDC 두 곳의 계약 종료가 임박했고, 하드웨어 재투자가 필요한 시점이 도래했으며, 각종 상용 소프트웨어 라이선스 비용이 지속적으로 증가하는 등 비용 문제가 심각했다.
시스템 모니터링 환경에도 문제가 있었다. 클라우드 전환 이전의 티맵모빌리티는 파편화된 모니터링 환경이었다. 개발 조직과 데브옵스(DevOps) 조직이 제각각의 모니터링 환경을 사용했고, 로그도 따로따로 보고 있었다. 이는 장애 발생 시 원인 분석과 대응 속도를 저해하는 근본적인 문제였다.
이러한 문제들을 해결하기 위해 티맵모빌리티가 도출한 해결 방안은 두 가지다. 첫째, 기존에 운영하던 3000여 대의 인스턴스를 클라우드로 전면 전환하는 100% 클라우드 마이그레이션을 추진했다. 기존 온프레미스 환경을 그대로 클라우드에서 재호스팅 하는 것이 아니라 클라우드에 최적화된 형태로 이전했다.
둘째는 클라우드 환경의 안정성을 확보하고 파편화된 환경을 개선하기 위해 SaaS(Software as a Service) 기반의 통합 옵저버빌리리티 솔루션인 Datadog을 채택했다.
대규모 사용 서비스를 진행하는 동시에 클라우드 마이그레이션까지 진행하는 것은 다소 위험하다. 이 때문에 ‘모니터링’의 역할이 더욱 중요했다. 하지만 클라우드 전환 이전의 티맵모빌리티는 파편화된 모니터링 환경이었다. 때문에 클라우드라는 새로운 환경에서는 개발자와 데브옵스 모두 똑같은 로그에 똑같은 환경에서 분석하고 대응할 수 있도록 모니터링 환경의 통합이 필수적이었다. Datadog은 이런 목표를 달성하기에 최적의 솔루션이었다.
통합 가시성 확보를 넘어 클라우드 비용 관리까지
티맵모빌리티는 Datadog을 기반으로 통합 모니터링 환경을 구축했다. 엔드투엔드(End-to-End)로 개발자와 운영팀(데브옵스) 등 모든 엔지니어가 똑같은 로그와 똑같은 환경에서 분석하고 대응할 수 있도록 했다.
전사 통합 모니터링 시스템을 통해 이슈가 발생하면 티켓을 자동으로 생성, 이슈관리 시스템인 Jira에 등록해 담당자가 추적하고 관리할 수 있게 했고, 이어 Slack 메신저로 관련 팀원들에게 즉시 알림을 전송해서 대응하도록 했다.
모든 직원이 같은 데이터를 보고 있기 때문에 이슈에 대한 대응이 어떻게 진행됐는지, 잘 된 점과 잘못 된 점은 무엇인지 서로 공유하기 쉬워졌다. 대응이 늦어졌을 경우 원인을 함께 분석하고 함께 개선 방향을 모색할 수 있게 됐다. 파편화된 모니터링 환경이 통합 환경으로 바뀌면서 조직의 옵저버빌리티(Observability) 역량이 전반적으로 상향평준화됐다.
대규모 상용 서비스를 운영하는 티맵모빌리티 입장에서는 비용관리가 특히 중요한 이슈였다. 클라우드로의 마이그레이션 이후 IT 인프라에 대한 투자가 자본지출(Capex)이 아닌 운영비용(Opex)이 되면서 비용절감에 대한 요구가 커졌기 때문이다.
하지만 비용을 줄이는 것은 쉽지 않은 미션이었다. 기존 서비스는 계속 고도화되고, 여기에 새로운 서비스가 계속 추가됐기 때문에 제한적인 인프라를 최대한 효율적으로 사용해야 했다. 개발 조직도 기능이나 성능만 신경쓰는 것이 아니라 비용까지 감안한 최적화가 필요했다.
이에 티맵모빌리티는 ‘비용 최적화’를 전사적인 KPI로 설정하고, 서비스 안정성 다음으로 지속적인 비용 모니터링을 통한 AWS 비용 절감을 중요한 과제로 설정했다. 이 과제는 개발 조직, 사업 조직, 데브옵스 조직이 서로 연계된 삼각 구도를 통해 추진되었다. 개발 조직은 애플리케이션 최적화를 포함한 여러 작업을 통해 인프라 효율성을 높였고, 사업 조직은 사업성이 낮은 서비스를 빠르게 피보팅(Pivoting)하거나 페이드 아웃(Fade Out)하는 의사결정으로 비용 낭비를 막았다.
Datadog은 지속적인 비용 모니터링의 기반을 제공했다. 단순히 서비스의 상태를 보는 옵저빌리티 기능을 넘어, 클라우드 비용을 어떻게 줄일 수 있을지에 대한 구체적인 분석 도구로 활용할 수 있었다. 또 통합된 모니터링 환경 덕분에 개발 조직이 애플리케이션 최적화를 진행할 때 비용 데이터와 성능 데이터를 함께 보고 효율성을 높이는 작업을 수행할 수 있는 기반이 마련됐다. 그 결과 Datadog 사용 후 월 적재된 로그 건수가 300억 건에서 600억 건으로 두 배 증가했음에도 불구하고, 초기보다 모니터링 비용 비율이 줄었다.
“데이터독 도입 후, 로그 건수는 두 배가 됐지만 모니터링 비용 비율 자체는 줄었습니다. 티맵모빌리티는 Datadog을 단순 옵저빌리티 툴이 아닌, 정보 보호 및 AI 옵스까지 아우르는 '종합 개발 도구'로 활용할 계획입니다.”
향후 계획
티맵모빌리티는 Datadog을 단순 모니터링 툴이 아닌 종합개발도구로 활용할 계획이다. 특히 데브옵스 환경에 보안을 통합하는 데브섹옵스(DevSecOps) 환경 구현의 파트너로 생각하고 있다. CWPP(Cloud Workload Protection Platform) 및 SIEM 등 보안 솔루션을 검토 중이며, 이를 통한 보안 체계 강화를 추진하고 있다. 티맵모빌리티는 이처럼 정보보호의 관점에서 옵저버빌리티를 더해나갈 계획이다.
Datadog 플랫폼은 애플리케이션, 컨테이너, 클라우드 인프라 전반에 걸쳐 실시간 위협 탐지와 지속적인 구성 감사를 제공한다. Datadog의 보안 플랫폼은 ‘탐지형 통제’와 ‘예방적 통제’란 축으로 구성된다. 탐지형 통제는 애플리케이션 보안과 클라우드 SIEM, 예방적 통제는 클라우드 보안 관리로 나눌 수 있다.
아울러 티맵모빌리티는 AI에도 많은 관심을 가지고 있다. 지난 9월에는 모빌리티 AI 에이전트 서비스를 출시하기도 했다. LLM 기반 음성 대화를 통해 이용자의 지시를 수행하는 AI 에이전트다. 해당 서비스는 이미 앱스토어와 플레이스토어에 출시되어 있으며, 사용자 음성 명령에 따라 장소 추천, 경로 안내, 대화형 정보 제공 등 다양한 기능을 제공한다. 예를 들어 “을지로 맛집 추천해줘"라고 요구하고 상세한 정보를 음성으로 안내 받을 수 있다. 이와 같은 AI 서비스가 안정적으로 운영될 수 있도록 Datadog을 활용한 옵저버빌리티 환경을 강화하고, AI 옵스와 같은 새로운 기술 도입도 고려중이다.
향후에는 사용자 맞춤형 이동 경험을 구현하기 위한 개인화 기능과 멀티턴대화 기능을 더욱 정교화할 예정이다. 이처럼 티맵모빌리티는 AI 기술과 클라우드 인프라를 적극적으로 결합해, 단순한 내비게이션을 넘어 데이터 중심의 모빌리티 플랫폼 기업으로 도약하고자 한다.