Jobs Monitoring | Data Observability | Datadog
Data Observability

Jobs Monitoring

데이터 파이프라인의 작업을 모니터링, 트러블슈팅, 비용 최적화

데이터 파이프라인의 작업을 모니터링, 트러블슈팅, 비용 최적화
데이터 파이프라인의 작업을 모니터링, 트러블슈팅, 비용 최적화
데이터 파이프라인의 작업을 모니터링, 트러블슈팅, 비용 최적화
데이터 파이프라인의 작업을 모니터링, 트러블슈팅, 비용 최적화

기능 개요

Data Observability: Jobs Monitoring은 데이터 플랫폼 팀과 데이터 엔지니어가 데이터 파이프라인 어디서나 Databricks, Spark, Airflow, dbt의 문제 작업을 감지하고, 실패하거나 장시간 실행 중인 작업을 더 빠르게 해결하고, 코드·쿼리·과잉 프로비저닝된 컴퓨팅 리소스를 최적화하여 작업 성능을 향상하고 비용을 절감할 수 있도록 지원합니다.

데이터 파이프라인 전반에서 작업 실패 및 지연 스파이크 감지

  • 즉시 사용 가능한 알림으로 작업이 실패하거나 예상 완료 시간을 초과하여 실행 중일 때 팀에 즉시 알림
  • 작업 성능의 추세 및 이상 현상을 시각화하여 데이터 플랫폼의 안정성과 예상 비용을 신속하게 분석
  • 권장 필터를 사용하여 실패, 지연, 비용 급증 등 작업 및 클러스터 상태에 영향을 미치는 중요한 문제를 우선순위에 따라 처리
데이터 파이프라인 전반에서 작업 실패 및 지연 스파이크 감지
데이터 파이프라인 전반에서 작업 실패 및 지연 스파이크 감지

실패하거나 장시간 실행 중인 작업을 더 빠르게 파악하고 해결

  • 작업의 자세한 트레이스 뷰에서 전체 실행 흐름(작업, 스테이지, 태스크)과 실패 위치를 확인하여 완전한 트러블슈팅 컨텍스트 제공
  • 데이터 스큐, 디스크 스필 등 일반적인 요인으로 영향받을 수 있는 비효율적인 Spark 스테이지나 SQL 쿼리를 식별하여 느린 작업의 근본 원인 파악
  • 작업의 최근 실행을 비교하여 실행 시간, Spark 성능 메트릭, 클러스터 활용도, 구성의 추세 및 변화를 파악하여 근본 원인 분석 가속화
실패하거나 장시간 실행 중인 작업을 더 빠르게 파악하고 해결
실패하거나 장시간 실행 중인 작업을 더 빠르게 파악하고 해결

잘못 할당된 클러스터와 비효율적인 작업을 최적화하여 비용 절감

  • 과잉 프로비저닝된 클러스터를 식별하고 작업자 노드 수와 인스턴스 유형을 변경하여 컴퓨팅 비용 절감
  • Spark 실행 메트릭을 사용하여 코드 또는 구성의 개선 사항을 파악함으로써 애플리케이션 수준에서 작업 실행 효율성 향상
  • 가장 큰 작업의 유휴 컴퓨팅과 시간 경과에 따른 클러스터 활용도를 다양한 데이터 팀이나 환경별로 세분화하여 최대 절감 기회 파악
잘못 할당된 클러스터와 비효율적인 작업을 최적화하여 비용 절감
잘못 할당된 클러스터와 비효율적인 작업을 최적화하여 비용 절감

나머지 클라우드 인프라스트럭처와 함께 데이터 파이프라인 가시성 통합

  • 통합 대시보드에서 전체 데이터 파이프라인 가시성을 확보하고, 작업 원격 분석과 함께 Snowflake 및 Airflow 등 주요 기술의 데이터 스토리지, 웨어하우스, 오케스트레이터 메트릭 확인
  • 인프라스트럭처 메트릭, Spark 메트릭, 로그, 구성 등 주요 데이터 파이프라인 메트릭 간에 원활하게 전환하여 작업 실패나 지연 스파이크에 영향을 미친 요인 파악
  • 데이터 파이프라인 문제에 대한 알림을 올바른 팀에 라우팅하는 유연한 태깅으로 인시던트 대응 및 디버깅 가속화
나머지 클라우드 인프라스트럭처와 함께 데이터 파이프라인 가시성 통합
나머지 클라우드 인프라스트럭처와 함께 데이터 파이프라인 가시성 통합

지원 기술 및 플랫폼

Databricks logo
Spark logo
Amazon EMR logo
Kubernetes logo
Airflow logo
dbt logo

다음 단계

지금 바로 Datadog 전제품을 14일 무료 체험으로 시작해 보세요