Itaú Unibanco moderniza sua plataforma de observabilidade com Datadog | Datadog
Itaú Unibanco moderniza sua plataforma de observabilidade com Datadog

Estudo de caso

Itaú Unibanco moderniza sua plataforma de observabilidade com Datadog

Sobre o Itaú Unibanco

Com 101 anos de história, o Itaú Unibanco é o maior banco da América Latina. Com mais de 70 milhões de clientes, entre pessoas físicas e empresas de todos os portes, o banco oferece um vasto portfólio de produtos e serviços financeiros que alcançam clientes em 18 países.

Serviços Financeiros
90.000+ Funcionários
São Paulo, Brasil
“A modernização da plataforma de observabilidade com a Datadog foi essencial para tornarmos a prática mais eficiente, simplificar o trabalho da equipe de engenharia e garantir a sustentabilidade da operação em sistemas críticos.”
case-studies/itau-unibanco/headshot-thiago-morais
“A modernização da plataforma de observabilidade com a Datadog foi essencial para tornarmos a prática mais eficiente, simplificar o trabalho da equipe de engenharia e garantir a sustentabilidade da operação em sistemas críticos.”
Thiago Morais Diretor Associado Itaú Unibanco

Por que Datadog?

  • Centraliza logs, métricas, rastreamentos e a experiência do usuário em uma única plataforma integrada.
  • Permite visibilidade completa entre nuvem e ambientes locais (on-premises).
  • Oferece SLIs e SLOs de negócio conectados às jornadas financeiras dos clientes.
  • Fornece escala de telemetria em petabytes com controle de governança, segurança e custos.
  • Atua na detecção e resposta de forma rápida com insights de IA.

Challenge

O Itaú vive um amplo processo de modernização de sua plataforma tecnológica, que inclui a migração integral para a nuvem até 2028. Esse movimento visa atender à crescente demanda por alta disponibilidade, desempenho e resiliência nos serviços digitais, acompanhando a evolução das jornadas financeiras e as expectativas cada vez mais elevadas dos clientes. Nesse contexto, o banco também evoluiu a estratégia de observabilidade ao integrar processos que antes funcionavam de forma isolada. Essa transformação aumentou a confiabilidade, a previsibilidade e a eficiência da operação em escala e, ao mesmo tempo, criou as fundações para que produtos e serviços digitais fossem desenhados e operados com ainda mais foco nas necessidades do cliente.

Principais resultados

100%

de cobertura de observabilidade no ambiente cloud

35%

de redução no tempo de resolução de problemas

40%

de redução na taxa de incidentes

Da observabilidade à experiência: construindo serviços digitais centrados no cliente

O Itaú Unibanco atua em 18 países e atende mais de 70 milhões de clientes com um vasto portfólio de produtos e serviços. Com mais de um século de trajetória e décadas de legado tecnológico acumulado, o banco opera em um ambiente de alta complexidade, que envolve milhares de aplicações e mais de 90 mil colaboradores — 17 mil deles dedicados à tecnologia.

Para sustentar sua evolução e ganhar escala com eficiência, o Itaú conduz um amplo processo de modernização de sua plataforma tecnológica, com o objetivo de migrar integralmente sua infraestrutura para a nuvem até 2028.

Essa jornada transforma profundamente como o banco desenvolve, opera e observa seus sistemas, estabelecendo fundações mais resilientes, integradas e preparadas para evolução contínua. Em um cenário de digitalização crescente dos serviços financeiros, essa modernização se torna essencial. Hoje, 97% das interações de pessoas físicas com o Itaú acontecem por meio de canais digitais, e sustentar essa escala exige uma operação de alta disponibilidade, com respostas em tempo real e confiabilidade contínua.

Nesse contexto, a modernização da plataforma de observabilidade tornou-se estratégica para que o banco possa endereçar os desafios de escala, velocidade e disponibilidade, sustentando operações eficientes e possibilitando a entrega de serviços digitais centrados no cliente.

Equipe do Itaú Unibanco

Oportunidade: gerenciar escala, velocidade e múltiplos sinais

Com a modernização da plataforma do Itaú, sua complexidade cresceu em todas as camadas do ambiente, impulsionando a operação de milhares de serviços em diferentes provedores de nuvem, ambientes híbridos e on-premises. Esse cenário resultou em um aumento significativo no volume de dados de telemetria gerados.

Antes, o monitoramento de logs e tracing estava distribuído em diferentes ferramentas, exigindo das equipes um esforço adicional para correlacionar sinais durante a análise de incidentes. O crescimento no volume de logs e de alertas trouxe o desafio de filtrar as informações realmente relevantes, especialmente em sistemas críticos.

“Manter uma operação de alta disponibilidade na nossa escala exige que não existam pontos sem visibilidade. Por isso, é essencial mantermos uma plataforma que nos permita entender continuamente o comportamento dos sistemas, o impacto na experiência do cliente e os riscos em tempo real”, afirma Thiago Morais, Superintendente de Tecnologia no Itaú Unibanco.

Para garantir a confiabilidade operacional em grande escala, o Itaú integrou suas ferramentas de monitoramento em uma plataforma única, substituindo sistemas dispersos por uma abordagem integrada, que acompanha velocidade, volume e criticidade dos seus sistemas. Com isso, alertas são direcionados com eficiência para as equipes responsáveis, assegurando uma operação segura e rápida dos sistemas essenciais, o que contribui com a experiência do cliente e com foco na excelência operacional.

Por que Datadog: visibilidade centralizada, análise com inteligência artificial e suporte eficiente à modernização da plataforma

A adoção da Datadog como plataforma integrada de observabilidade proporcionou ao banco uma visão unificada de toda a sua infraestrutura, com aplicações, logs e alertas relacionados à experiência do usuário de forma integrada à AWS, principal provedor de nuvem do banco em seu processo de modernização. Com isso, as equipes passaram a contar com visibilidade imediata sobre recursos como Amazon EC2, AWS Lambda e bancos de dados gerenciados, o que agilizou a configuração e eliminou lacunas de monitoramento em ambientes de produção.

Além disso, em parceria com a Datadog, o Itaú formou um grupo centralizado responsável por definir padrões para ingestão, identificação e tagueamento de dados, promovendo consistência, aprimorando a qualidade dos alertas e assegurando maior previsibilidade nos custos de observabilidade.

Outro diferencial foi a aplicação de inteligência artificial, por meio de recursos como Datadog Watchdog e Ask Bits, que possibilita previsibilidade e agilidade na identificação de impactos. Essas funcionalidades apoiam os engenheiros do Itaú ao facilitar a transição da detecção para a compreensão dos incidentes, destacando de forma automática os sinais mais relevantes para uma atuação ágil e assertiva.

“A padronização permite que as equipes se movam rápido sem perder alinhamento. Esse atributo, aliado às capacidades de IA da Datadog, nos ajuda a reduzir suposições e encurtar o tempo de investigação”, afirma Morais.

Ao unificar a observabilidade na Datadog, o Itaú obteve resultados mensuráveis:

Aprimorando observabilidade com eficiência operacional

Operar serviços bancários em tempo real requer agilidade na investigação e clareza nos alertas, especialmente em ambientes complexos e distribuídos. Para o Itaú, esse desafio foi endereçado com uma plataforma que abandona o monitoramento isolado e permite uma visão operacional integrada, conectando infraestrutura, aplicações, logs e alertas relacionados à experiência do usuário final.

Utilizando a Datadog, as equipes do Itaú conseguem diminuir interferências e tornar mais ágil a análise das causas dos problemas, relacionando com maior clareza as questões identificadas pelos clientes ao desempenho do back-end em serviços importantes. Essa estrutura contribui para um monitoramento mais eficaz e que permite respostas mais rápidas em situações que impactam os clientes.

Com uma operação que inclui serviços de pagamentos em tempo real e canais digitais de alta disponibilidade, uma coleta abrangente de logs é fundamental para garantir conformidade, detectar ameaças e responder a incidentes de forma eficiente. No entanto, com o avanço da modernização, o volume de logs do Itaú chegou a atingir até 8 petabytes mensais, evidenciando a importância do equilíbrio entre escala e controle de custos.

Com esse contexto, o Itaú aprimorou sua gestão de logs ao adotar o Datadog Log Management. Com ele, as equipes conseguem cruzar logs, métricas e traces, facilitando o compartilhamento de contexto entre sistemas e tornando mais rápida a identificação de causas de incidentes. Essa ferramenta é aliada ao Flex Logs, que ajuda a controlar custos de consumo, enquanto mantém a retenção necessária para usos intensivos.

Além disso, o Itaú implementou Observability Pipelines para aprimorar ainda mais o fluxo de logs na plataforma. Os pipelines aplicam amostragem inteligente, preservando registros críticos, eliminando duplicidades de eventos WARN e ERROR e removendo logs de baixo valor, como verificações rotineiras de saúde. Essa abordagem aprimora a qualidade dos alertas, protege dados sensíveis e abre novas possibilidades para uma gestão eficiente de logs em larga escala.

“Na nossa escala, logging com a Datadog é uma decisão estratégica, não apenas técnica”, destaca Morais.

Entre os resultados alcançados, destacam-se:

Conectando a experiência do frontend ao desempenho do backend

Para entregar uma experiência digital de alta disponibilidade em larga escala, é necessário compreender de forma clara como a experiência do cliente está vinculada ao desempenho do backend. Com a modernização dos sistemas, as equipes do Itaú passaram a monitorar e priorizar situações com base no impacto percebido pelos clientes, assegurando respostas ágeis e eficientes para manter a qualidade da experiência em tempo real.

Para endereçar esse desafio, o Itaú utiliza Datadog Application Performance Monitoring (APM) e Real User Monitoring (RUM) para conectar o comportamento do frontend à execução do backend. O APM oferece rastreamento ponta a ponta entre serviços, facilitando a identificação de latência, erros e dependências, enquanto o RUM monitora as interações dos usuários em jornadas essenciais como login e início de pagamentos.

Com o RUM Without Limits, as equipes capturam todas as sessões e controlam a indexação sem necessidade de alterações de código, focando em usuários, erros ou campanhas específicas, ao mesmo tempo que gerenciam o consumo.

Morais comenta: “Com métricas de frontend, conseguimos identificar prontamente o problema e apoiar as equipes de backend para agirem rapidamente, evitando impactos na experiência do cliente.”

Os benefícios mensuráveis com Datadog APM e RUM incluem:

Construindo o futuro com o Itaú Unibanco

Os esforços de modernização do Itaú têm revolucionado a maneira como o banco desenvolve e gerencia suas soluções tecnológicas, proporcionando entregas mais ágeis, maior resiliência e capacidade de manter serviços sempre disponíveis.

Ao adotar a Datadog como plataforma unificada de observabilidade, o Itaú converte grandes volumes de dados de telemetria em insights claros e acionáveis para milhares de serviços, promovendo uma gestão mais eficiente e proativa.

No avanço rumo a uma arquitetura totalmente cloud-native, a Datadog se consolida como a base que sustenta a observabilidade em escala. Essa visibilidade contínua permite ao Itaú operar com confiabilidade e previsibilidade, criando espaço para inovar em produtos e serviços digitais centrados no cliente e entregar experiências fluidas e memoráveis, mesmo diante do crescimento constante dos serviços digitais.

“A Datadog nos dá a observabilidade que precisamos para escalar com segurança e manter a confiança dos clientes”, conclui Morais.