Da observabilidade à experiência: construindo serviços digitais centrados no cliente
O Itaú Unibanco atua em 18 países e atende mais de 70 milhões de clientes com um vasto portfólio de produtos e serviços. Com mais de um século de trajetória e décadas de legado tecnológico acumulado, o banco opera em um ambiente de alta complexidade, que envolve milhares de aplicações e mais de 90 mil colaboradores — 17 mil deles dedicados à tecnologia.
Para sustentar sua evolução e ganhar escala com eficiência, o Itaú conduz um amplo processo de modernização de sua plataforma tecnológica, com o objetivo de migrar integralmente sua infraestrutura para a nuvem até 2028.
Essa jornada transforma profundamente como o banco desenvolve, opera e observa seus sistemas, estabelecendo fundações mais resilientes, integradas e preparadas para evolução contínua. Em um cenário de digitalização crescente dos serviços financeiros, essa modernização se torna essencial. Hoje, 97% das interações de pessoas físicas com o Itaú acontecem por meio de canais digitais, e sustentar essa escala exige uma operação de alta disponibilidade, com respostas em tempo real e confiabilidade contínua.
Nesse contexto, a modernização da plataforma de observabilidade tornou-se estratégica para que o banco possa endereçar os desafios de escala, velocidade e disponibilidade, sustentando operações eficientes e possibilitando a entrega de serviços digitais centrados no cliente.
Oportunidade: gerenciar escala, velocidade e múltiplos sinais
Com a modernização da plataforma do Itaú, sua complexidade cresceu em todas as camadas do ambiente, impulsionando a operação de milhares de serviços em diferentes provedores de nuvem, ambientes híbridos e on-premises. Esse cenário resultou em um aumento significativo no volume de dados de telemetria gerados.
Antes, o monitoramento de logs e tracing estava distribuído em diferentes ferramentas, exigindo das equipes um esforço adicional para correlacionar sinais durante a análise de incidentes. O crescimento no volume de logs e de alertas trouxe o desafio de filtrar as informações realmente relevantes, especialmente em sistemas críticos.
“Manter uma operação de alta disponibilidade na nossa escala exige que não existam pontos sem visibilidade. Por isso, é essencial mantermos uma plataforma que nos permita entender continuamente o comportamento dos sistemas, o impacto na experiência do cliente e os riscos em tempo real”, afirma Thiago Morais, Superintendente de Tecnologia no Itaú Unibanco.
Para garantir a confiabilidade operacional em grande escala, o Itaú integrou suas ferramentas de monitoramento em uma plataforma única, substituindo sistemas dispersos por uma abordagem integrada, que acompanha velocidade, volume e criticidade dos seus sistemas. Com isso, alertas são direcionados com eficiência para as equipes responsáveis, assegurando uma operação segura e rápida dos sistemas essenciais, o que contribui com a experiência do cliente e com foco na excelência operacional.
Por que Datadog: visibilidade centralizada, análise com inteligência artificial e suporte eficiente à modernização da plataforma
A adoção da Datadog como plataforma integrada de observabilidade proporcionou ao banco uma visão unificada de toda a sua infraestrutura, com aplicações, logs e alertas relacionados à experiência do usuário de forma integrada à AWS, principal provedor de nuvem do banco em seu processo de modernização. Com isso, as equipes passaram a contar com visibilidade imediata sobre recursos como Amazon EC2, AWS Lambda e bancos de dados gerenciados, o que agilizou a configuração e eliminou lacunas de monitoramento em ambientes de produção.
Além disso, em parceria com a Datadog, o Itaú formou um grupo centralizado responsável por definir padrões para ingestão, identificação e tagueamento de dados, promovendo consistência, aprimorando a qualidade dos alertas e assegurando maior previsibilidade nos custos de observabilidade.
Outro diferencial foi a aplicação de inteligência artificial, por meio de recursos como Datadog Watchdog e Ask Bits, que possibilita previsibilidade e agilidade na identificação de impactos. Essas funcionalidades apoiam os engenheiros do Itaú ao facilitar a transição da detecção para a compreensão dos incidentes, destacando de forma automática os sinais mais relevantes para uma atuação ágil e assertiva.
“A padronização permite que as equipes se movam rápido sem perder alinhamento. Esse atributo, aliado às capacidades de IA da Datadog, nos ajuda a reduzir suposições e encurtar o tempo de investigação”, afirma Morais.
Ao unificar a observabilidade na Datadog, o Itaú obteve resultados mensuráveis:
- Otimização da jornada de observabilidade com a descontinuação de 13 ferramentas.
- Antecipação de três horas na detecção de anomalias por meio do Watchdog.
- Redução em 35% do tempo para resolução de problemas.
- Redução em 40% da taxa de incidentes.
- Aumento em 70% da visibilidade para detecção de erros no front-end.
Aprimorando observabilidade com eficiência operacional
Operar serviços bancários em tempo real requer agilidade na investigação e clareza nos alertas, especialmente em ambientes complexos e distribuídos. Para o Itaú, esse desafio foi endereçado com uma plataforma que abandona o monitoramento isolado e permite uma visão operacional integrada, conectando infraestrutura, aplicações, logs e alertas relacionados à experiência do usuário final.
Utilizando a Datadog, as equipes do Itaú conseguem diminuir interferências e tornar mais ágil a análise das causas dos problemas, relacionando com maior clareza as questões identificadas pelos clientes ao desempenho do back-end em serviços importantes. Essa estrutura contribui para um monitoramento mais eficaz e que permite respostas mais rápidas em situações que impactam os clientes.
Com uma operação que inclui serviços de pagamentos em tempo real e canais digitais de alta disponibilidade, uma coleta abrangente de logs é fundamental para garantir conformidade, detectar ameaças e responder a incidentes de forma eficiente. No entanto, com o avanço da modernização, o volume de logs do Itaú chegou a atingir até 8 petabytes mensais, evidenciando a importância do equilíbrio entre escala e controle de custos.
Com esse contexto, o Itaú aprimorou sua gestão de logs ao adotar o Datadog Log Management. Com ele, as equipes conseguem cruzar logs, métricas e traces, facilitando o compartilhamento de contexto entre sistemas e tornando mais rápida a identificação de causas de incidentes. Essa ferramenta é aliada ao Flex Logs, que ajuda a controlar custos de consumo, enquanto mantém a retenção necessária para usos intensivos.
Além disso, o Itaú implementou Observability Pipelines para aprimorar ainda mais o fluxo de logs na plataforma. Os pipelines aplicam amostragem inteligente, preservando registros críticos, eliminando duplicidades de eventos WARN e ERROR e removendo logs de baixo valor, como verificações rotineiras de saúde. Essa abordagem aprimora a qualidade dos alertas, protege dados sensíveis e abre novas possibilidades para uma gestão eficiente de logs em larga escala.
“Na nossa escala, logging com a Datadog é uma decisão estratégica, não apenas técnica”, destaca Morais.
Entre os resultados alcançados, destacam-se:
- Redução de 40% no volume diário de logs após a implementação do Observability Pipelines
- Diminuição de 13,6% nos custos relacionados a logs
Conectando a experiência do frontend ao desempenho do backend
Para entregar uma experiência digital de alta disponibilidade em larga escala, é necessário compreender de forma clara como a experiência do cliente está vinculada ao desempenho do backend. Com a modernização dos sistemas, as equipes do Itaú passaram a monitorar e priorizar situações com base no impacto percebido pelos clientes, assegurando respostas ágeis e eficientes para manter a qualidade da experiência em tempo real.
Para endereçar esse desafio, o Itaú utiliza Datadog Application Performance Monitoring (APM) e Real User Monitoring (RUM) para conectar o comportamento do frontend à execução do backend. O APM oferece rastreamento ponta a ponta entre serviços, facilitando a identificação de latência, erros e dependências, enquanto o RUM monitora as interações dos usuários em jornadas essenciais como login e início de pagamentos.
Com o RUM Without Limits, as equipes capturam todas as sessões e controlam a indexação sem necessidade de alterações de código, focando em usuários, erros ou campanhas específicas, ao mesmo tempo que gerenciam o consumo.
Morais comenta: “Com métricas de frontend, conseguimos identificar prontamente o problema e apoiar as equipes de backend para agirem rapidamente, evitando impactos na experiência do cliente.”
Os benefícios mensuráveis com Datadog APM e RUM incluem:
- Redução no tempo de carregamento em aplicativos como Itaú Shop, marketplace de produtos disponibilizado no app Itaú.
- Redução de 50% no consumo de RUM com o RUM Without Limits, possibilitando escala com controle de custos.
Construindo o futuro com o Itaú Unibanco
Os esforços de modernização do Itaú têm revolucionado a maneira como o banco desenvolve e gerencia suas soluções tecnológicas, proporcionando entregas mais ágeis, maior resiliência e capacidade de manter serviços sempre disponíveis.
Ao adotar a Datadog como plataforma unificada de observabilidade, o Itaú converte grandes volumes de dados de telemetria em insights claros e acionáveis para milhares de serviços, promovendo uma gestão mais eficiente e proativa.
No avanço rumo a uma arquitetura totalmente cloud-native, a Datadog se consolida como a base que sustenta a observabilidade em escala. Essa visibilidade contínua permite ao Itaú operar com confiabilidade e previsibilidade, criando espaço para inovar em produtos e serviços digitais centrados no cliente e entregar experiências fluidas e memoráveis, mesmo diante do crescimento constante dos serviços digitais.
“A Datadog nos dá a observabilidade que precisamos para escalar com segurança e manter a confiança dos clientes”, conclui Morais.