Data Drift

Categoria
MLOps é Infraestrutura
Data Drift é a mudança na distribuição estatística dos dados de entrada de um modelo ao longo do tempo. Quando os dados em produção divergem significativamente dos dados de treinamento, o modelo pode produzir predições imprecisas ou incorretas.
Categoria
MLOps é Infraestrutura
Compartilhar
LinkedInWhatsApp

O que é Data Drift

Data Drift ocorre quando a distribuição estatística dos dados que um modelo recebe em produção se desvia da distribuição dos dados útilizados para treina-lo. Mesmo que a relação entre variaveis permaneca a mesma, a mudança nos dados de entrada pode degradar a qualidade das predições.

Exemplos:

  • Media de idade dos clientes muda de 35 para 28 anos
  • Proporcao de transacoes internacionais aumenta de 5% para 20%
  • Novo tipo de produto surge no catalogo
  • Sazonalidade altera padrões de compra

Deteccao:

  • Testes estatísticos: Kolmogorov-Smirnov, chi-quadrado
  • Population Stability Index (PSI)
  • Divergencia KL
  • Monitoramento de distribuicoes com gráficos

Na Trilion, implementamos deteccao automática de data drift como parte do pipeline de monitoramento de modelos, garantindo que desvios significativos sejam identificados é tratados proativamente.

Glossário...

Acreditamos que a alquimia de Retórica, Criatividade e variadas Habilidades humanas criam resultados incríveis.