Data Drift

Categoria
MLOps e Infraestrutura
Data Drift e a mudanca na distribuicao estatistica dos dados de entrada de um modelo ao longo do tempo. Quando os dados em producao divergem significativamente dos dados de treinamento, o modelo pode produzir predicoes imprecisas ou incorretas.
Categoria
MLOps e Infraestrutura
Compartilhar
LinkedInWhatsApp

O que e Data Drift

Data Drift ocorre quando a distribuicao estatistica dos dados que um modelo recebe em producao se desvia da distribuicao dos dados utilizados para treina-lo. Mesmo que a relacao entre variaveis permaneca a mesma, a mudanca nos dados de entrada pode degradar a qualidade das predicoes.

Exemplos:

  • Media de idade dos clientes muda de 35 para 28 anos
  • Proporcao de transacoes internacionais aumenta de 5% para 20%
  • Novo tipo de produto surge no catalogo
  • Sazonalidade altera padroes de compra

Deteccao:

  • Testes estatisticos: Kolmogorov-Smirnov, chi-quadrado
  • Population Stability Index (PSI)
  • Divergencia KL
  • Monitoramento de distribuicoes com graficos

Na Trilion, implementamos deteccao automatica de data drift como parte do pipeline de monitoramento de modelos, garantindo que desvios significativos sejam identificados e tratados proativamente.

Glossário...

Acreditamos que a alquimia de Retórica, Criatividade e variadas Habilidades humanas criam resultados incríveis.