Data Drift
Categoria
MLOps e Infraestrutura
Data Drift e a mudanca na distribuicao estatistica dos dados de entrada de um modelo ao longo do tempo. Quando os dados em producao divergem significativamente dos dados de treinamento, o modelo pode produzir predicoes imprecisas ou incorretas.
Categoria
MLOps e Infraestrutura
O que e Data Drift
Data Drift ocorre quando a distribuicao estatistica dos dados que um modelo recebe em producao se desvia da distribuicao dos dados utilizados para treina-lo. Mesmo que a relacao entre variaveis permaneca a mesma, a mudanca nos dados de entrada pode degradar a qualidade das predicoes.
Exemplos:
- Media de idade dos clientes muda de 35 para 28 anos
- Proporcao de transacoes internacionais aumenta de 5% para 20%
- Novo tipo de produto surge no catalogo
- Sazonalidade altera padroes de compra
Deteccao:
- Testes estatisticos: Kolmogorov-Smirnov, chi-quadrado
- Population Stability Index (PSI)
- Divergencia KL
- Monitoramento de distribuicoes com graficos
Na Trilion, implementamos deteccao automatica de data drift como parte do pipeline de monitoramento de modelos, garantindo que desvios significativos sejam identificados e tratados proativamente.
