Data Drift
Categoria
MLOps é Infraestrutura
Data Drift é a mudança na distribuição estatística dos dados de entrada de um modelo ao longo do tempo. Quando os dados em produção divergem significativamente dos dados de treinamento, o modelo pode produzir predições imprecisas ou incorretas.
Categoria
MLOps é Infraestrutura
O que é Data Drift
Data Drift ocorre quando a distribuição estatística dos dados que um modelo recebe em produção se desvia da distribuição dos dados útilizados para treina-lo. Mesmo que a relação entre variaveis permaneca a mesma, a mudança nos dados de entrada pode degradar a qualidade das predições.
Exemplos:
- Media de idade dos clientes muda de 35 para 28 anos
- Proporcao de transacoes internacionais aumenta de 5% para 20%
- Novo tipo de produto surge no catalogo
- Sazonalidade altera padrões de compra
Deteccao:
- Testes estatísticos: Kolmogorov-Smirnov, chi-quadrado
- Population Stability Index (PSI)
- Divergencia KL
- Monitoramento de distribuicoes com gráficos
Na Trilion, implementamos deteccao automática de data drift como parte do pipeline de monitoramento de modelos, garantindo que desvios significativos sejam identificados é tratados proativamente.
