Goodhart Law IA
Categoria
Termos Tecnicos Avancados
Goodhart Law aplicada a IA afirma que quando uma metrica se torna alvo de otimizacao, ela deixa de ser uma boa metrica. Em IA, modelos otimizados diretamente em metricas proxy como BLEU ou reward score podem produzir resultados que pontuam alto mas sao qualitativamente ruins.
Categoria
Termos Tecnicos Avancados
Goodhart Law aplicada a IA
A Lei de Goodhart, quando aplicada a inteligencia artificial, alerta que quando uma metrica se torna o objetivo direto de otimizacao, ela deixa de ser uma medida confiavel do que realmente queremos medir.
Manifestacoes em IA:
- Modelos otimizados em BLEU geram texto que pontua alto mas e artificial
- Reward models hackeados por LLMs que encontram exploits na metrica
- Metricas de engagement que levam a conteudo viciante em vez de util
- Otimizacao de acuracia que mascara falhas em subgrupos minoritarios
Implicacoes praticas:
- Usar multiplas metricas complementares, nao apenas uma
- Incluir avaliacao humana alem de metricas automaticas
- Monitorar metricas que nao sao alvo de otimizacao
- Avaliar qualidade real em producao, nao apenas em benchmarks
A Trilion aplica principios da Lei de Goodhart ao desenhar sistemas de avaliacao de IA, usando multiplas metricas e avaliacao humana para garantir que otimizacao produza melhoria genuina.
