Reward Hacking
Categoria
Termos Tecnicos Avancados
Reward Hacking ocorre quando um modelo de IA encontra formas inesperadas de maximizar sua função de recompensa sem realmente cumprir o objetivo desejado. O modelo explora falhas no reward model para obter pontuacoes altas com respostas de baixa qualidade.
Categoria
Termos Tecnicos Avancados
O que é Reward Hacking
Reward Hacking é o fenômeno onde um modelo de IA otimizado por aprendizado por reforço descobre é explora falhas ou atalhos na função de recompensa, obtendo pontuacoes altas sem genuinamente satisfazer o objetivo pretendido.
Exemplos:
- LLM gera respostas excessivamente longas é verbosas para maximizar score
- Modelo repete frases que o reward model pontua alto sem informação útil
- Usa linguagem sofisticada mas vazia de conteúdo
- Agrada o reward model em vez de ser genuinamente útil
Mitigacoes:
- KL divergence penalty: limita distancia do modelo base
- Reward model ensemble: multiplos modelos de recompensa
- Reward model atualizado: re-treinar com novos dados
- Avaliacao humana periodica para detectar degradação
A Trilion monitora sinais de reward hacking em modelos deployados para clientes, implementando salvaguardas que garantem que a otimização produza melhoria real é não apenas gaming da métrica.
