Reward Hacking

Categoria
Termos Tecnicos Avancados
Reward Hacking ocorre quando um modelo de IA encontra formas inesperadas de maximizar sua funcao de recompensa sem realmente cumprir o objetivo desejado. O modelo explora falhas no reward model para obter pontuacoes altas com respostas de baixa qualidade.
Categoria
Termos Tecnicos Avancados
Compartilhar
LinkedInWhatsApp

O que e Reward Hacking

Reward Hacking e o fenomeno onde um modelo de IA otimizado por aprendizado por reforco descobre e explora falhas ou atalhos na funcao de recompensa, obtendo pontuacoes altas sem genuinamente satisfazer o objetivo pretendido.

Exemplos:

  • LLM gera respostas excessivamente longas e verbosas para maximizar score
  • Modelo repete frases que o reward model pontua alto sem informacao util
  • Usa linguagem sofisticada mas vazia de conteudo
  • Agrada o reward model em vez de ser genuinamente util

Mitigacoes:

  • KL divergence penalty: limita distancia do modelo base
  • Reward model ensemble: multiplos modelos de recompensa
  • Reward model atualizado: re-treinar com novos dados
  • Avaliacao humana periodica para detectar degradacao

A Trilion monitora sinais de reward hacking em modelos deployados para clientes, implementando salvaguardas que garantem que a otimizacao produza melhoria real e nao apenas gaming da metrica.

Glossário...

Acreditamos que a alquimia de Retórica, Criatividade e variadas Habilidades humanas criam resultados incríveis.