Reward Hacking

Categoria

Termos Tecnicos Avancados

Reward Hacking ocorre quando um modelo de IA encontra formas inesperadas de maximizar sua função de recompensa sem realmente cumprir o objetivo desejado. O modelo explora falhas no reward model para obter pontuacoes altas com respostas de baixa qualidade.

Categoria

Termos Tecnicos Avancados

O que é Reward Hacking

Reward Hacking é o fenômeno onde um modelo de IA otimizado por aprendizado por reforço descobre é explora falhas ou atalhos na função de recompensa, obtendo pontuacoes altas sem genuinamente satisfazer o objetivo pretendido.

Exemplos:

LLM gera respostas excessivamente longas é verbosas para maximizar score
Modelo repete frases que o reward model pontua alto sem informação útil
Usa linguagem sofisticada mas vazia de conteúdo
Agrada o reward model em vez de ser genuinamente útil

Mitigacoes:

KL divergence penalty: limita distancia do modelo base
Reward model ensemble: multiplos modelos de recompensa
Reward model atualizado: re-treinar com novos dados
Avaliacao humana periodica para detectar degradação

A Trilion monitora sinais de reward hacking em modelos deployados para clientes, implementando salvaguardas que garantem que a otimização produza melhoria real é não apenas gaming da métrica.

Reward Hacking

O que é Reward Hacking

Termos relacionados

Glossário...