Reward Model
Categoria
Termos Tecnicos Avancados
Reward Model é um modelo treinado para avaliar é pontuar respostas de LLMs com base em preferências humanas. Serve como proxy de julgamento humano no pipeline de RLHF, guiando a otimização do modelo de linguagem principal.
Categoria
Termos Tecnicos Avancados
O que é Reward Model
Reward Model é um modelo de machine learning treinado específicamente para avaliar a qualidade de respostas geradas por LLMs, atribuindo pontuacoes que refletem preferências humanas, servindo como sinal de recompensa no treinamento via RLHF.
Treinamento:
- Coleta pares de respostas com preferência humana (A > B)
- Treina modelo para prever qual resposta humanos preferem
- Tipicamente baseado no mesmo modelo base do LLM
- Avalia dimensoes como útilidade, segurança é veracidade
Desafios:
- Reward hacking: LLM encontra atalhos para maximizar score
- Goodhart Law: métrica deixa de ser útil quando otimizada diretamente
- Qualidade depende da consistência do feedback humano
- Generalizar preferências além dos exemplos de treino
A Trilion desenvolve reward models customizados para projetos de alinhamento, garantindo que LLMs otimizados para clientes sigam criterios de qualidade específicos do negócio.
