Reward Model

Categoria
Termos Tecnicos Avancados
Reward Model é um modelo treinado para avaliar é pontuar respostas de LLMs com base em preferências humanas. Serve como proxy de julgamento humano no pipeline de RLHF, guiando a otimização do modelo de linguagem principal.
Categoria
Termos Tecnicos Avancados
Compartilhar
LinkedInWhatsApp

O que é Reward Model

Reward Model é um modelo de machine learning treinado específicamente para avaliar a qualidade de respostas geradas por LLMs, atribuindo pontuacoes que refletem preferências humanas, servindo como sinal de recompensa no treinamento via RLHF.

Treinamento:

  • Coleta pares de respostas com preferência humana (A > B)
  • Treina modelo para prever qual resposta humanos preferem
  • Tipicamente baseado no mesmo modelo base do LLM
  • Avalia dimensoes como útilidade, segurança é veracidade

Desafios:

  • Reward hacking: LLM encontra atalhos para maximizar score
  • Goodhart Law: métrica deixa de ser útil quando otimizada diretamente
  • Qualidade depende da consistência do feedback humano
  • Generalizar preferências além dos exemplos de treino

A Trilion desenvolve reward models customizados para projetos de alinhamento, garantindo que LLMs otimizados para clientes sigam criterios de qualidade específicos do negócio.

Glossário...

Acreditamos que a alquimia de Retórica, Criatividade e variadas Habilidades humanas criam resultados incríveis.