Reward Model
Categoria
Termos Tecnicos Avancados
Reward Model e um modelo treinado para avaliar e pontuar respostas de LLMs com base em preferencias humanas. Serve como proxy de julgamento humano no pipeline de RLHF, guiando a otimizacao do modelo de linguagem principal.
Categoria
Termos Tecnicos Avancados
O que e Reward Model
Reward Model e um modelo de machine learning treinado especificamente para avaliar a qualidade de respostas geradas por LLMs, atribuindo pontuacoes que refletem preferencias humanas, servindo como sinal de recompensa no treinamento via RLHF.
Treinamento:
- Coleta pares de respostas com preferencia humana (A > B)
- Treina modelo para prever qual resposta humanos preferem
- Tipicamente baseado no mesmo modelo base do LLM
- Avalia dimensoes como utilidade, seguranca e veracidade
Desafios:
- Reward hacking: LLM encontra atalhos para maximizar score
- Goodhart Law: metrica deixa de ser util quando otimizada diretamente
- Qualidade depende da consistencia do feedback humano
- Generalizar preferencias alem dos exemplos de treino
A Trilion desenvolve reward models customizados para projetos de alinhamento, garantindo que LLMs otimizados para clientes sigam criterios de qualidade especificos do negocio.
