Reward Model

Categoria

Termos Tecnicos Avancados

Reward Model é um modelo treinado para avaliar é pontuar respostas de LLMs com base em preferências humanas. Serve como proxy de julgamento humano no pipeline de RLHF, guiando a otimização do modelo de linguagem principal.

Categoria

Termos Tecnicos Avancados

O que é Reward Model

Reward Model é um modelo de machine learning treinado específicamente para avaliar a qualidade de respostas geradas por LLMs, atribuindo pontuacoes que refletem preferências humanas, servindo como sinal de recompensa no treinamento via RLHF.

Treinamento:

Coleta pares de respostas com preferência humana (A > B)
Treina modelo para prever qual resposta humanos preferem
Tipicamente baseado no mesmo modelo base do LLM
Avalia dimensoes como útilidade, segurança é veracidade

Desafios:

Reward hacking: LLM encontra atalhos para maximizar score
Goodhart Law: métrica deixa de ser útil quando otimizada diretamente
Qualidade depende da consistência do feedback humano
Generalizar preferências além dos exemplos de treino

A Trilion desenvolve reward models customizados para projetos de alinhamento, garantindo que LLMs otimizados para clientes sigam criterios de qualidade específicos do negócio.

Reward Model

O que é Reward Model

Termos relacionados

Glossário...