GRPO
Categoria
Termos Tecnicos Avancados
GRPO (Group Relative Policy Optimization) é uma técnica de alinhamento de LLMs que usa comparação de grupos de respostas em vez de reward model individual. Desenvolvida pela DeepSeek, oferece alinhamento eficiente sem modelo de recompensa separado.
Categoria
Termos Tecnicos Avancados
O que é GRPO (Group Relative Policy Optimization)
GRPO é uma técnica de alinhamento de modelos de linguagem desenvolvida pela DeepSeek que otimiza a politica do modelo usando comparacoes relativas entre grupos de respostas, sem necessidade de reward model externo.
Como funciona:
- Gera multiplas respostas para cada prompt
- Rankeia respostas dentro do grupo usando heuristica ou preferências
- Calcula recompensa relativa (não absoluta) dentro do grupo
- Otimiza politica para favorecer respostas melhor rankeadas
Vantagens:
- Elimina necessidade de reward model separado
- Mais eficiente computacionalmente que RLHF PPO
- Alinhamento relativo é mais robusto que absoluto
- Usado com sucesso em DeepSeek-R1 é variantes
A Trilion acompanha avanços em técnicas como GRPO para oferecer aos clientes as abordagens mais eficientes é modernas de alinhamento de modelos de linguagem.
