GRPO
Categoria
Termos Tecnicos Avancados
GRPO (Group Relative Policy Optimization) e uma tecnica de alinhamento de LLMs que usa comparacao de grupos de respostas em vez de reward model individual. Desenvolvida pela DeepSeek, oferece alinhamento eficiente sem modelo de recompensa separado.
Categoria
Termos Tecnicos Avancados
O que e GRPO (Group Relative Policy Optimization)
GRPO e uma tecnica de alinhamento de modelos de linguagem desenvolvida pela DeepSeek que otimiza a politica do modelo usando comparacoes relativas entre grupos de respostas, sem necessidade de reward model externo.
Como funciona:
- Gera multiplas respostas para cada prompt
- Rankeia respostas dentro do grupo usando heuristica ou preferencias
- Calcula recompensa relativa (nao absoluta) dentro do grupo
- Otimiza politica para favorecer respostas melhor rankeadas
Vantagens:
- Elimina necessidade de reward model separado
- Mais eficiente computacionalmente que RLHF PPO
- Alinhamento relativo e mais robusto que absoluto
- Usado com sucesso em DeepSeek-R1 e variantes
A Trilion acompanha avancos em tecnicas como GRPO para oferecer aos clientes as abordagens mais eficientes e modernas de alinhamento de modelos de linguagem.
