GRPO

Categoria

Termos Tecnicos Avancados

GRPO (Group Relative Policy Optimization) é uma técnica de alinhamento de LLMs que usa comparação de grupos de respostas em vez de reward model individual. Desenvolvida pela DeepSeek, oferece alinhamento eficiente sem modelo de recompensa separado.

Categoria

Termos Tecnicos Avancados

O que é GRPO (Group Relative Policy Optimization)

GRPO é uma técnica de alinhamento de modelos de linguagem desenvolvida pela DeepSeek que otimiza a politica do modelo usando comparacoes relativas entre grupos de respostas, sem necessidade de reward model externo.

Como funciona:

Gera multiplas respostas para cada prompt
Rankeia respostas dentro do grupo usando heuristica ou preferências
Calcula recompensa relativa (não absoluta) dentro do grupo
Otimiza politica para favorecer respostas melhor rankeadas

Vantagens:

Elimina necessidade de reward model separado
Mais eficiente computacionalmente que RLHF PPO
Alinhamento relativo é mais robusto que absoluto
Usado com sucesso em DeepSeek-R1 é variantes

A Trilion acompanha avanços em técnicas como GRPO para oferecer aos clientes as abordagens mais eficientes é modernas de alinhamento de modelos de linguagem.

GRPO

O que é GRPO (Group Relative Policy Optimization)

Termos relacionados

Glossário...