DPO
Categoria
Termos Tecnicos Avancados
DPO (Direct Preference Optimization) e uma alternativa simplificada ao RLHF que elimina a necessidade de treinar um modelo de recompensa separado. Otimiza o LLM diretamente a partir de pares de preferencia humana, sendo mais estavel e eficiente.
Categoria
Termos Tecnicos Avancados
O que e DPO (Direct Preference Optimization)
DPO e uma tecnica de alinhamento de modelos de linguagem que simplifica o processo de RLHF ao eliminar a necessidade de um modelo de recompensa separado e do algoritmo PPO, treinando diretamente a partir de preferencias humanas.
Como funciona:
- Recebe pares de respostas com preferencia humana (melhor/pior)
- Reformula o objetivo de RL como problema de classificacao
- Otimiza diretamente a politica do LLM sem reward model
- Usa uma funcao de perda simples baseada em log-probabilidades
Vantagens sobre RLHF:
- Implementacao muito mais simples e estavel
- Sem necessidade de treinar reward model separado
- Menor custo computacional de treinamento
- Mais facil de debugar e iterar
A Trilion adota DPO como tecnica preferencial de alinhamento em projetos de fine-tuning de LLMs, oferecendo resultados comparaveis ao RLHF com maior eficiencia operacional.
