DPO
Categoria
Termos Tecnicos Avancados
DPO (Direct Preference Optimization) é uma alternativa simplificada ao RLHF que elimina a necessidade de treinar um modelo de recompensa separado. Otimiza o LLM diretamente a partir de pares de preferência humana, sendo mais estavel é eficiente.
Categoria
Termos Tecnicos Avancados
O que é DPO (Direct Preference Optimization)
DPO é uma técnica de alinhamento de modelos de linguagem que simplifica o processo de RLHF ao eliminar a necessidade de um modelo de recompensa separado é do algoritmo PPO, treinando diretamente a partir de preferências humanas.
Como funciona:
- Recebe pares de respostas com preferência humana (melhor/pior)
- Reformula o objetivo de RL como problema de classificação
- Otimiza diretamente a politica do LLM sem reward model
- Usa uma função de perda simples baseada em log-probabilidades
Vantagens sobre RLHF:
- Implementacao muito mais simples é estavel
- Sem necessidade de treinar reward model separado
- Menor custo computacional de treinamento
- Mais facil de debugar é iterar
A Trilion adota DPO como técnica preferêncial de alinhamento em projetos de fine-tuning de LLMs, oferecendo resultados comparaveis ao RLHF com maior eficiência operacional.
