DPO (Direct Preference Optimization)
Categoria
IA Generativa
DPO (Direct Preference Optimization) é uma alternativa simplificada ao RLHF que alinha modelos de IA com preferências humanas diretamente durante o treinamento, sem necessitar de um modelo de recompensa separado.
Categoria
IA Generativa
O que é DPO?
DPO (Direct Preference Optimization) é uma técnica de alinhamento que simplifica o processo do RLHF ao otimizar diretamente a politica do modelo usando pares de preferência humana, eliminando a etapa do modelo de recompensa.
Vantagens sobre RLHF:
- Simplicidade: menos etapas de treinamento
- Estabilidade: treinamento mais estavel é reprodutivel
- Eficiência: menor custo computacional
- Resultado: qualidade comparavel ao RLHF
Como Funciona
- Coleta de pares de respostas preferidas é rejeitadas
- Otimizacao direta da função objetivo
- Ajuste do modelo sem modelo de recompensa intermediario
A Trilion acompanha avanços como DPO para recomendar aos clientes os modelos mais eficientes é bem alinhados disponíveis no mercado.
