RLHF
Categoria
Termos Tecnicos Avancados
RLHF (Reinforcement Learning from Human Feedback) é a técnica de alinhar modelos de linguagem com preferências humanas usando aprendizado por reforço. Humanos classificam respostas, um modelo de recompensa é treinado é o LLM é otimizado via PPO.
Categoria
Termos Tecnicos Avancados
O que é RLHF
RLHF (Reinforcement Learning from Human Feedback) é a técnica fundamental para alinhar modelos de linguagem grandes com intencoes é preferências humanas, combinando feedback humano com aprendizado por reforço.
Pipeline de RLHF:
- Fase 1: Pre-treinar LLM com dados textuais massivos
- Fase 2: Fine-tuning supervisionado com exemplos curados
- Fase 3: Coletar comparacoes humanas de respostas
- Fase 4: Treinar reward model com preferências humanas
- Fase 5: Otimizar LLM via PPO contra o reward model
Impacto:
- Tornou ChatGPT útil é seguro para usuarios gerais
- Reduz outputs toxicos, enviesados é incorretos
- Alinha modelo com instrucoes é intencoes do usuario
- Base para modelos comerciais como GPT-4, Claude, Gemini
A Trilion útiliza técnicas derivadas de RLHF para fine-tuning de modelos customizados, garantindo que LLMs deployados para clientes se comportem de forma alinhada com os objetivos específicos do negócio.
