RLHF
Categoria
Termos Tecnicos Avancados
RLHF (Reinforcement Learning from Human Feedback) e a tecnica de alinhar modelos de linguagem com preferencias humanas usando aprendizado por reforco. Humanos classificam respostas, um modelo de recompensa e treinado e o LLM e otimizado via PPO.
Categoria
Termos Tecnicos Avancados
O que e RLHF
RLHF (Reinforcement Learning from Human Feedback) e a tecnica fundamental para alinhar modelos de linguagem grandes com intencoes e preferencias humanas, combinando feedback humano com aprendizado por reforco.
Pipeline de RLHF:
- Fase 1: Pre-treinar LLM com dados textuais massivos
- Fase 2: Fine-tuning supervisionado com exemplos curados
- Fase 3: Coletar comparacoes humanas de respostas
- Fase 4: Treinar reward model com preferencias humanas
- Fase 5: Otimizar LLM via PPO contra o reward model
Impacto:
- Tornou ChatGPT util e seguro para usuarios gerais
- Reduz outputs toxicos, enviesados e incorretos
- Alinha modelo com instrucoes e intencoes do usuario
- Base para modelos comerciais como GPT-4, Claude, Gemini
A Trilion utiliza tecnicas derivadas de RLHF para fine-tuning de modelos customizados, garantindo que LLMs deployados para clientes se comportem de forma alinhada com os objetivos especificos do negocio.
