LoRA
Categoria
Termos Tecnicos Avancados
LoRA (Low-Rank Adaptation) e a tecnica de fine-tuning mais popular para LLMs que adiciona matrizes de baixo rank treinaveis as camadas de atencao. Reduz parametros treinaveis em 99% comparado a fine-tuning completo, mantendo qualidade de adaptacao similar.
Categoria
Termos Tecnicos Avancados
O que e LoRA (Low-Rank Adaptation)
LoRA e uma tecnica de parameter-efficient fine-tuning que congela os pesos originais do modelo e injeta pares de matrizes de baixo rank (A e B) nas camadas de atencao, treinando apenas esses parametros adicionais.
Como funciona:
- Para cada camada de peso W, adiciona decomposicao de baixo rank: W BA
- A e B sao matrizes com rank r muito menor que a dimensao original
- Tipicamente r = 8 a 64 (vs dimensoes de milhares)
- Apenas A e B sao treinaveis, W permanece congelado
Vantagens:
- Treina ~0.1-1% dos parametros totais
- Multiplos LoRA adapters podem ser trocados em tempo de execucao
- Pode ser fundido nos pesos originais para zero overhead
- QLoRA combina com quantizacao para treinar em GPUs consumer
A Trilion utiliza LoRA como tecnica padrao de fine-tuning para customizar modelos de linguagem para clientes, oferecendo especializacao de alta qualidade com custos de treinamento drasticamente reduzidos.
