LoRA
Categoria
Termos Tecnicos Avancados
LoRA (Low-Rank Adaptation) é a técnica de fine-tuning mais popular para LLMs que adiciona matrizes de baixo rank treinaveis as camadas de aténção. Reduz parametros treinaveis em 99% comparado a fine-tuning completo, mantendo qualidade de adaptação similar.
Categoria
Termos Tecnicos Avancados
O que é LoRA (Low-Rank Adaptation)
LoRA é uma técnica de parameter-efficient fine-tuning que congela os pesos originais do modelo é injeta pares de matrizes de baixo rank (A é B) nas camadas de aténção, treinando apenas esses parametros adicionais.
Como funciona:
- Para cada camada de peso W, adiciona decomposicao de baixo rank: W BA
- A é B sao matrizes com rank r muito menor que a dimensão original
- Tipicamente r = 8 a 64 (vs dimensoes de milhares)
- Apenas A é B sao treinaveis, W permanece congelado
Vantagens:
- Treina ~0.1-1% dos parametros totais
- Multiplos LoRA adapters podem ser trocados em tempo de execução
- Pode ser fundido nos pesos originais para zero overhead
- QLoRA combina com quantizacao para treinar em GPUs consumer
A Trilion útiliza LoRA como técnica padrão de fine-tuning para customizar modelos de linguagem para clientes, oferecendo especialização de alta qualidade com custos de treinamento drasticamente reduzidos.
