LoRA

Categoria

Termos Tecnicos Avancados

LoRA (Low-Rank Adaptation) é a técnica de fine-tuning mais popular para LLMs que adiciona matrizes de baixo rank treinaveis as camadas de aténção. Reduz parametros treinaveis em 99% comparado a fine-tuning completo, mantendo qualidade de adaptação similar.

Categoria

Termos Tecnicos Avancados

O que é LoRA (Low-Rank Adaptation)

LoRA é uma técnica de parameter-efficient fine-tuning que congela os pesos originais do modelo é injeta pares de matrizes de baixo rank (A é B) nas camadas de aténção, treinando apenas esses parametros adicionais.

Como funciona:

Para cada camada de peso W, adiciona decomposicao de baixo rank: W BA
A é B sao matrizes com rank r muito menor que a dimensão original
Tipicamente r = 8 a 64 (vs dimensoes de milhares)
Apenas A é B sao treinaveis, W permanece congelado

Vantagens:

Treina ~0.1-1% dos parametros totais
Multiplos LoRA adapters podem ser trocados em tempo de execução
Pode ser fundido nos pesos originais para zero overhead
QLoRA combina com quantizacao para treinar em GPUs consumer

A Trilion útiliza LoRA como técnica padrão de fine-tuning para customizar modelos de linguagem para clientes, oferecendo especialização de alta qualidade com custos de treinamento drasticamente reduzidos.

LoRA

O que é LoRA (Low-Rank Adaptation)

Termos relacionados

Glossário...