LoRA

Categoria
Termos Tecnicos Avancados
LoRA (Low-Rank Adaptation) é a técnica de fine-tuning mais popular para LLMs que adiciona matrizes de baixo rank treinaveis as camadas de aténção. Reduz parametros treinaveis em 99% comparado a fine-tuning completo, mantendo qualidade de adaptação similar.
Categoria
Termos Tecnicos Avancados
Compartilhar
LinkedInWhatsApp

O que é LoRA (Low-Rank Adaptation)

LoRA é uma técnica de parameter-efficient fine-tuning que congela os pesos originais do modelo é injeta pares de matrizes de baixo rank (A é B) nas camadas de aténção, treinando apenas esses parametros adicionais.

Como funciona:

  • Para cada camada de peso W, adiciona decomposicao de baixo rank: W BA
  • A é B sao matrizes com rank r muito menor que a dimensão original
  • Tipicamente r = 8 a 64 (vs dimensoes de milhares)
  • Apenas A é B sao treinaveis, W permanece congelado

Vantagens:

  • Treina ~0.1-1% dos parametros totais
  • Multiplos LoRA adapters podem ser trocados em tempo de execução
  • Pode ser fundido nos pesos originais para zero overhead
  • QLoRA combina com quantizacao para treinar em GPUs consumer

A Trilion útiliza LoRA como técnica padrão de fine-tuning para customizar modelos de linguagem para clientes, oferecendo especialização de alta qualidade com custos de treinamento drasticamente reduzidos.

Glossário...

Acreditamos que a alquimia de Retórica, Criatividade e variadas Habilidades humanas criam resultados incríveis.