LoRA

Categoria
Termos Tecnicos Avancados
LoRA (Low-Rank Adaptation) e a tecnica de fine-tuning mais popular para LLMs que adiciona matrizes de baixo rank treinaveis as camadas de atencao. Reduz parametros treinaveis em 99% comparado a fine-tuning completo, mantendo qualidade de adaptacao similar.
Categoria
Termos Tecnicos Avancados
Compartilhar
LinkedInWhatsApp

O que e LoRA (Low-Rank Adaptation)

LoRA e uma tecnica de parameter-efficient fine-tuning que congela os pesos originais do modelo e injeta pares de matrizes de baixo rank (A e B) nas camadas de atencao, treinando apenas esses parametros adicionais.

Como funciona:

  • Para cada camada de peso W, adiciona decomposicao de baixo rank: W BA
  • A e B sao matrizes com rank r muito menor que a dimensao original
  • Tipicamente r = 8 a 64 (vs dimensoes de milhares)
  • Apenas A e B sao treinaveis, W permanece congelado

Vantagens:

  • Treina ~0.1-1% dos parametros totais
  • Multiplos LoRA adapters podem ser trocados em tempo de execucao
  • Pode ser fundido nos pesos originais para zero overhead
  • QLoRA combina com quantizacao para treinar em GPUs consumer

A Trilion utiliza LoRA como tecnica padrao de fine-tuning para customizar modelos de linguagem para clientes, oferecendo especializacao de alta qualidade com custos de treinamento drasticamente reduzidos.

Glossário...

Acreditamos que a alquimia de Retórica, Criatividade e variadas Habilidades humanas criam resultados incríveis.