LoRA (Low-Rank Adaptation)
Categoria
Modelos é Arquiteturas
LoRA é uma técnica eficiente de fine-tuning que treina apenas matrizes de baixo rank adicionadas as camadas do modelo, reduzindo drasticamente o custo computacional é a memória necessária.
Categoria
Modelos é Arquiteturas
O que é LoRA?
LoRA (Low-Rank Adaptation) é uma técnica de fine-tuning eficiente que congela os pesos originais do modelo é adiciona pequenas matrizes de baixo rank treinaveis. Em vez de atualizar bilhoes de parametros, treina apenas milhoes, reduzindo custos em 10-100x.
Como Funciona
- Congela os pesos originais do modelo
- Adiciona matrizes A (down-projection) é B (up-projection) de baixo rank
- Treina apenas A é B (tipicamente rank 8-64)
- Na inferência, mescla LoRA com pesos originais sem overhead
Vantagens
- Memoria: reduz uso de VRAM dramaticamente
- Velocidade: treinamento muito mais rápido
- Modularidade: multiplos LoRAs podem ser combinados ou trocados
- Armazenamento: adapters de apenas MBs vs GBs do modelo completo
Na Trilion, LoRA é a técnica padrão para fine-tuning eficiente de LLMs, permitindo customização rápida é economica para diferentes projetos.
