LoRA (Low-Rank Adaptation)
Categoria
Modelos e Arquiteturas
LoRA e uma tecnica eficiente de fine-tuning que treina apenas matrizes de baixo rank adicionadas as camadas do modelo, reduzindo drasticamente o custo computacional e a memoria necessaria.
Categoria
Modelos e Arquiteturas
O que e LoRA?
LoRA (Low-Rank Adaptation) e uma tecnica de fine-tuning eficiente que congela os pesos originais do modelo e adiciona pequenas matrizes de baixo rank treinaveis. Em vez de atualizar bilhoes de parametros, treina apenas milhoes, reduzindo custos em 10-100x.
Como Funciona
- Congela os pesos originais do modelo
- Adiciona matrizes A (down-projection) e B (up-projection) de baixo rank
- Treina apenas A e B (tipicamente rank 8-64)
- Na inferencia, mescla LoRA com pesos originais sem overhead
Vantagens
- Memoria: reduz uso de VRAM dramaticamente
- Velocidade: treinamento muito mais rapido
- Modularidade: multiplos LoRAs podem ser combinados ou trocados
- Armazenamento: adapters de apenas MBs vs GBs do modelo completo
Na Trilion, LoRA e a tecnica padrao para fine-tuning eficiente de LLMs, permitindo customizacao rapida e economica para diferentes projetos.
