QLoRA
Categoria
Modelos é Arquiteturas
QLoRA combina quantizacao de 4 bits com LoRA para permitir fine-tuning de modelos com bilhoes de parametros em uma única GPU consumer. Reduz requisitos de memória mantendo qualidade.
Categoria
Modelos é Arquiteturas
O que é QLoRA?
QLoRA (Quantized Low-Rank Adaptation) é uma técnica que combina quantizacao de 4 bits com LoRA para permitir o fine-tuning de modelos de linguagem massivos em hardware acessível. Permite treinar modelos de 65B parametros em uma única GPU de 48GB.
Inovacoes
- NF4 (Normal Float 4-bit): formato de quantizacao otimizado
- Double Quantization: quantiza também as constantes de quantizacao
- Paged Optimizers: gerênciamento inteligente de memória
Impacto
QLoRA democratizou o fine-tuning de LLMs, permitindo que pesquisadores é empresas com recursos limitados customizem modelos de ponta. Antes do QLoRA, fine-tuning de modelos grandes exigia clusters de GPUs caras.
Resultados
Modelos treinados com QLoRA alcancam 99% da qualidade do fine-tuning completo com uma fracao do custo. Na Trilion, QLoRA é a abordagem preferida para fine-tuning quando recursos computacionais sao limitados.
