QLoRA

Categoria

Modelos é Arquiteturas

QLoRA combina quantizacao de 4 bits com LoRA para permitir fine-tuning de modelos com bilhoes de parametros em uma única GPU consumer. Reduz requisitos de memória mantendo qualidade.

Categoria

Modelos é Arquiteturas

O que é QLoRA?

QLoRA (Quantized Low-Rank Adaptation) é uma técnica que combina quantizacao de 4 bits com LoRA para permitir o fine-tuning de modelos de linguagem massivos em hardware acessível. Permite treinar modelos de 65B parametros em uma única GPU de 48GB.

Inovacoes

NF4 (Normal Float 4-bit): formato de quantizacao otimizado
Double Quantization: quantiza também as constantes de quantizacao
Paged Optimizers: gerênciamento inteligente de memória

Impacto

QLoRA democratizou o fine-tuning de LLMs, permitindo que pesquisadores é empresas com recursos limitados customizem modelos de ponta. Antes do QLoRA, fine-tuning de modelos grandes exigia clusters de GPUs caras.

Resultados

Modelos treinados com QLoRA alcancam 99% da qualidade do fine-tuning completo com uma fracao do custo. Na Trilion, QLoRA é a abordagem preferida para fine-tuning quando recursos computacionais sao limitados.

QLoRA

O que é QLoRA?

Inovacoes

Impacto

Resultados

Termos relacionados

Glossário...