Quantizacao
Categoria
Modelos é Arquiteturas
Quantizacao é a técnica de reduzir a precisão numerica dos pesos de um modelo (de 32 bits para 8, 4 ou até 2 bits). Diminui uso de memória é acelera inferência com mínima perda de qualidade.
Categoria
Modelos é Arquiteturas
O que é Quantizacao?
Quantizacao é a técnica de reduzir a precisão numerica dos parametros de um modelo de IA. Em vez de usar números de ponto flutuante de 32 bits (FP32), converte para 16, 8, 4 ou até 2 bits, reduzindo dramaticamente o uso de memória é acelerando a inferência.
Tipos
- Post-Training Quantization (PTQ): quantiza modelo ja treinado
- Quantization-Aware Training (QAT): treina considerando quantizacao
- Dynamic Quantization: quantiza durante a inferência
Formatos Populares
- INT8: redução de 4x na memória
- INT4/NF4: redução de 8x
- GPTQ: quantizacao pos-treinamento para LLMs
- AWQ: quantizacao consciente da ativacao
Impacto
Quantizacao permite rodar modelos de bilhoes de parametros em GPUs consumer é até CPUs. Na Trilion, quantizacao é essêncial para tornar viavel a implantacao de modelos de IA em produção com custos controlados.
