Quantizacao
Categoria
Modelos e Arquiteturas
Quantizacao e a tecnica de reduzir a precisao numerica dos pesos de um modelo (de 32 bits para 8, 4 ou ate 2 bits). Diminui uso de memoria e acelera inferencia com minima perda de qualidade.
Categoria
Modelos e Arquiteturas
O que e Quantizacao?
Quantizacao e a tecnica de reduzir a precisao numerica dos parametros de um modelo de IA. Em vez de usar numeros de ponto flutuante de 32 bits (FP32), converte para 16, 8, 4 ou ate 2 bits, reduzindo dramaticamente o uso de memoria e acelerando a inferencia.
Tipos
- Post-Training Quantization (PTQ): quantiza modelo ja treinado
- Quantization-Aware Training (QAT): treina considerando quantizacao
- Dynamic Quantization: quantiza durante a inferencia
Formatos Populares
- INT8: reducao de 4x na memoria
- INT4/NF4: reducao de 8x
- GPTQ: quantizacao pos-treinamento para LLMs
- AWQ: quantizacao consciente da ativacao
Impacto
Quantizacao permite rodar modelos de bilhoes de parametros em GPUs consumer e ate CPUs. Na Trilion, quantizacao e essencial para tornar viavel a implantacao de modelos de IA em producao com custos controlados.
