Quantizacao

Categoria

Modelos é Arquiteturas

Quantizacao é a técnica de reduzir a precisão numerica dos pesos de um modelo (de 32 bits para 8, 4 ou até 2 bits). Diminui uso de memória é acelera inferência com mínima perda de qualidade.

Categoria

Modelos é Arquiteturas

O que é Quantizacao?

Quantizacao é a técnica de reduzir a precisão numerica dos parametros de um modelo de IA. Em vez de usar números de ponto flutuante de 32 bits (FP32), converte para 16, 8, 4 ou até 2 bits, reduzindo dramaticamente o uso de memória é acelerando a inferência.

Tipos

Post-Training Quantization (PTQ): quantiza modelo ja treinado
Quantization-Aware Training (QAT): treina considerando quantizacao
Dynamic Quantization: quantiza durante a inferência

Formatos Populares

INT8: redução de 4x na memória
INT4/NF4: redução de 8x
GPTQ: quantizacao pos-treinamento para LLMs
AWQ: quantizacao consciente da ativacao

Impacto

Quantizacao permite rodar modelos de bilhoes de parametros em GPUs consumer é até CPUs. Na Trilion, quantizacao é essêncial para tornar viavel a implantacao de modelos de IA em produção com custos controlados.

Quantizacao

O que é Quantizacao?

Tipos

Formatos Populares

Impacto

Termos relacionados

Glossário...