Quantizacao

Categoria
Modelos e Arquiteturas
Quantizacao e a tecnica de reduzir a precisao numerica dos pesos de um modelo (de 32 bits para 8, 4 ou ate 2 bits). Diminui uso de memoria e acelera inferencia com minima perda de qualidade.
Categoria
Modelos e Arquiteturas
Compartilhar
LinkedInWhatsApp

O que e Quantizacao?

Quantizacao e a tecnica de reduzir a precisao numerica dos parametros de um modelo de IA. Em vez de usar numeros de ponto flutuante de 32 bits (FP32), converte para 16, 8, 4 ou ate 2 bits, reduzindo dramaticamente o uso de memoria e acelerando a inferencia.

Tipos

  • Post-Training Quantization (PTQ): quantiza modelo ja treinado
  • Quantization-Aware Training (QAT): treina considerando quantizacao
  • Dynamic Quantization: quantiza durante a inferencia

Formatos Populares

  • INT8: reducao de 4x na memoria
  • INT4/NF4: reducao de 8x
  • GPTQ: quantizacao pos-treinamento para LLMs
  • AWQ: quantizacao consciente da ativacao

Impacto

Quantizacao permite rodar modelos de bilhoes de parametros em GPUs consumer e ate CPUs. Na Trilion, quantizacao e essencial para tornar viavel a implantacao de modelos de IA em producao com custos controlados.

Glossário...

Acreditamos que a alquimia de Retórica, Criatividade e variadas Habilidades humanas criam resultados incríveis.