Pruning
Categoria
Modelos e Arquiteturas
Pruning e a tecnica de remover pesos, neuronios ou camadas redundantes de uma rede neural para reduzir seu tamanho e acelerar a inferencia, mantendo a maior parte do desempenho original.
Categoria
Modelos e Arquiteturas
O que e Pruning?
Pruning (Poda) e uma tecnica de compressao de modelos que remove parametros desnecessarios de uma rede neural. Baseia-se na observacao de que muitos pesos em redes treinadas sao muito pequenos ou redundantes e podem ser eliminados sem impacto significativo no desempenho.
Tipos
- Unstructured Pruning: remove pesos individuais (esparsidade)
- Structured Pruning: remove neuronios, filtros ou camadas inteiras
- Magnitude Pruning: remove pesos com menor valor absoluto
- Movement Pruning: remove pesos que menos mudam durante fine-tuning
Beneficios
- Reducao de 70-90% dos parametros em alguns casos
- Inferencia mais rapida
- Menor uso de memoria
Combinacao com Outras Tecnicas
Pruning e frequentemente combinado com quantizacao e knowledge distillation para maxima compressao. Na Trilion, pruning e aplicado quando modelos precisam ser otimizados para ambientes com recursos limitados.
