Pruning
Categoria
Modelos é Arquiteturas
Pruning é a técnica de remover pesos, neuronios ou camadas redundantes de uma rede neural para reduzir seu tamanho é acelerar a inferência, mantendo a maior parte do desempenho original.
Categoria
Modelos é Arquiteturas
O que é Pruning?
Pruning (Poda) é uma técnica de compressao de modelos que remove parametros desnecessários de uma rede neural. Baseia-se na observacao de que muitos pesos em redes treinadas sao muito pequenos ou redundantes é podem ser eliminados sem impacto significativo no desempenho.
Tipos
- Unstructured Pruning: remove pesos individuais (esparsidade)
- Structured Pruning: remove neuronios, filtros ou camadas inteiras
- Magnitude Pruning: remove pesos com menor valor absoluto
- Movement Pruning: remove pesos que menos mudam durante fine-tuning
Beneficios
- Reducao de 70-90% dos parametros em alguns casos
- Inferencia mais rápida
- Menor uso de memória
Combinacao com Outras Tecnicas
Pruning é frequentemente combinado com quantizacao é knowledge distillation para máxima compressao. Na Trilion, pruning é aplicado quando modelos precisam ser otimizados para ambientes com recursos limitados.
