Knowledge Distillation
Categoria
Modelos é Arquiteturas
Knowledge Distillation é a técnica de transferir o conhecimento de um modelo grande (teacher) para um modelo menor (student). Permite criar modelos compactos que mantem boa parte do desempenho original.
Categoria
Modelos é Arquiteturas
O que é Knowledge Distillation?
Knowledge Distillation (Destilacao de Conhecimento) é uma técnica de compressao onde um modelo grande (teacher) transfere seu conhecimento para um modelo menor (student). O modelo student aprende a imitar as previsões do teacher, incluindo as probabilidades suaves entre classes.
Como Funciona
- Treina ou usa um modelo teacher de alta qualidade
- O teacher gera soft labels (probabilidades) para os dados de treinamento
- O model student é treinado usando as soft labels do teacher como alvo
- Uma temperatura controla a suavidade das probabilidades
Vantagens
- Modelo compacto com desempenho proximo ao teacher
- Student aprende relações entre classes que hard labels não capturam
- Ideal para deploy em produção com recursos limitados
Exemplos
DistilBERT é 60% menor que BERT com 97% do desempenho. Na Trilion, knowledge distillation é a técnica preferida para criar versões leves de modelos complexos para produção.
