Knowledge Distillation
Categoria
Modelos e Arquiteturas
Knowledge Distillation e a tecnica de transferir o conhecimento de um modelo grande (teacher) para um modelo menor (student). Permite criar modelos compactos que mantem boa parte do desempenho original.
Categoria
Modelos e Arquiteturas
O que e Knowledge Distillation?
Knowledge Distillation (Destilacao de Conhecimento) e uma tecnica de compressao onde um modelo grande (teacher) transfere seu conhecimento para um modelo menor (student). O modelo student aprende a imitar as previsoes do teacher, incluindo as probabilidades suaves entre classes.
Como Funciona
- Treina ou usa um modelo teacher de alta qualidade
- O teacher gera soft labels (probabilidades) para os dados de treinamento
- O model student e treinado usando as soft labels do teacher como alvo
- Uma temperatura controla a suavidade das probabilidades
Vantagens
- Modelo compacto com desempenho proximo ao teacher
- Student aprende relacoes entre classes que hard labels nao capturam
- Ideal para deploy em producao com recursos limitados
Exemplos
DistilBERT e 60% menor que BERT com 97% do desempenho. Na Trilion, knowledge distillation e a tecnica preferida para criar versoes leves de modelos complexos para producao.
