Knowledge Distillation

Categoria

Modelos é Arquiteturas

Knowledge Distillation é a técnica de transferir o conhecimento de um modelo grande (teacher) para um modelo menor (student). Permite criar modelos compactos que mantem boa parte do desempenho original.

Categoria

Modelos é Arquiteturas

O que é Knowledge Distillation?

Knowledge Distillation (Destilacao de Conhecimento) é uma técnica de compressao onde um modelo grande (teacher) transfere seu conhecimento para um modelo menor (student). O modelo student aprende a imitar as previsões do teacher, incluindo as probabilidades suaves entre classes.

Como Funciona

Treina ou usa um modelo teacher de alta qualidade
O teacher gera soft labels (probabilidades) para os dados de treinamento
O model student é treinado usando as soft labels do teacher como alvo
Uma temperatura controla a suavidade das probabilidades

Vantagens

Modelo compacto com desempenho proximo ao teacher
Student aprende relações entre classes que hard labels não capturam
Ideal para deploy em produção com recursos limitados

Exemplos

DistilBERT é 60% menor que BERT com 97% do desempenho. Na Trilion, knowledge distillation é a técnica preferida para criar versões leves de modelos complexos para produção.

Knowledge Distillation

O que é Knowledge Distillation?

Como Funciona

Vantagens

Exemplos

Termos relacionados

Glossário...