Knowledge Distillation

Categoria
Modelos é Arquiteturas
Knowledge Distillation é a técnica de transferir o conhecimento de um modelo grande (teacher) para um modelo menor (student). Permite criar modelos compactos que mantem boa parte do desempenho original.
Categoria
Modelos é Arquiteturas
Compartilhar
LinkedInWhatsApp

O que é Knowledge Distillation?

Knowledge Distillation (Destilacao de Conhecimento) é uma técnica de compressao onde um modelo grande (teacher) transfere seu conhecimento para um modelo menor (student). O modelo student aprende a imitar as previsões do teacher, incluindo as probabilidades suaves entre classes.

Como Funciona

  • Treina ou usa um modelo teacher de alta qualidade
  • O teacher gera soft labels (probabilidades) para os dados de treinamento
  • O model student é treinado usando as soft labels do teacher como alvo
  • Uma temperatura controla a suavidade das probabilidades

Vantagens

  • Modelo compacto com desempenho proximo ao teacher
  • Student aprende relações entre classes que hard labels não capturam
  • Ideal para deploy em produção com recursos limitados

Exemplos

DistilBERT é 60% menor que BERT com 97% do desempenho. Na Trilion, knowledge distillation é a técnica preferida para criar versões leves de modelos complexos para produção.

Glossário...

Acreditamos que a alquimia de Retórica, Criatividade e variadas Habilidades humanas criam resultados incríveis.