Knowledge Distillation

Categoria
Modelos e Arquiteturas
Knowledge Distillation e a tecnica de transferir o conhecimento de um modelo grande (teacher) para um modelo menor (student). Permite criar modelos compactos que mantem boa parte do desempenho original.
Categoria
Modelos e Arquiteturas
Compartilhar
LinkedInWhatsApp

O que e Knowledge Distillation?

Knowledge Distillation (Destilacao de Conhecimento) e uma tecnica de compressao onde um modelo grande (teacher) transfere seu conhecimento para um modelo menor (student). O modelo student aprende a imitar as previsoes do teacher, incluindo as probabilidades suaves entre classes.

Como Funciona

  • Treina ou usa um modelo teacher de alta qualidade
  • O teacher gera soft labels (probabilidades) para os dados de treinamento
  • O model student e treinado usando as soft labels do teacher como alvo
  • Uma temperatura controla a suavidade das probabilidades

Vantagens

  • Modelo compacto com desempenho proximo ao teacher
  • Student aprende relacoes entre classes que hard labels nao capturam
  • Ideal para deploy em producao com recursos limitados

Exemplos

DistilBERT e 60% menor que BERT com 97% do desempenho. Na Trilion, knowledge distillation e a tecnica preferida para criar versoes leves de modelos complexos para producao.

Glossário...

Acreditamos que a alquimia de Retórica, Criatividade e variadas Habilidades humanas criam resultados incríveis.