Mixture of Experts

Categoria
Modelos e Arquiteturas
Mixture of Experts (MoE) e uma arquitetura que usa multiplos sub-modelos especializados (experts) e um roteador que seleciona quais ativar para cada entrada. Permite escalar modelos com eficiencia.
Categoria
Modelos e Arquiteturas
Compartilhar
LinkedInWhatsApp

O que e Mixture of Experts?

Mixture of Experts (MoE) e uma arquitetura de rede neural que utiliza multiplos sub-modelos especializados (experts) e um mecanismo de roteamento que decide quais experts ativar para cada entrada. Permite criar modelos com muitos parametros totais mas poucos ativos por inferencia.

Como Funciona

  • Experts: N redes neurais especializadas (tipicamente feed-forward)
  • Router/Gate: rede que decide quais K experts ativar (top-K routing)
  • Combinacao: saidas dos experts selecionados sao ponderadas

Vantagens

  • Escala eficiente: parametros totais grandes, computacao por token pequena
  • Especializacao: cada expert aprende a lidar com tipos diferentes de dados
  • Throughput: inferencia rapida apesar do modelo grande

Exemplos

Mixtral 8x7B e Switch Transformer sao implementacoes proeminentes de MoE. Na Trilion, MoE e reconhecida como uma das arquiteturas mais promissoras para escalar LLMs de forma sustentavel.

Glossário...

Acreditamos que a alquimia de Retórica, Criatividade e variadas Habilidades humanas criam resultados incríveis.