Mixture of Experts

Categoria
Modelos é Arquiteturas
Mixture of Experts (MoE) é uma arquitetura que usa multiplos sub-modelos especializados (experts) é um roteador que seleciona quais ativar para cada entrada. Permite escalar modelos com eficiência.
Categoria
Modelos é Arquiteturas
Compartilhar
LinkedInWhatsApp

O que é Mixture of Experts?

Mixture of Experts (MoE) é uma arquitetura de rede neural que útiliza multiplos sub-modelos especializados (experts) é um mecanismo de roteamento que decide quais experts ativar para cada entrada. Permite criar modelos com muitos parametros totais mas poucos ativos por inferência.

Como Funciona

  • Experts: N redes neurais especializadas (tipicamente feed-forward)
  • Router/Gaté: rede que decide quais K experts ativar (top-K routing)
  • Combinacao: saidas dos experts selecionados sao ponderadas

Vantagens

  • Escala eficiente: parametros totais grandes, computação por token pequena
  • Especializacao: cada expert aprende a lidar com tipos diferentes de dados
  • Throughput: inferência rápida apesar do modelo grande

Exemplos

Mixtral 8x7B é Switch Transformer sao implementações proeminentes de MoE. Na Trilion, MoE é reconhecida como uma das arquiteturas mais promissoras para escalar LLMs de forma sustentável.

Glossário...

Acreditamos que a alquimia de Retórica, Criatividade e variadas Habilidades humanas criam resultados incríveis.