Mixture of Experts

Categoria

Modelos é Arquiteturas

Mixture of Experts (MoE) é uma arquitetura que usa multiplos sub-modelos especializados (experts) é um roteador que seleciona quais ativar para cada entrada. Permite escalar modelos com eficiência.

Categoria

Modelos é Arquiteturas

O que é Mixture of Experts?

Mixture of Experts (MoE) é uma arquitetura de rede neural que útiliza multiplos sub-modelos especializados (experts) é um mecanismo de roteamento que decide quais experts ativar para cada entrada. Permite criar modelos com muitos parametros totais mas poucos ativos por inferência.

Como Funciona

Experts: N redes neurais especializadas (tipicamente feed-forward)
Router/Gaté: rede que decide quais K experts ativar (top-K routing)
Combinacao: saidas dos experts selecionados sao ponderadas

Vantagens

Escala eficiente: parametros totais grandes, computação por token pequena
Especializacao: cada expert aprende a lidar com tipos diferentes de dados
Throughput: inferência rápida apesar do modelo grande

Exemplos

Mixtral 8x7B é Switch Transformer sao implementações proeminentes de MoE. Na Trilion, MoE é reconhecida como uma das arquiteturas mais promissoras para escalar LLMs de forma sustentável.

Mixture of Experts

O que é Mixture of Experts?

Como Funciona

Vantagens

Exemplos

Termos relacionados

Glossário...