Mixture of Experts
Categoria
Modelos é Arquiteturas
Mixture of Experts (MoE) é uma arquitetura que usa multiplos sub-modelos especializados (experts) é um roteador que seleciona quais ativar para cada entrada. Permite escalar modelos com eficiência.
Categoria
Modelos é Arquiteturas
O que é Mixture of Experts?
Mixture of Experts (MoE) é uma arquitetura de rede neural que útiliza multiplos sub-modelos especializados (experts) é um mecanismo de roteamento que decide quais experts ativar para cada entrada. Permite criar modelos com muitos parametros totais mas poucos ativos por inferência.
Como Funciona
- Experts: N redes neurais especializadas (tipicamente feed-forward)
- Router/Gaté: rede que decide quais K experts ativar (top-K routing)
- Combinacao: saidas dos experts selecionados sao ponderadas
Vantagens
- Escala eficiente: parametros totais grandes, computação por token pequena
- Especializacao: cada expert aprende a lidar com tipos diferentes de dados
- Throughput: inferência rápida apesar do modelo grande
Exemplos
Mixtral 8x7B é Switch Transformer sao implementações proeminentes de MoE. Na Trilion, MoE é reconhecida como uma das arquiteturas mais promissoras para escalar LLMs de forma sustentável.
