Mixture of Experts
Categoria
Modelos e Arquiteturas
Mixture of Experts (MoE) e uma arquitetura que usa multiplos sub-modelos especializados (experts) e um roteador que seleciona quais ativar para cada entrada. Permite escalar modelos com eficiencia.
Categoria
Modelos e Arquiteturas
O que e Mixture of Experts?
Mixture of Experts (MoE) e uma arquitetura de rede neural que utiliza multiplos sub-modelos especializados (experts) e um mecanismo de roteamento que decide quais experts ativar para cada entrada. Permite criar modelos com muitos parametros totais mas poucos ativos por inferencia.
Como Funciona
- Experts: N redes neurais especializadas (tipicamente feed-forward)
- Router/Gate: rede que decide quais K experts ativar (top-K routing)
- Combinacao: saidas dos experts selecionados sao ponderadas
Vantagens
- Escala eficiente: parametros totais grandes, computacao por token pequena
- Especializacao: cada expert aprende a lidar com tipos diferentes de dados
- Throughput: inferencia rapida apesar do modelo grande
Exemplos
Mixtral 8x7B e Switch Transformer sao implementacoes proeminentes de MoE. Na Trilion, MoE e reconhecida como uma das arquiteturas mais promissoras para escalar LLMs de forma sustentavel.
