Mixture of Experts MoE
Categoria
Termos Tecnicos Avancados
Mixture of Experts (MoE) e uma arquitetura onde o modelo contem multiplos sub-modelos especializados (experts) e um roteador que seleciona quais ativar para cada input. Permite escalar parametros totais sem aumentar proporcionalmente o custo de inferencia.
Categoria
Termos Tecnicos Avancados
O que e Mixture of Experts (MoE)
Mixture of Experts e uma arquitetura de rede neural onde o modelo e dividido em multiplos modulos especialistas, e um mecanismo de roteamento (gating) seleciona quais especialistas ativar para cada entrada, permitindo escala eficiente.
Como funciona:
- Modelo contem N especialistas (tipicamente FFN layers)
- Router/gate seleciona top-K especialistas por token
- Apenas K de N especialistas sao ativados por inferencia
- Parametros totais sao grandes, mas compute e esparso
Exemplos:
- Mixtral 8x7B: 8 especialistas, 2 ativos = custo de ~14B
- GPT-4: rumores de arquitetura MoE com multiplos especialistas
- Switch Transformer do Google: ate 1 trilhao de parametros
- DeepSeek-V2 e V3: MoE com roteamento eficiente
A Trilion avalia arquiteturas MoE para projetos que exigem modelos de alta capacidade com custo computacional controlado, oferecendo o melhor equilibrio entre qualidade e eficiencia.
