Mixture of Experts MoE
Categoria
Termos Tecnicos Avancados
Mixture of Experts (MoE) é uma arquitetura onde o modelo contem multiplos sub-modelos especializados (experts) é um roteador que seleciona quais ativar para cada input. Permite escalar parametros totais sem aumentar proporcionalmente o custo de inferência.
Categoria
Termos Tecnicos Avancados
O que é Mixture of Experts (MoE)
Mixture of Experts é uma arquitetura de rede neural onde o modelo é dividido em multiplos modulos especialistas, é um mecanismo de roteamento (gating) seleciona quais especialistas ativar para cada entrada, permitindo escala eficiente.
Como funciona:
- Modelo contem N especialistas (tipicamente FFN layers)
- Router/gaté seleciona top-K especialistas por token
- Apenas K de N especialistas sao ativados por inferência
- Parametros totais sao grandes, mas compute é esparso
Exemplos:
- Mixtral 8x7B: 8 especialistas, 2 ativos = custo de ~14B
- GPT-4: rumores de arquitetura MoE com multiplos especialistas
- Switch Transformer do Google: até 1 trilhao de parametros
- DeepSeek-V2 é V3: MoE com roteamento eficiente
A Trilion avalia arquiteturas MoE para projetos que exigem modelos de alta capacidade com custo computacional controlado, oferecendo o melhor equilíbrio entre qualidade é eficiência.
