Mixture of Experts MoE

Categoria
Termos Tecnicos Avancados
Mixture of Experts (MoE) e uma arquitetura onde o modelo contem multiplos sub-modelos especializados (experts) e um roteador que seleciona quais ativar para cada input. Permite escalar parametros totais sem aumentar proporcionalmente o custo de inferencia.
Categoria
Termos Tecnicos Avancados
Compartilhar
LinkedInWhatsApp

O que e Mixture of Experts (MoE)

Mixture of Experts e uma arquitetura de rede neural onde o modelo e dividido em multiplos modulos especialistas, e um mecanismo de roteamento (gating) seleciona quais especialistas ativar para cada entrada, permitindo escala eficiente.

Como funciona:

  • Modelo contem N especialistas (tipicamente FFN layers)
  • Router/gate seleciona top-K especialistas por token
  • Apenas K de N especialistas sao ativados por inferencia
  • Parametros totais sao grandes, mas compute e esparso

Exemplos:

  • Mixtral 8x7B: 8 especialistas, 2 ativos = custo de ~14B
  • GPT-4: rumores de arquitetura MoE com multiplos especialistas
  • Switch Transformer do Google: ate 1 trilhao de parametros
  • DeepSeek-V2 e V3: MoE com roteamento eficiente

A Trilion avalia arquiteturas MoE para projetos que exigem modelos de alta capacidade com custo computacional controlado, oferecendo o melhor equilibrio entre qualidade e eficiencia.

Glossário...

Acreditamos que a alquimia de Retórica, Criatividade e variadas Habilidades humanas criam resultados incríveis.