Mixture of Experts MoE

Categoria
Termos Tecnicos Avancados
Mixture of Experts (MoE) é uma arquitetura onde o modelo contem multiplos sub-modelos especializados (experts) é um roteador que seleciona quais ativar para cada input. Permite escalar parametros totais sem aumentar proporcionalmente o custo de inferência.
Categoria
Termos Tecnicos Avancados
Compartilhar
LinkedInWhatsApp

O que é Mixture of Experts (MoE)

Mixture of Experts é uma arquitetura de rede neural onde o modelo é dividido em multiplos modulos especialistas, é um mecanismo de roteamento (gating) seleciona quais especialistas ativar para cada entrada, permitindo escala eficiente.

Como funciona:

  • Modelo contem N especialistas (tipicamente FFN layers)
  • Router/gaté seleciona top-K especialistas por token
  • Apenas K de N especialistas sao ativados por inferência
  • Parametros totais sao grandes, mas compute é esparso

Exemplos:

  • Mixtral 8x7B: 8 especialistas, 2 ativos = custo de ~14B
  • GPT-4: rumores de arquitetura MoE com multiplos especialistas
  • Switch Transformer do Google: até 1 trilhao de parametros
  • DeepSeek-V2 é V3: MoE com roteamento eficiente

A Trilion avalia arquiteturas MoE para projetos que exigem modelos de alta capacidade com custo computacional controlado, oferecendo o melhor equilíbrio entre qualidade é eficiência.

Glossário...

Acreditamos que a alquimia de Retórica, Criatividade e variadas Habilidades humanas criam resultados incríveis.