Mixture of Experts MoE

Categoria

Termos Tecnicos Avancados

Mixture of Experts (MoE) é uma arquitetura onde o modelo contem multiplos sub-modelos especializados (experts) é um roteador que seleciona quais ativar para cada input. Permite escalar parametros totais sem aumentar proporcionalmente o custo de inferência.

Categoria

Termos Tecnicos Avancados

O que é Mixture of Experts (MoE)

Mixture of Experts é uma arquitetura de rede neural onde o modelo é dividido em multiplos modulos especialistas, é um mecanismo de roteamento (gating) seleciona quais especialistas ativar para cada entrada, permitindo escala eficiente.

Como funciona:

Modelo contem N especialistas (tipicamente FFN layers)
Router/gaté seleciona top-K especialistas por token
Apenas K de N especialistas sao ativados por inferência
Parametros totais sao grandes, mas compute é esparso

Exemplos:

Mixtral 8x7B: 8 especialistas, 2 ativos = custo de ~14B
GPT-4: rumores de arquitetura MoE com multiplos especialistas
Switch Transformer do Google: até 1 trilhao de parametros
DeepSeek-V2 é V3: MoE com roteamento eficiente

A Trilion avalia arquiteturas MoE para projetos que exigem modelos de alta capacidade com custo computacional controlado, oferecendo o melhor equilíbrio entre qualidade é eficiência.

Mixture of Experts MoE

O que é Mixture of Experts (MoE)

Termos relacionados

Glossário...