Mixtral

Categoria

Modelos é Arquiteturas

Mixtral é um modelo de linguagem da Mistral AI que útiliza a arquitetura Mixture of Experts (MoE). Ativa apenas parte dos parametros por token, oferecendo alta qualidade com eficiência computacional.

Categoria

Modelos é Arquiteturas

O que é Mixtral?

Mixtral é um modelo de linguagem desenvolvido pela Mistral AI que implementa a arquitetura Mixture of Experts (MoE). Em vez de usar todos os parametros para cada token, Mixtral ativa apenas um subconjunto de especialistas, oferecendo desempenho comparavel a modelos muito maiores.

Arquitetura

Mixtral 8x7B: 8 especialistas de 7B, 2 ativos por token
Total: 47B parametros, mas usa ~13B por inferência
Roteador: seleciona os especialistas mais relevantes por token

Vantagens

Eficiência: qualidade de modelo grande com custo de modelo menor
Velocidade: inferência mais rápida que modelos densos equivalentes
Codigo aberto: disponível para uso é customização

Desempenho

Mixtral compete com modelos como GPT-3.5 é Llama 2 70B em diversos benchmarks, usando significativamente menos computação. Na Trilion, Mixtral é considerado quando eficiência é custo-benefício sao prioridades.

Mixtral

O que é Mixtral?

Arquitetura

Vantagens

Desempenho

Termos relacionados

Glossário...