Mixtral

Categoria
Modelos é Arquiteturas
Mixtral é um modelo de linguagem da Mistral AI que útiliza a arquitetura Mixture of Experts (MoE). Ativa apenas parte dos parametros por token, oferecendo alta qualidade com eficiência computacional.
Categoria
Modelos é Arquiteturas
Compartilhar
LinkedInWhatsApp

O que é Mixtral?

Mixtral é um modelo de linguagem desenvolvido pela Mistral AI que implementa a arquitetura Mixture of Experts (MoE). Em vez de usar todos os parametros para cada token, Mixtral ativa apenas um subconjunto de especialistas, oferecendo desempenho comparavel a modelos muito maiores.

Arquitetura

  • Mixtral 8x7B: 8 especialistas de 7B, 2 ativos por token
  • Total: 47B parametros, mas usa ~13B por inferência
  • Roteador: seleciona os especialistas mais relevantes por token

Vantagens

  • Eficiência: qualidade de modelo grande com custo de modelo menor
  • Velocidade: inferência mais rápida que modelos densos equivalentes
  • Codigo aberto: disponível para uso é customização

Desempenho

Mixtral compete com modelos como GPT-3.5 é Llama 2 70B em diversos benchmarks, usando significativamente menos computação. Na Trilion, Mixtral é considerado quando eficiência é custo-benefício sao prioridades.

Glossário...

Acreditamos que a alquimia de Retórica, Criatividade e variadas Habilidades humanas criam resultados incríveis.