Mixtral

Categoria
Modelos e Arquiteturas
Mixtral e um modelo de linguagem da Mistral AI que utiliza a arquitetura Mixture of Experts (MoE). Ativa apenas parte dos parametros por token, oferecendo alta qualidade com eficiencia computacional.
Categoria
Modelos e Arquiteturas
Compartilhar
LinkedInWhatsApp

O que e Mixtral?

Mixtral e um modelo de linguagem desenvolvido pela Mistral AI que implementa a arquitetura Mixture of Experts (MoE). Em vez de usar todos os parametros para cada token, Mixtral ativa apenas um subconjunto de especialistas, oferecendo desempenho comparavel a modelos muito maiores.

Arquitetura

  • Mixtral 8x7B: 8 especialistas de 7B, 2 ativos por token
  • Total: 47B parametros, mas usa ~13B por inferencia
  • Roteador: seleciona os especialistas mais relevantes por token

Vantagens

  • Eficiencia: qualidade de modelo grande com custo de modelo menor
  • Velocidade: inferencia mais rapida que modelos densos equivalentes
  • Codigo aberto: disponivel para uso e customizacao

Desempenho

Mixtral compete com modelos como GPT-3.5 e Llama 2 70B em diversos benchmarks, usando significativamente menos computacao. Na Trilion, Mixtral e considerado quando eficiencia e custo-beneficio sao prioridades.

Glossário...

Acreditamos que a alquimia de Retórica, Criatividade e variadas Habilidades humanas criam resultados incríveis.