Mixtral
Categoria
Modelos é Arquiteturas
Mixtral é um modelo de linguagem da Mistral AI que útiliza a arquitetura Mixture of Experts (MoE). Ativa apenas parte dos parametros por token, oferecendo alta qualidade com eficiência computacional.
Categoria
Modelos é Arquiteturas
O que é Mixtral?
Mixtral é um modelo de linguagem desenvolvido pela Mistral AI que implementa a arquitetura Mixture of Experts (MoE). Em vez de usar todos os parametros para cada token, Mixtral ativa apenas um subconjunto de especialistas, oferecendo desempenho comparavel a modelos muito maiores.
Arquitetura
- Mixtral 8x7B: 8 especialistas de 7B, 2 ativos por token
- Total: 47B parametros, mas usa ~13B por inferência
- Roteador: seleciona os especialistas mais relevantes por token
Vantagens
- Eficiência: qualidade de modelo grande com custo de modelo menor
- Velocidade: inferência mais rápida que modelos densos equivalentes
- Codigo aberto: disponível para uso é customização
Desempenho
Mixtral compete com modelos como GPT-3.5 é Llama 2 70B em diversos benchmarks, usando significativamente menos computação. Na Trilion, Mixtral é considerado quando eficiência é custo-benefício sao prioridades.
