Mixtral
Categoria
Modelos e Arquiteturas
Mixtral e um modelo de linguagem da Mistral AI que utiliza a arquitetura Mixture of Experts (MoE). Ativa apenas parte dos parametros por token, oferecendo alta qualidade com eficiencia computacional.
Categoria
Modelos e Arquiteturas
O que e Mixtral?
Mixtral e um modelo de linguagem desenvolvido pela Mistral AI que implementa a arquitetura Mixture of Experts (MoE). Em vez de usar todos os parametros para cada token, Mixtral ativa apenas um subconjunto de especialistas, oferecendo desempenho comparavel a modelos muito maiores.
Arquitetura
- Mixtral 8x7B: 8 especialistas de 7B, 2 ativos por token
- Total: 47B parametros, mas usa ~13B por inferencia
- Roteador: seleciona os especialistas mais relevantes por token
Vantagens
- Eficiencia: qualidade de modelo grande com custo de modelo menor
- Velocidade: inferencia mais rapida que modelos densos equivalentes
- Codigo aberto: disponivel para uso e customizacao
Desempenho
Mixtral compete com modelos como GPT-3.5 e Llama 2 70B em diversos benchmarks, usando significativamente menos computacao. Na Trilion, Mixtral e considerado quando eficiencia e custo-beneficio sao prioridades.
