- « High-quality Sparse Mixture of Experts Model (SMoE, modèle de mélange clairsemé d’experts de haute qualité) »
- Dépasse Llama 2 70B sur la plupart des benchmarks, avec une inférence 6 fois plus rapide
- Affiche des performances comparables ou supérieures à GPT 3.5 sur la plupart des benchmarks standard
- Le modèle à poids ouverts le plus puissant disposant d’une licence permissive, et le meilleur en rapport coût/performance
- Prise en charge d’un contexte de 32k tokens
- Traitement de l’anglais, du français, de l’italien, de l’allemand et de l’espagnol
- Montre de solides performances en génération de code
- Peut être affiné en modèle suivant les instructions, avec un score de 8.3 sur MT-Bench
- MMLU 70.6% (Llama 2 70B 69.9%, GPT 3.5 70.0%)
Repousser les limites des modèles ouverts grâce à une architecture clairsemée
- Mixtral est un réseau d’experts clairsemé, et un modèle decoder-only
- Le bloc feedforward sélectionne parmi 8 groupes de paramètres distincts ; à chaque couche et pour chaque token, un réseau routeur choisit deux groupes d’experts et combine leurs sorties
- Cette technique permet d’augmenter le nombre de paramètres du modèle tout en maîtrisant le coût et la latence ; Mixtral compte 46.7B paramètres au total, mais n’utilise que 12.9B paramètres par token
Performances
- Mixtral affiche des performances équivalentes ou supérieures sur la plupart des benchmarks par rapport aux modèles Llama 2 et au modèle de base GPT3.5.
- Par rapport à Llama 2 70B, Mixtral fournit des réponses plus véridiques (73.9% contre 50.2% sur le benchmark TruthfulQA) et montre moins de biais sur le benchmark BBQ.
- Mixtral maîtrise le français, l’allemand, l’espagnol, l’italien et l’anglais.
Modèle suivant les instructions
- Mixtral 8x7B Instruct passe par un affinement supervisé et une optimisation directe des préférences (DPO) afin d’optimiser ses performances de suivi des instructions.
- Avec un score de 8.30 sur MT-Bench, il devient le meilleur modèle open source avec des performances comparables à GPT3.5.
Déploiement de Mixtral avec la stack de déploiement open source
- Des modifications ont été soumises au projet vLLM afin que la communauté puisse exécuter Mixtral avec une stack entièrement open source.
- Actuellement, Mistral AI utilise Mixtral 8x7B derrière l’endpoint mistral-small, disponible en bêta
- Il est possible de s’inscrire pour obtenir un accès anticipé à tous les endpoints de génération et d’embedding
2 commentaires
Comme cela a aussi été mentionné dans les commentaires ci-dessous, quand j’ai vu 8x7B au début, je me suis demandé si cela voulait dire que le nombre total de paramètres était de 56B.
Avis sur Hacker News
Avis d'Andrej Karpathy :
Disponibilité du modèle sur Huggingface :
Demande d'explication pour les ingénieurs logiciel :
Réactions à la taille de Mixtral 8x7B :
Perspectives sur l'avenir de l'IA :
Questions sur le fonctionnement du MoE, ses avantages et ses inconvénients :
Confusion sur les paramètres du modèle :
Explication de l'approche de Mistral :
Capacités linguistiques de Mixtral 8x7B :
Demande d'informations sur le modèle et les poids :
Question sur la compétitivité sur le marché :