Mistral AI dévoile Mixtral 8x7B, un modèle supérieur à Llama 2 70B

(mistral.ai)

12 points par GN⁺ 2023-12-12 | 2 commentaires | Partager sur WhatsApp

« High-quality Sparse Mixture of Experts Model (SMoE, modèle de mélange clairsemé d’experts de haute qualité) »
Dépasse Llama 2 70B sur la plupart des benchmarks, avec une inférence 6 fois plus rapide
Affiche des performances comparables ou supérieures à GPT 3.5 sur la plupart des benchmarks standard
Le modèle à poids ouverts le plus puissant disposant d’une licence permissive, et le meilleur en rapport coût/performance
Prise en charge d’un contexte de 32k tokens
Traitement de l’anglais, du français, de l’italien, de l’allemand et de l’espagnol
Montre de solides performances en génération de code
Peut être affiné en modèle suivant les instructions, avec un score de 8.3 sur MT-Bench
MMLU 70.6% (Llama 2 70B 69.9%, GPT 3.5 70.0%)

Repousser les limites des modèles ouverts grâce à une architecture clairsemée

Mixtral est un réseau d’experts clairsemé, et un modèle decoder-only
Le bloc feedforward sélectionne parmi 8 groupes de paramètres distincts ; à chaque couche et pour chaque token, un réseau routeur choisit deux groupes d’experts et combine leurs sorties
Cette technique permet d’augmenter le nombre de paramètres du modèle tout en maîtrisant le coût et la latence ; Mixtral compte 46.7B paramètres au total, mais n’utilise que 12.9B paramètres par token

Performances

Mixtral affiche des performances équivalentes ou supérieures sur la plupart des benchmarks par rapport aux modèles Llama 2 et au modèle de base GPT3.5.
Par rapport à Llama 2 70B, Mixtral fournit des réponses plus véridiques (73.9% contre 50.2% sur le benchmark TruthfulQA) et montre moins de biais sur le benchmark BBQ.
Mixtral maîtrise le français, l’allemand, l’espagnol, l’italien et l’anglais.

Modèle suivant les instructions

Mixtral 8x7B Instruct passe par un affinement supervisé et une optimisation directe des préférences (DPO) afin d’optimiser ses performances de suivi des instructions.
Avec un score de 8.30 sur MT-Bench, il devient le meilleur modèle open source avec des performances comparables à GPT3.5.

Déploiement de Mixtral avec la stack de déploiement open source

Des modifications ont été soumises au projet vLLM afin que la communauté puisse exécuter Mixtral avec une stack entièrement open source.
Actuellement, Mistral AI utilise Mixtral 8x7B derrière l’endpoint mistral-small, disponible en bêta
Il est possible de s’inscrire pour obtenir un accès anticipé à tous les endpoints de génération et d’embedding

2 commentaires

cosine20 2023-12-12

Comme cela a aussi été mentionné dans les commentaires ci-dessous, quand j’ai vu 8x7B au début, je me suis demandé si cela voulait dire que le nombre total de paramètres était de 56B.

GN⁺ 2023-12-12

Avis sur Hacker News

Avis d'Andrej Karpathy :
- Publication du post officiel sur Mixtral 8x7B et du code d'inférence de vLLM
- L'explication de HuggingFace sur le MoE (Mixture of Experts) est utile
- Atteint les performances d'un modèle 70B avec la vitesse d'inférence d'un modèle dense de 12,9B
- Réaction positive à l'utilisation du terme « open weights »
- Souligne que le nom « 8x7B » peut prêter à confusion
- Mentionne la confusion sur la manière dont chaque token et chaque couche sélectionnent 2 experts sur 8
- Présentation du modèle Mistral-medium
Disponibilité du modèle sur Huggingface :
- Le modèle Mixtral est disponible chez Mistralai et TheBloke
Demande d'explication pour les ingénieurs logiciel :
- Besoin de comprendre comment fonctionne le mélange d'experts
Réactions à la taille de Mixtral 8x7B :
- Trouve intéressant que 4,5 milliards de paramètres soient considérés comme un modèle « small »
Perspectives sur l'avenir de l'IA :
- Vision positive selon laquelle le MoE pourrait représenter l'avenir de l'IA
Questions sur le fonctionnement du MoE, ses avantages et ses inconvénients :
- Une explication est nécessaire sur les bénéfices du MoE par rapport aux modèles classiques
Confusion sur les paramètres du modèle :
- Exprime une confusion sur le nom « 8x7B », le nombre réel de paramètres et ceux utilisés lors de la génération de tokens
Explication de l'approche de Mistral :
- Le CEO indique que Mistral cherche un accès libre sans censurer le modèle
Capacités linguistiques de Mixtral 8x7B :
- Maîtrise bien le français, l'allemand, l'espagnol, l'italien et l'anglais
Demande d'informations sur le modèle et les poids :
- Demande de liens vers le modèle et les poids
Question sur la compétitivité sur le marché :
- S'interroge sur les opportunités face à OpenAI/Google avec un modèle qui dépasse GPT 3.5, et pose des questions sur les perspectives d'avenir