12 points par GN⁺ 2023-12-12 | 2 commentaires | Partager sur WhatsApp
  • « High-quality Sparse Mixture of Experts Model (SMoE, modèle de mélange clairsemé d’experts de haute qualité) »
  • Dépasse Llama 2 70B sur la plupart des benchmarks, avec une inférence 6 fois plus rapide
  • Affiche des performances comparables ou supérieures à GPT 3.5 sur la plupart des benchmarks standard
  • Le modèle à poids ouverts le plus puissant disposant d’une licence permissive, et le meilleur en rapport coût/performance
  • Prise en charge d’un contexte de 32k tokens
  • Traitement de l’anglais, du français, de l’italien, de l’allemand et de l’espagnol
  • Montre de solides performances en génération de code
  • Peut être affiné en modèle suivant les instructions, avec un score de 8.3 sur MT-Bench
  • MMLU 70.6% (Llama 2 70B 69.9%, GPT 3.5 70.0%)

Repousser les limites des modèles ouverts grâce à une architecture clairsemée

  • Mixtral est un réseau d’experts clairsemé, et un modèle decoder-only
  • Le bloc feedforward sélectionne parmi 8 groupes de paramètres distincts ; à chaque couche et pour chaque token, un réseau routeur choisit deux groupes d’experts et combine leurs sorties
  • Cette technique permet d’augmenter le nombre de paramètres du modèle tout en maîtrisant le coût et la latence ; Mixtral compte 46.7B paramètres au total, mais n’utilise que 12.9B paramètres par token

Performances

  • Mixtral affiche des performances équivalentes ou supérieures sur la plupart des benchmarks par rapport aux modèles Llama 2 et au modèle de base GPT3.5.
  • Par rapport à Llama 2 70B, Mixtral fournit des réponses plus véridiques (73.9% contre 50.2% sur le benchmark TruthfulQA) et montre moins de biais sur le benchmark BBQ.
  • Mixtral maîtrise le français, l’allemand, l’espagnol, l’italien et l’anglais.

Modèle suivant les instructions

  • Mixtral 8x7B Instruct passe par un affinement supervisé et une optimisation directe des préférences (DPO) afin d’optimiser ses performances de suivi des instructions.
  • Avec un score de 8.30 sur MT-Bench, il devient le meilleur modèle open source avec des performances comparables à GPT3.5.

Déploiement de Mixtral avec la stack de déploiement open source

  • Des modifications ont été soumises au projet vLLM afin que la communauté puisse exécuter Mixtral avec une stack entièrement open source.
  • Actuellement, Mistral AI utilise Mixtral 8x7B derrière l’endpoint mistral-small, disponible en bêta
  • Il est possible de s’inscrire pour obtenir un accès anticipé à tous les endpoints de génération et d’embedding

2 commentaires

 
cosine20 2023-12-12

Comme cela a aussi été mentionné dans les commentaires ci-dessous, quand j’ai vu 8x7B au début, je me suis demandé si cela voulait dire que le nombre total de paramètres était de 56B.

 
GN⁺ 2023-12-12
Avis sur Hacker News
  • Avis d'Andrej Karpathy :

    • Publication du post officiel sur Mixtral 8x7B et du code d'inférence de vLLM
    • L'explication de HuggingFace sur le MoE (Mixture of Experts) est utile
    • Atteint les performances d'un modèle 70B avec la vitesse d'inférence d'un modèle dense de 12,9B
    • Réaction positive à l'utilisation du terme « open weights »
    • Souligne que le nom « 8x7B » peut prêter à confusion
    • Mentionne la confusion sur la manière dont chaque token et chaque couche sélectionnent 2 experts sur 8
    • Présentation du modèle Mistral-medium
  • Disponibilité du modèle sur Huggingface :

    • Le modèle Mixtral est disponible chez Mistralai et TheBloke
  • Demande d'explication pour les ingénieurs logiciel :

    • Besoin de comprendre comment fonctionne le mélange d'experts
  • Réactions à la taille de Mixtral 8x7B :

    • Trouve intéressant que 4,5 milliards de paramètres soient considérés comme un modèle « small »
  • Perspectives sur l'avenir de l'IA :

    • Vision positive selon laquelle le MoE pourrait représenter l'avenir de l'IA
  • Questions sur le fonctionnement du MoE, ses avantages et ses inconvénients :

    • Une explication est nécessaire sur les bénéfices du MoE par rapport aux modèles classiques
  • Confusion sur les paramètres du modèle :

    • Exprime une confusion sur le nom « 8x7B », le nombre réel de paramètres et ceux utilisés lors de la génération de tokens
  • Explication de l'approche de Mistral :

    • Le CEO indique que Mistral cherche un accès libre sans censurer le modèle
  • Capacités linguistiques de Mixtral 8x7B :

    • Maîtrise bien le français, l'allemand, l'espagnol, l'italien et l'anglais
  • Demande d'informations sur le modèle et les poids :

    • Demande de liens vers le modèle et les poids
  • Question sur la compétitivité sur le marché :

    • S'interroge sur les opportunités face à OpenAI/Google avec un modèle qui dépasse GPT 3.5, et pose des questions sur les perspectives d'avenir