1 points par GN⁺ 2024-01-10 | 1 commentaires | Partager sur WhatsApp

Présentation de Mixtral of Experts

  • Mixtral 8x7B est un modèle de langage Sparse Mixture of Experts (SMoE).
  • Mixtral reprend la même architecture que Mistral 7B, mais chaque couche est composée de 8 blocs feed-forward (experts).
  • Pour chaque token, un réseau de routage sélectionne deux experts pour traiter l’état courant et combine leurs sorties.

Performances et benchmarks

  • Chaque token peut accéder à 47B de paramètres, mais seuls 13B de paramètres actifs sont utilisés pendant l’inférence.
  • Mixtral a été entraîné avec une fenêtre de contexte de 32k tokens et égale ou dépasse Llama 2 70B et GPT-3.5 sur tous les benchmarks évalués.
  • Il surpasse notamment largement Llama 2 70B en mathématiques, en génération de code et sur les benchmarks multilingues.

Fine-tuning du modèle et licence

  • Mixtral 8x7B - Instruct, la version fine-tunée pour suivre les instructions, surpasse GPT-3.5 Turbo, Claude-2.1, Gemini Pro et Llama 2 70B - chat dans des évaluations humaines.
  • Le modèle de base comme le modèle instruct sont publiés sous licence Apache 2.0.

L’avis de GN⁺

  • Mixtral 8x7B est considéré comme offrant des performances remarquables par rapport aux modèles de langage existants. C’est un indicateur important des progrès dans le domaine du traitement du langage par l’IA.
  • En particulier, l’amélioration des performances dans diverses langues et en génération de code pourrait avoir un impact positif sur de nombreux domaines d’application, comme la traduction automatique et la programmation automatisée.
  • Sa publication sous licence Apache 2.0 offre aux chercheurs et développeurs la possibilité d’utiliser et d’améliorer librement ce modèle, ce qui devrait contribuer à la croissance de la communauté open source de l’IA.

1 commentaires

 
GN⁺ 2024-01-10
Avis de Hacker News
  • Discussion autour du modèle Mixtral 8x7B

    • Le modèle Mixtral 8x7B est utilisé depuis environ un mois et affiche d’excellentes performances pour une taille de 13B.
    • Il se classe très bien face aux modèles concurrents et s’avère très utile au quotidien sur Mac pour le chat, la saisie de code, etc.
    • L’hypothèse est avancée que les 8 experts issus de Mistral 7B ont pu évoluer chacun dans des directions différentes.
    • Dans le cas de Mistral, entraîner un réseau 8x7B n’a apparemment pas demandé autant d’efforts que d’entraîner 8 réseaux 7B séparés.
    • Le domaine des LLM continue d’innover rapidement, avec l’arrivée de nouvelles recherches comme Calm et de modèles expérimentaux comme Goliath-120b.
    • On s’attend à voir arriver au premier semestre 2024 des modèles performants sur du matériel grand public.
  • Performances du modèle et possibilités d’usage

    • Ce modèle utilise 13b de paramètres actifs, tourne de façon fluide en haute qualité sur une 3090, dépasse GPT-3.5 sur humaneval et prend en charge un contexte de 32k.
    • La 3090 est un matériel grand public couramment utilisé par les joueurs.
    • L’idée que des développeurs de jeux commencent à utiliser Mixtral dans les jeux suscite de l’attente.
  • Comment utiliser le modèle

    • Le modèle Mixtral a été publié en Llamafile par Mozilla/jart, et les utilisateurs peuvent télécharger puis exécuter ce fichier.
  • Utilisation sur Mac Silicon

    • Les utilisateurs de Mac Silicon peuvent télécharger Mixtral via ollama.ai et construire une interface web avec ollama-webui.
  • Actualités et discussions liées

    • Des liens vers des actualités récentes et des discussions sur le modèle Mixtral sont fournis.
  • Performances du modèle aux benchmarks

    • Mixtral devance largement Llama 2 70B sur les benchmarks de mathématiques, de génération de code et multilingues.
    • Il y a un intérêt particulier pour ses performances en mathématiques, un domaine qui semble encore ne pas être résolu efficacement.
  • Avis critiques sur l’article

    • Certains reprochent aux articles sur les LLM de manquer de détails.
    • Il est notamment souligné que les explications sur la manière dont les experts ont été entraînés et sur les jeux de données utilisés sont absentes.
  • Contenu de l’interview du fondateur de Mistral

    • Dans une interview sur le podcast A16Z, le fondateur de Mistral a mentionné disposer de plusieurs modèles internes situés entre le niveau de chatGPT et celui de GPT4.
    • Au vu de la qualité des publications jusqu’à présent, cela nourrit les attentes autour des LLM open source.
  • Description de chaque modèle expert

    • L’article n’indique pas si l’un des 8 modèles est spécialisé dans la traduction multilingue et si un autre est spécialisé dans le code.
  • Attentes autour de la publication de modèles multimodaux

    • Les progrès des modèles ne traitant que du texte ont été surprenants, mais certains se demandent si les comportements « émergents » de GPT-4 ne sont pas dus à l’entraînement multimodal.
    • Il y a aussi de l’intérêt pour savoir si de petits modèles intégrant le multimodal pourraient montrer des avancées similaires.