Mistral AI dévoile son nouveau modèle open source Mixtral 8x22B

(mistral.ai)

9 points par GN⁺ 2024-04-18 | 6 commentaires | Partager sur WhatsApp

« Moins cher, meilleur, plus rapide et plus puissant »
Modèle Sparse Mixture-of-Experts (SMoE) qui n’utilise que 39B de paramètres actifs sur un total de 141B, offrant une excellente efficacité coût/performance au regard de sa taille

Principales caractéristiques de Mixtral 8x22B

Maîtrise de l’anglais, du français, de l’italien, de l’allemand et de l’espagnol
Excellentes capacités en mathématiques et en code
Appel de fonctions pris en charge nativement, avec un mode de sortie contrainte implémenté sur la Plateforme, permettant le développement d’applications à grande échelle et la modernisation de la stack technique
Fenêtre de contexte de 64K tokens permettant un rappel précis d’informations dans de grands volumes de documents

Un véritable modèle open source

Mistral AI croit à la puissance de l’ouverture et d’une diffusion large pour favoriser l’innovation et la collaboration dans l’IA
Mixtral 8x22B est distribué sous Apache 2.0, la licence open source la plus permissive, permettant à chacun d’utiliser le modèle sans restriction

Une efficacité de premier plan

Mistral AI construit des modèles offrant le meilleur niveau de performance par coût pour chaque taille de modèle, avec le meilleur ratio performance/coût parmi les modèles proposés par la communauté
Mixtral 8x22B s’inscrit comme une extension naturelle de la gamme de modèles open source de Mistral AI. Grâce à son schéma d’activation sparse, il est plus rapide qu’un modèle Dense 70B tout en offrant davantage de capacités que d’autres modèles à poids ouverts diffusés sous licence permissive ou restrictive. La disponibilité du modèle de base en fait une fondation particulièrement adaptée aux cas d’usage de fine-tuning

Des performances open source inégalées

Raisonnement et connaissances

Mixtral 8x22B est optimisé pour le raisonnement
Il affiche les meilleures performances parmi les principaux LLM open source sur les benchmarks de connaissances générales, raisonnement et connaissances (MMLU, HellaSwag, Wino Grande, Arc Challenge, TriviaQA, NaturalQS)

Capacités multilingues

Mixtral 8x22B dispose de capacités multilingues natives
Il surpasse largement LLaMA 2 70B sur les benchmarks HellaSwag, Arc Challenge et MMLU en français, allemand, espagnol et italien

Mathématiques et code

Mixtral 8x22B affiche les meilleures performances sur les tâches de code et de mathématiques par rapport aux autres modèles open source
Il obtient les meilleurs résultats parmi les principaux modèles open source sur les benchmarks de code et de mathématiques (HumanEval pass@1, MBPP pass@1, GSM8K maj@1/8, Math maj@4)
La version Instruct de Mixtral 8x22B annoncée aujourd’hui fait encore mieux en mathématiques, avec 90,8 % sur GSM8K maj@8 et 44,6 % sur Math maj@4

L’avis de GN⁺

Mixtral 8x22B est le plus grand des modèles open source de Mistral tout en restant très efficace en coût/performance grâce à la sparsité. Cela en fait une évolution notable dans l’orientation prise par les modèles LLM open source
Ses excellentes performances multilingues, ainsi que ses capacités en mathématiques et en code au regard de sa taille, apparaissent comme ses principaux points de différenciation. En revanche, en dehors de l’anglais, l’éventail des langues prises en charge reste limité, et ses capacités en code comme en mathématiques restent en retrait par rapport aux LLM les plus récents comme GPT-4
L’adoption de la licence Apache 2.0, qui permet à tous de l’utiliser librement, est un avantage, mais le risque de détournement semble également élevé. Les efforts de la communauté pour un développement et un usage responsables des modèles d’IA open source paraissent d’autant plus nécessaires
La possibilité de développer des applications avec les modèles Mixtral et de moderniser la stack technique est attractive, mais des limites techniques et économiques subsistent encore pour un déploiement dans des services à grande échelle. Cela dit, on peut s’attendre à voir se multiplier les exemples d’innovation fondés sur l’open source
En Corée, KakaoBrain, NAVER et LG AI Research développent également leurs propres LLM. Sur des aspects adaptés au marché coréen, comme les performances en traitement du coréen, ces modèles devraient conserver un avantage concurrentiel

6 commentaires

ninebow 2024-04-19

Modèle de base Mixtral 8x22B : https://huggingface.co/mistralai/Mixtral-8x22B-v0.1
Modèle Mixtral 8x22B Instruct : https://huggingface.co/mistralai/Mixtral-8x22B-Instruct-v0.1

dormis 2024-04-19

Il est déjà répertorié comme disponible dans Azure AI Studio. (mistralai-Mixtral-8x7B-v01, mistral-community-Mixtral-8x22B-v0-1)

vkehfdl1 2024-04-18

Polyglot n’a pas été créé par Kakao Brain, mais par Tunib AI et EleutherAI. Il y a des hallucinations, on dirait "yu"

xguru 2024-04-19

Ah oui, en effet. Je l’ai corrigé. Merci.

xguru 2024-04-18

Quand on demande son avis à Claude Opus, il glisse parfois ce genre de références à l’actualité locale. C’est intéressant haha

GN⁺ 2024-04-18

Avis sur Hacker News

Résumé :

Quelqu’un a posé une question fiscale à ChatGPT et a obtenu une publicité pour un service de rédaction de dissertations
Demande d’une explication simple du concept de « Mixture-of-Experts »
- La personne comprend l’idée de sous-experts, mais se demande comment chaque domaine de spécialisation est déterminé pendant l’entraînement
Déception concernant la taille de la fenêtre de contexte de 64K tokens
- Le fait de ne pas égaler les 128K de GPT-4 Turbo pourrait devenir un sujet de plaisanterie à l’avenir
- On s’attend à ce qu’à l’avenir cela augmente jusqu’au niveau du billion de tokens
Question sur la meilleure façon d’exécuter un LLM sur un MacBook Pro
- LMStudio ne plaît pas pour son interface, et Ollama est peu pratique à utiliser en CLI
- Préférence pour une solution permettant des réglages fins, à la manière d’OpenAI, et une édition facile des prompts
Limites des modèles ouverts
- Sans accès aux données d’entraînement, il est impossible de reproduire le modèle
Résultats de comparaison entre la série Mistral et les performances
Avantage d’exploiter une startup IA
- Le produit s’améliore automatiquement chaque fois qu’un nouveau grand modèle est publié
Question pour savoir si la version « non-instructed » d’un LLM est une version sans guidage de la version « instructed »
Avec les LLM, l’importance de la RAM revient sur le devant de la scène
- Quelqu’un regrette de ne pas avoir ajouté 32 Go de RAM supplémentaires à son MacBook Pro
Attentes autour des modèles quantifiés
- Espoir d’un modèle 3 bits pouvant tourner sur un MacBook Pro de 64 Go