- « Moins cher, meilleur, plus rapide et plus puissant »
- Modèle Sparse Mixture-of-Experts (SMoE) qui n’utilise que 39B de paramètres actifs sur un total de 141B, offrant une excellente efficacité coût/performance au regard de sa taille
Principales caractéristiques de Mixtral 8x22B
- Maîtrise de l’anglais, du français, de l’italien, de l’allemand et de l’espagnol
- Excellentes capacités en mathématiques et en code
- Appel de fonctions pris en charge nativement, avec un mode de sortie contrainte implémenté sur la Plateforme, permettant le développement d’applications à grande échelle et la modernisation de la stack technique
- Fenêtre de contexte de 64K tokens permettant un rappel précis d’informations dans de grands volumes de documents
Un véritable modèle open source
- Mistral AI croit à la puissance de l’ouverture et d’une diffusion large pour favoriser l’innovation et la collaboration dans l’IA
- Mixtral 8x22B est distribué sous Apache 2.0, la licence open source la plus permissive, permettant à chacun d’utiliser le modèle sans restriction
Une efficacité de premier plan
- Mistral AI construit des modèles offrant le meilleur niveau de performance par coût pour chaque taille de modèle, avec le meilleur ratio performance/coût parmi les modèles proposés par la communauté
- Mixtral 8x22B s’inscrit comme une extension naturelle de la gamme de modèles open source de Mistral AI. Grâce à son schéma d’activation sparse, il est plus rapide qu’un modèle Dense 70B tout en offrant davantage de capacités que d’autres modèles à poids ouverts diffusés sous licence permissive ou restrictive. La disponibilité du modèle de base en fait une fondation particulièrement adaptée aux cas d’usage de fine-tuning
Des performances open source inégalées
Raisonnement et connaissances
- Mixtral 8x22B est optimisé pour le raisonnement
- Il affiche les meilleures performances parmi les principaux LLM open source sur les benchmarks de connaissances générales, raisonnement et connaissances (MMLU, HellaSwag, Wino Grande, Arc Challenge, TriviaQA, NaturalQS)
Capacités multilingues
- Mixtral 8x22B dispose de capacités multilingues natives
- Il surpasse largement LLaMA 2 70B sur les benchmarks HellaSwag, Arc Challenge et MMLU en français, allemand, espagnol et italien
Mathématiques et code
- Mixtral 8x22B affiche les meilleures performances sur les tâches de code et de mathématiques par rapport aux autres modèles open source
- Il obtient les meilleurs résultats parmi les principaux modèles open source sur les benchmarks de code et de mathématiques (HumanEval pass@1, MBPP pass@1, GSM8K maj@1/8, Math maj@4)
- La version Instruct de Mixtral 8x22B annoncée aujourd’hui fait encore mieux en mathématiques, avec 90,8 % sur GSM8K maj@8 et 44,6 % sur Math maj@4
L’avis de GN⁺
- Mixtral 8x22B est le plus grand des modèles open source de Mistral tout en restant très efficace en coût/performance grâce à la sparsité. Cela en fait une évolution notable dans l’orientation prise par les modèles LLM open source
- Ses excellentes performances multilingues, ainsi que ses capacités en mathématiques et en code au regard de sa taille, apparaissent comme ses principaux points de différenciation. En revanche, en dehors de l’anglais, l’éventail des langues prises en charge reste limité, et ses capacités en code comme en mathématiques restent en retrait par rapport aux LLM les plus récents comme GPT-4
- L’adoption de la licence Apache 2.0, qui permet à tous de l’utiliser librement, est un avantage, mais le risque de détournement semble également élevé. Les efforts de la communauté pour un développement et un usage responsables des modèles d’IA open source paraissent d’autant plus nécessaires
- La possibilité de développer des applications avec les modèles Mixtral et de moderniser la stack technique est attractive, mais des limites techniques et économiques subsistent encore pour un déploiement dans des services à grande échelle. Cela dit, on peut s’attendre à voir se multiplier les exemples d’innovation fondés sur l’open source
- En Corée, KakaoBrain, NAVER et LG AI Research développent également leurs propres LLM. Sur des aspects adaptés au marché coréen, comme les performances en traitement du coréen, ces modèles devraient conserver un avantage concurrentiel
6 commentaires
Modèle de base Mixtral 8x22B : https://huggingface.co/mistralai/Mixtral-8x22B-v0.1
Modèle Mixtral 8x22B Instruct : https://huggingface.co/mistralai/Mixtral-8x22B-Instruct-v0.1
Il est déjà répertorié comme disponible dans Azure AI Studio. (mistralai-Mixtral-8x7B-v01, mistral-community-Mixtral-8x22B-v0-1)
Polyglot n’a pas été créé par Kakao Brain, mais par Tunib AI et EleutherAI. Il y a des hallucinations, on dirait "yu"
Ah oui, en effet. Je l’ai corrigé. Merci.
Quand on demande son avis à Claude Opus, il glisse parfois ce genre de références à l’actualité locale. C’est intéressant haha
Avis sur Hacker News
Résumé :
LMStudione plaît pas pour son interface, etOllamaest peu pratique à utiliser en CLIMistralet les performances