- MiniMax-M1 est le premier modèle de raisonnement à grande échelle basé sur une attention hybride en open weights au monde
- Sa structure hybride MoE de 456 milliards de paramètres et son mécanisme d’attention Lightning excellent dans le traitement de contextes longs
- Grâce à un entraînement fondé sur le RL et à l’introduction de l’algorithme CISPO, il peut résoudre efficacement divers types de problèmes
- Sur les benchmarks, il affiche d’excellentes performances face à DeepSeek-R1, Qwen3-235B et d’autres, notamment en ingénierie logicielle complexe, usage d’outils et entrées longues
- Avec divers environnements d’inférence, des outils de support, une API et un chatbot, il présente une forte valeur comme base pour les agents de modèles de langage de nouvelle génération
Présentation du projet open source MiniMax-M1
- MiniMax-M1 est le premier modèle de raisonnement à grande échelle basé sur une attention hybride en open weights au monde, et montre de solides avantages ainsi qu’une forte utilité en conditions réelles par rapport aux modèles commerciaux et open source existants
- Il combine une architecture hybride Mixture-of-Experts (MoE) à grande échelle avec un mécanisme d’attention Lightning, optimisé pour les contextes longs, le raisonnement complexe et la résolution de problèmes en environnement logiciel
- Il prend efficacement en charge les longs contextes (jusqu’à 1 million de tokens) et réduit fortement le volume de calcul en test (25 % des FLOPs de DeepSeek-R1 sur une base 100K)
- Grâce à des techniques RL de pointe, au nouvel algorithme CISPO et à une conception d’attention hybride, il maximise à la fois la scalabilité et l’efficacité d’inférence
1. Présentation du modèle
- MiniMax-M1 embarque une architecture hybride Mixture-of-Experts (MoE) et l’attention Lightning
- Il a été développé à partir de son prédécesseur MiniMax-Text-01 (456 milliards de paramètres, dont 45,9 milliards activés par token)
- Prise en charge d’une longueur de contexte de 1 million de tokens (soit 8 fois celle de DeepSeek R1)
- L’attention Lightning réduit fortement le volume de calcul en test (25 % de celui de DeepSeek R1)
- Il est adapté aux tâches nécessitant de longues entrées et un raisonnement complexe
- Il a été entraîné à grande échelle via le RL sur un large éventail de problèmes, notamment le raisonnement mathématique et l’ingénierie logicielle en conditions réelles
- Il propose un framework propre à MiniMax-M1 pour le passage à l’échelle du RL
- Méthode CISPO : introduction d’un algorithme de clipping des poids d’échantillonnage d’importance supérieur aux approches RL existantes
- Renforcement de l’efficacité et de la scalabilité du RL grâce à l’attention hybride
- Deux modèles ont été entraînés et publiés avec des budgets de réflexion 40K et 80K
- Il offre des performances remarquables face à des modèles open weights haut de gamme comme DeepSeek-R1 et Qwen3-235B en ingénierie logicielle, usage d’outils et tâches à long contexte
- Il fournit une base pour construire des agents de modèles de langage de nouvelle génération capables de relever des défis concrets
2. Évaluation
Principaux points des résultats de benchmark
- Niveau proche de l’état de l’art dans les domaines des maths, du code, de l’ingénierie logicielle et des contextes longs
- Il obtient globalement des scores élevés par rapport aux autres modèles open source, avec un avantage particulièrement marqué sur les benchmarks logiciels (SWE-bench) et les longs contextes
- Exemples d’éléments notables
- SWE-bench : 56.0(M1-80k) / 34.4(Qwen3) / 49.2(DeepSeek R1)
- OpenAI-MRCR(128k) : 73.4(M1-80k) / 27.7(Qwen3) / 35.8(DeepSeek R1)
- Solide sur des tâches liées au développement logiciel comme LiveCodeBench et FullStackBench
- Environnement d’exécution : évaluation avec temperature 1.0 et top_p 0.95
- Pour des benchmarks comme SWE-bench et TAU-bench, l’évaluation a été menée selon des procédures et réglages propres (par ex. localisation locale en deux étapes au niveau fichier, sans usage d’embeddings)
3. Guide d’utilisation du modèle MiniMax-M1
Réglages recommandés pour des performances optimales
3.1. Paramètres d’inférence
- Temperature : 1.0
- Top_p : 0.95
Cette combinaison fournit un cadre qui assure à la fois diversité textuelle et cohérence logique
3.2. Prompt système
- Usage général : "You are a helpful assistant."
- Développement web : prompt spécialisé proposé pour des tâches complexes de pages web, comme la génération de code UI tout-en-un
- Raisonnement mathématique : résoudre étape par étape puis inscrire la réponse finale dans \boxed{}
4. Guide de déploiement
- Les modèles MiniMax-M1-40k et MiniMax-M1-80k peuvent être téléchargés sur HuggingFace
- Pour un service en production, un déploiement basé sur vLLM est recommandé
- Gestion mémoire efficace, excellent traitement par lots et optimisation des performances, adaptés au serving de grands modèles
- Un déploiement séparé basé sur Transformers est également pris en charge
5. Appel de fonctions (interface de type fonctionnel)
- MiniMax-M1 prend en charge l’appel de fonctions
- Lorsqu’une fonction externe est nécessaire, il produit automatiquement les paramètres sous forme structurée
- Un guide d’appel de fonctions est fourni
6. Chatbot & API
- MiniMax Chatbot : propose une interface de chat incluant même la recherche en ligne
- API : fournit une API en ligne pour développeurs ainsi que des outils comme MiniMax MCP Server
- Inclut la synthèse IA de vidéos, d’images et de voix, ainsi que le voice cloning
1 commentaires
Commentaires sur Hacker News
Pour ceux qui se demandent ce qu’il faut pour faire tourner ça, il faut 8 H200 de 141 Go, pour un prix d’environ 250�00 $
discussion GitHub / prix du produit sur eBay
Il paraît que cette semaine est la « launch week » de MiniMax
Ils ont dévoilé M1 lundi, puis Hailuo 2 mardi
infos sur les modèles chinois
On ne sait pas encore si les annonces vont continuer toute la semaine, et pour l’instant l’entreprise est surtout connue pour ses LLM et ses modèles vidéo
Les annonces officielles sont visibles sur le X (anciennement Twitter) de MiniMax
Le rapport technique de MiniMax M1 est aussi intéressant
PDF du rapport technique
Ce n’est pas un modèle open-weight SOTA, mais il avance des affirmations très intéressantes et ambitieuses sur lightning attention et une variante de GRPO (CISPO)
(je n’ai aucun lien avec cette entreprise, je partage simplement des informations glanées ici et là)
En voyant dans le papier arXiv la phrase « We publicly release MiniMax-M1 at this https url », j’ai apprécié que l’entreprise publie du vrai code et pas juste un dépôt vide
Mon avis
Si quelqu’un connaît des experts fiables ou des personnes qui ont des discussions intéressantes sur ce sujet, je suis preneur
Elle prévoirait aussi une cotation prochaine à la Bourse de Hong Kong (HKEX)
article associé
Ce n’est pas explicitement indiqué sur la page officielle, mais MiniMax est une entreprise chinoise
voir Wikipédia
J’aimerais qu’ils choisissent mieux leurs noms de modèles
On dirait un processeur de Mac Studio
C’est repris du nom de ce grand classique de l’IA
Le papier dit : « In our attention design, a transformer block with softmax attention follows every seven transnormer blocks (Qin et al., 2022a) with lightning attention »
Autrement dit, 87,5 % de l’ensemble est en linear attention et 12,5 % en full attention
En réalité, le terme « linear attention » prête à confusion
softmax attention est une méthode de routage de l’information ; lorsqu’on calcule le token k, on peut intégrer l’information provenant de 1 à k, mais elle doit passer par des canaux de taille fixe
En revanche, linear attention ne dispose au niveau de chaque couche que d’une « banque de registres » de taille fixe
Ce n’est pas vraiment de l’attention, à part le fait que c’est compatible avec un calcul couche-par-couche
On dit que MiniMax alimente les rumeurs autour d’une IPO
article associé
S’ils ont entraîné quelque chose d’une telle ampleur sans infrastructure cloud occidentale, je me demande à quoi ressemble leur architecture de traitement des tokens
voir xcancel