MiniMax-M1 en open weights, modèle de raisonnement hybride à grande échelle avec attention

(github.com/MiniMax-AI)

5 points par GN⁺ 2025-06-19 | 1 commentaires | Partager sur WhatsApp

MiniMax-M1 est le premier modèle de raisonnement à grande échelle basé sur une attention hybride en open weights au monde
Sa structure hybride MoE de 456 milliards de paramètres et son mécanisme d’attention Lightning excellent dans le traitement de contextes longs
Grâce à un entraînement fondé sur le RL et à l’introduction de l’algorithme CISPO, il peut résoudre efficacement divers types de problèmes
Sur les benchmarks, il affiche d’excellentes performances face à DeepSeek-R1, Qwen3-235B et d’autres, notamment en ingénierie logicielle complexe, usage d’outils et entrées longues
Avec divers environnements d’inférence, des outils de support, une API et un chatbot, il présente une forte valeur comme base pour les agents de modèles de langage de nouvelle génération

Présentation du projet open source MiniMax-M1

MiniMax-M1 est le premier modèle de raisonnement à grande échelle basé sur une attention hybride en open weights au monde, et montre de solides avantages ainsi qu’une forte utilité en conditions réelles par rapport aux modèles commerciaux et open source existants
Il combine une architecture hybride Mixture-of-Experts (MoE) à grande échelle avec un mécanisme d’attention Lightning, optimisé pour les contextes longs, le raisonnement complexe et la résolution de problèmes en environnement logiciel
Il prend efficacement en charge les longs contextes (jusqu’à 1 million de tokens) et réduit fortement le volume de calcul en test (25 % des FLOPs de DeepSeek-R1 sur une base 100K)
Grâce à des techniques RL de pointe, au nouvel algorithme CISPO et à une conception d’attention hybride, il maximise à la fois la scalabilité et l’efficacité d’inférence

1. Présentation du modèle

MiniMax-M1 embarque une architecture hybride Mixture-of-Experts (MoE) et l’attention Lightning
Il a été développé à partir de son prédécesseur MiniMax-Text-01 (456 milliards de paramètres, dont 45,9 milliards activés par token)
Prise en charge d’une longueur de contexte de 1 million de tokens (soit 8 fois celle de DeepSeek R1)
L’attention Lightning réduit fortement le volume de calcul en test (25 % de celui de DeepSeek R1)
Il est adapté aux tâches nécessitant de longues entrées et un raisonnement complexe
Il a été entraîné à grande échelle via le RL sur un large éventail de problèmes, notamment le raisonnement mathématique et l’ingénierie logicielle en conditions réelles
Il propose un framework propre à MiniMax-M1 pour le passage à l’échelle du RL
- Méthode CISPO : introduction d’un algorithme de clipping des poids d’échantillonnage d’importance supérieur aux approches RL existantes
- Renforcement de l’efficacité et de la scalabilité du RL grâce à l’attention hybride
Deux modèles ont été entraînés et publiés avec des budgets de réflexion 40K et 80K
Il offre des performances remarquables face à des modèles open weights haut de gamme comme DeepSeek-R1 et Qwen3-235B en ingénierie logicielle, usage d’outils et tâches à long contexte
Il fournit une base pour construire des agents de modèles de langage de nouvelle génération capables de relever des défis concrets

2. Évaluation

Principaux points des résultats de benchmark

Niveau proche de l’état de l’art dans les domaines des maths, du code, de l’ingénierie logicielle et des contextes longs
Il obtient globalement des scores élevés par rapport aux autres modèles open source, avec un avantage particulièrement marqué sur les benchmarks logiciels (SWE-bench) et les longs contextes
Exemples d’éléments notables
- SWE-bench : 56.0(M1-80k) / 34.4(Qwen3) / 49.2(DeepSeek R1)
- OpenAI-MRCR(128k) : 73.4(M1-80k) / 27.7(Qwen3) / 35.8(DeepSeek R1)
- Solide sur des tâches liées au développement logiciel comme LiveCodeBench et FullStackBench
Environnement d’exécution : évaluation avec temperature 1.0 et top_p 0.95
Pour des benchmarks comme SWE-bench et TAU-bench, l’évaluation a été menée selon des procédures et réglages propres (par ex. localisation locale en deux étapes au niveau fichier, sans usage d’embeddings)

3. Guide d’utilisation du modèle MiniMax-M1

Réglages recommandés pour des performances optimales

3.1. Paramètres d’inférence

Temperature : 1.0
Top_p : 0.95
Cette combinaison fournit un cadre qui assure à la fois diversité textuelle et cohérence logique

3.2. Prompt système

Usage général : "You are a helpful assistant."
Développement web : prompt spécialisé proposé pour des tâches complexes de pages web, comme la génération de code UI tout-en-un
Raisonnement mathématique : résoudre étape par étape puis inscrire la réponse finale dans \boxed{}

4. Guide de déploiement

Les modèles MiniMax-M1-40k et MiniMax-M1-80k peuvent être téléchargés sur HuggingFace
Pour un service en production, un déploiement basé sur vLLM est recommandé
- Gestion mémoire efficace, excellent traitement par lots et optimisation des performances, adaptés au serving de grands modèles
Un déploiement séparé basé sur Transformers est également pris en charge

5. Appel de fonctions (interface de type fonctionnel)

MiniMax-M1 prend en charge l’appel de fonctions
- Lorsqu’une fonction externe est nécessaire, il produit automatiquement les paramètres sous forme structurée
- Un guide d’appel de fonctions est fourni

6. Chatbot & API

MiniMax Chatbot : propose une interface de chat incluant même la recherche en ligne
API : fournit une API en ligne pour développeurs ainsi que des outils comme MiniMax MCP Server
- Inclut la synthèse IA de vidéos, d’images et de voix, ainsi que le voice cloning

1 commentaires

GN⁺ 2025-06-19

Commentaires sur Hacker News

Pour ceux qui se demandent ce qu’il faut pour faire tourner ça, il faut 8 H200 de 141 Go, pour un prix d’environ 25000 $
discussion GitHub / prix du produit sur eBay
- Je me demande si ça ne pourrait pas tourner sur un Mac Studio 512 Go, pour environ 800 $
- C’est en supposant une quantification complète ; en Q4 ou Q8, ça pourrait tourner sur une machine à moins de 1000 $
- Je me demande combien de paramètres ce modèle a
Il paraît que cette semaine est la « launch week » de MiniMax
Ils ont dévoilé M1 lundi, puis Hailuo 2 mardi
infos sur les modèles chinois
On ne sait pas encore si les annonces vont continuer toute la semaine, et pour l’instant l’entreprise est surtout connue pour ses LLM et ses modèles vidéo
Les annonces officielles sont visibles sur le X (anciennement Twitter) de MiniMax
Le rapport technique de MiniMax M1 est aussi intéressant
PDF du rapport technique
Ce n’est pas un modèle open-weight SOTA, mais il avance des affirmations très intéressantes et ambitieuses sur lightning attention et une variante de GRPO (CISPO)
(je n’ai aucun lien avec cette entreprise, je partage simplement des informations glanées ici et là)
- Puisqu’ils ont fait M1 lundi et Hailuo 2 mardi, ça aurait été amusant de suivre le style des puces Apple avec des noms comme M1, M1 Pro et M1 Ultra
En voyant dans le papier arXiv la phrase « We publicly release MiniMax-M1 at this https url », j’ai apprécié que l’entreprise publie du vrai code et pas juste un dépôt vide
Mon avis
- D’après LinkedIn, cela semble être une entreprise basée à Singapour, et la barrière à l’entrée pour produire de bons LLM ne paraît pas si élevée
- Grâce aux modèles open-weight et aux progrès de Strix Halo / Ryzen AI Max, je suis optimiste sur le fait qu’on pourra faire tourner de bons LLM localement à bas coût d’ici quelques années
- On sent que l’exécution locale des modèles va devenir inévitable, ce qui suscite à la fois de l’enthousiasme et de l’inquiétude
  Si quelqu’un connaît des experts fiables ou des personnes qui ont des discussions intéressantes sur ce sujet, je suis preneur
- Contrairement à ce qui est indiqué sur LinkedIn, c’est en réalité une entreprise basée à Shanghai
- J’ai vu ce post Twitter indiquant que MiniMax a entraîné le modèle avec un budget d’environ 5000 $
  
  Entraînement RL (apprentissage par renforcement) pour 53400 $
  Je me demande comment c’est possible avec un tel coût
- Cette entreprise est bien une société chinoise basée à Shanghai
  Elle prévoirait aussi une cotation prochaine à la Bourse de Hong Kong (HKEX)
  article associé
Ce n’est pas explicitement indiqué sur la page officielle, mais MiniMax est une entreprise chinoise
voir Wikipédia
- Beaucoup de gens savent que MiniMax est une entreprise chinoise parce que leur générateur vidéo a un nom très connoté chinois, « Hailuo », et que c’est ce qui les a rendus connus jusqu’ici
- On peut se demander s’il y a vraiment une raison de préciser sur leur page projet qu’il s’agit d’une entreprise chinoise
J’aimerais qu’ils choisissent mieux leurs noms de modèles
On dirait un processeur de Mac Studio
- Je connais l’algorithme minimax
  C’est repris du nom de ce grand classique de l’IA
- Ton Mac est fabriqué par « Apple », un nom qui vient littéralement d’une variété de pomme
- Ça me rappelle mon vieux chien perdu depuis longtemps, qui s’appelait Max ; je trouve que c’est un nom tellement mauvais que ça en devient presque criminel
Le papier dit : « In our attention design, a transformer block with softmax attention follows every seven transnormer blocks (Qin et al., 2022a) with lightning attention »
Autrement dit, 87,5 % de l’ensemble est en linear attention et 12,5 % en full attention
En réalité, le terme « linear attention » prête à confusion
softmax attention est une méthode de routage de l’information ; lorsqu’on calcule le token k, on peut intégrer l’information provenant de 1 à k, mais elle doit passer par des canaux de taille fixe
En revanche, linear attention ne dispose au niveau de chaque couche que d’une « banque de registres » de taille fixe
Ce n’est pas vraiment de l’attention, à part le fait que c’est compatible avec un calcul couche-par-couche
On dit que MiniMax alimente les rumeurs autour d’une IPO
article associé
S’ils ont entraîné quelque chose d’une telle ampleur sans infrastructure cloud occidentale, je me demande à quoi ressemble leur architecture de traitement des tokens
- Entraînement pendant 3 semaines sur 512 GPU H800, pour environ 5000 $
  voir xcancel
- En sneakernet (transport physique des données)

MiniMax-M1 en open weights, modèle de raisonnement hybride à grande échelle avec attention

Présentation du projet open source MiniMax-M1

1. Présentation du modèle

2. Évaluation

Principaux points des résultats de benchmark

3. Guide d’utilisation du modèle MiniMax-M1

Réglages recommandés pour des performances optimales

3.1. Paramètres d’inférence

3.2. Prompt système

4. Guide de déploiement

5. Appel de fonctions (interface de type fonctionnel)

6. Chatbot & API

À lire aussi

1 commentaires

Commentaires sur Hacker News