- Un modèle entraîné à grande échelle par apprentissage par renforcement, conçu pour améliorer l’exécution de tâches complexes en environnement réel, avec des performances de premier plan dans des domaines à forte valeur économique comme le codage, la recherche et le travail bureautique
- Il atteint 80,2 % sur SWE-Bench Verified, 51,3 % sur Multi-SWE-Bench et 76,3 % sur BrowseComp, tout en affichant une vitesse 37 % plus rapide que la génération précédente
- Il peut être exploité à 1 dollar par heure (sur la base de 100 TPS) à faible coût, avec un niveau de performance comparable à Claude Opus 4.6
- Il renforce les capacités de travail de codage, de recherche et de bureautique en matière de raisonnement structuré, de recherche efficace et de rédaction de documents de niveau expert
- Même en interne chez MiniMax, il automatise 30 % de l’ensemble des tâches, prend en charge 80 % de la génération de code et démontre ainsi un gain réel de productivité
Vue d’ensemble de M2.5 et principales performances
- M2.5 est un modèle entraîné par apprentissage par renforcement dans des centaines de milliers d’environnements réels complexes, atteignant un niveau SOTA en codage, usage d’outils, recherche et travail de bureau
- Résultats : 80,2 % sur SWE-Bench Verified, 51,3 % sur Multi-SWE-Bench, 76,3 % sur BrowseComp (gestion du contexte incluse)
- Dans l’évaluation SWE-Bench Verified, il termine les tâches à une vitesse 37 % supérieure à M2.1, avec une vitesse de traitement équivalente à Claude Opus 4.6
- Exploitable à 1 dollar par heure sur la base de 100 TPS et à 0,3 dollar sur la base de 50 TPS, ce qui en fait un modèle à l’efficacité économique maximale
Performances en codage
- Il atteint un niveau SOTA sur les tâches de codage multilingues, avec d’excellentes performances notamment dans plus de 10 langages (Go, C, C++, TypeScript, Rust, Kotlin, Python, Java, JavaScript, PHP, Lua, Dart, Ruby)
- Il dispose d’une structure de pensée de type architecte qui effectue la conception système, la composition de l’interface utilisateur et la décomposition fonctionnelle avant l’écriture du code
- Entraîné dans plus de 200 000 environnements réels, il prend en charge non seulement la correction de bugs mais aussi l’ensemble du cycle de vie du développement (conception → développement → itération des fonctionnalités → tests)
- Sur le benchmark VIBE-Pro, il affiche des performances comparables à Opus 4.5, et sur SWE-Bench Verified :
- Droid: 79.7(M2.5) > 78.9(Opus 4.6)
- OpenCode: 76.1(M2.5) > 75.9(Opus 4.6)
Recherche et appels d’outils
- Il atteint des performances parmi les meilleures du secteur sur BrowseComp, Wide Search et d’autres évaluations
- Avec RISE (Realistic Interactive Search Evaluation), ses capacités de recherche au niveau d’un expert en situation réelle ont été vérifiées
- Il obtient les mêmes résultats avec 20 % de tours de recherche en moins que la génération précédente, avec une meilleure efficacité en tokens
- Sur des tâches d’agent complexes, il produit des résultats grâce à des trajectoires d’exploration précises et un processus de raisonnement efficace
Capacités pour le travail bureautique
- Les données ont été construites et les retours intégrés en collaboration avec des experts en finance, droit et sciences sociales
- Ses capacités ont été renforcées pour produire des documents professionnels et de la modélisation financière dans Word, PowerPoint, Excel et autres outils
- Dans le framework d’évaluation interne GDPval-MM, il enregistre un taux de victoire moyen de 59,0 %
- Le gain de productivité par coût en tokens a été mesuré directement afin de valider l’efficacité en situation de travail réelle
Efficacité et vitesse
- Vitesse de traitement de base de 100 TPS, soit environ 2 fois plus rapide que les autres modèles
- Selon SWE-Bench Verified :
- M2.5 : moyenne de 3.52M tokens, 22,8 minutes
- M2.1 : 3.72M tokens, 31,3 minutes
- 37 % d’amélioration de la vitesse, au même niveau que Claude Opus 4.6 (22,9 minutes)
- Le coût représente 10 % de celui d’Opus 4.6
Structure des coûts
- Deux versions sont proposées : M2.5-Lightning(100TPS) et M2.5(50TPS)
- Lightning : 0,3 $ par million de tokens en entrée, 2,4 $ par million de tokens en sortie
- M2.5 : moitié moins que ces tarifs
- Le coût en sortie est de l’ordre de 1/10 à 1/20 de celui d’Opus, Gemini 3 Pro et GPT-5
- Pour une exécution continue d’1 heure : 1 $ à 100 TPS, 0,3 $ à 50 TPS
- Avec 10 000 $ par an, il est possible d’exploiter en continu 4 instances, ce qui le rend adapté aux opérations d’agents à grande échelle
Rythme d’amélioration du modèle
- En trois mois et demi, MiniMax a lancé successivement M2 → M2.1 → M2.5, avec un rythme d’amélioration plus rapide que celui des modèles concurrents (Claude, GPT, Gemini)
- Il enregistre une forte progression des performances sur SWE-Bench Verified
Extension de l’apprentissage par renforcement (RL Scaling)
- Des centaines de milliers d’environnements RL ont été construits et utilisés pour entraîner le modèle
- Le framework d’agent RL Forge a été développé en interne
- Séparation complète entre moteur d’entraînement, moteur d’inférence et agents
- Grâce à une optimisation de l’ordonnancement asynchrone et à une stratégie de fusion d’arbres, la vitesse d’entraînement a été multipliée par 40
- L’algorithme CISPO est utilisé pour garantir la stabilité des grands modèles MoE
- Un mécanisme de récompense de processus permet de surveiller la qualité même sur de longs contextes
- Un système d’évaluation du temps de travail a été introduit pour équilibrer intelligence et vitesse de réponse
Intégration à MiniMax Agent
- M2.5 est entièrement intégré à MiniMax Agent afin d’offrir une expérience d’agent au niveau d’un employé expert
- Les Office Skills (Word, PowerPoint, Excel, etc.) sont chargées automatiquement pour améliorer la qualité des documents
- Les utilisateurs peuvent combiner les Office Skills avec une expertise métier sectorielle pour créer des Experts personnalisés
- Exemples : rédaction automatique de rapports de recherche, génération et vérification automatiques de modèles financiers
- Plus de 10 000 Experts ont déjà été créés, et leur nombre augmente rapidement
- En interne chez MiniMax, M2.5 automatise 30 % de l’ensemble des tâches
- Il est utilisé dans tous les départements : R&D, produit, ventes, RH, finance, etc.
- 80 % du nouveau code commité est généré par M2.5
Annexe : résumé des méthodes d’évaluation
- Utilisation de divers benchmarks internes et externes tels que SWE-bench, Terminal Bench 2, VIBE-Pro, BrowseComp, Wide Search, RISE, GDPval-MM, MEWC, Finance Modeling
- Tous les tests ont été calculés via un pipeline unifié et une moyenne sur plusieurs exécutions répétées
- L’environnement d’évaluation comprend un CPU 8 cœurs, 16 Go de mémoire, une limite de 7200 secondes et un ensemble d’outils standard
1 commentaires
Réactions sur Hacker News
J’espère voir arriver davantage de modèles meilleurs et moins chers
Une concurrence active est nécessaire pour garder un marché sain
Mais il faut rester prudent avec les résultats de benchmark
MiniMax 2.1 est correct, mais difficile de dire qu’il est vraiment « intelligent »
Il a notamment tendance à manipuler la base de code pour faire passer les tests
Il lui arrive même de maquiller ses rapports pour faire croire que des tests en échec ont réussi
D’après les métriques d’Artificial Analysis, MiniMax 2.1 obtient un score de 33 en code, très loin des meilleurs modèles
Quand on leur demande de résoudre un problème algorithmique, s’ils n’y arrivent pas, ils finissent par coder les cas de test en dur
DeepSeek s’est déjà comporté comme ça à une époque
Au lieu de corriger une simple erreur de type, il abuse des cast ou de
Anypour masquer le problèmeEn gros, il évitait la vérification de types au lieu de faire une vraie correction
À la place, MiMo v2 Flash offrait un bien meilleur rapport qualité-prix
L’image du pélican reste reconnaissable, mais le rendu est faible
En particulier, il manque une barre dans le cadre du vélo
Image associée
La plupart des modèles produisent une roue avant impossible à diriger, et ici ça ressemble plutôt à un aveu honnête de « problème non résolu »
Un peu comme laisser un commentaire « TODO » dans du code
Vu la longueur des pattes du pélican, la posture paraît même étonnamment naturelle d’un point de vue anatomique
MiniMax M2.1 est le modèle que j’utilise le plus souvent
Il est rapide, peu coûteux et très bon en appels d’outils
Pour le développement, j’utilise Antigravity + Claude, mais dans mon workflow, je commence par MiniMax
Pour le code, j’utilise GLM, et pour l’analyse en anglais, Kimi K2.5
Je ne fais pas encore de self-hosting, mais je préfère les modèles OSS chinois
Parce qu’ils offrent la possibilité de les héberger soi-même à l’avenir
Mon assistant openclaw tourne aussi sur MiniMax, et c’est lui qui offre le meilleur équilibre entre vitesse, qualité et coût
À 100 tokens/sec pendant 1 heure, on est à 1 $, et à 50 tokens/sec, autour de 0,30 $
Je me demande si tu l’utilises via API ou via un abonnement mensuel
Et si les forfaits mensuels ont des limites de vitesse ou des remises à zéro
Moi aussi, j’ai l’impression que MM2.1 est le plus économique, et que K2.5 est le plus solide globalement
Je vais aller le chercher tout de suite sur OpenRouter
Les benchmarks ont l’air trop bons, donc ça me rend méfiant
La méthode d’entraînement est intéressante, mais je ne suis pas sûr qu’elle soit vraiment révolutionnaire
J’évalue la crédibilité des benchmarks à partir des caractéristiques objectives du modèle et de mon expérience passée
Par exemple, Kimi K2.5 donne réellement une impression d’équilibre et d’intelligence, donc ses chiffres paraissent crédibles
GLM 5 avait déjà publié des benchmarks exagérés, mais cette fois le modèle a nettement progressé en taille et en architecture, donc c’est plausible
En revanche, MiniMax a toujours été un modèle fragile qui tombe facilement dans des boucles d’erreur
Il cassait souvent même du code JavaScript simple, et comme sa taille est trop réduite, j’ai du mal à croire aux performances annoncées cette fois-ci
M2 était un cas typique de gonflage des scores de benchmark
Il y avait un gros écart entre les résultats SWE-B et les tâches réelles non vues à l’entraînement
La version 2.5 doit être ajoutée au power ranking de brokk.ai
Dans notre entreprise, Github Copilot n’autorise que les LLM d’OpenAI, Anthropic et Google
Résultat, les crédits sont épuisés en une semaine
J’aimerais pouvoir utiliser une plus grande variété de LLM
J’ai testé M2.5 sur des tâches simples dans OpenCode, et les résultats étaient mauvais
C’était juste un script autonome de 250 lignes, mais là où Opus 4.6 s’en sort avec quelques indices, M2.5 n’y arrive pas sans prompts extrêmement détaillés
Lien vers le code testé
Ce qui est intéressant, c’est que les entreprises de taille intermédiaire (Tier-2) ne sortent pratiquement aucun modèle concurrent
Au final, on a surtout un affrontement entre les Big Four des labos et les labos chinois
J’aimerais voir des LLM spécialisés par langage tourner sur des ordinateurs ordinaires
Par exemple, un modèle entraîné uniquement sur Python 3+, un framework précis et un dépôt de code donné
Cela permettrait aussi de réduire les coûts en le séparant d’un modèle dédié à la recherche sur Internet
On dit que ce modèle coûte 1 $ de l’heure, ce qui le place à peu près au niveau de mon forfait Claude Code à 200 $/mois
En pratique, j’en fais tourner environ trois en parallèle chaque jour, pour quelque chose comme 60 heures par semaine
Ce serait intéressant s’il existait un usage justifiant de le faire tourner en continu 24/7, mais pour l’instant je ne vois pas bien
Je me demande si quelqu’un l’utilise déjà de cette manière