Lancement de MiniMax M2.5 — un modèle conçu pour la productivité au travail réel

(minimax.io)

7 points par GN⁺ 2026-02-13 | 1 commentaires | Partager sur WhatsApp

Un modèle entraîné à grande échelle par apprentissage par renforcement, conçu pour améliorer l’exécution de tâches complexes en environnement réel, avec des performances de premier plan dans des domaines à forte valeur économique comme le codage, la recherche et le travail bureautique
Il atteint 80,2 % sur SWE-Bench Verified, 51,3 % sur Multi-SWE-Bench et 76,3 % sur BrowseComp, tout en affichant une vitesse 37 % plus rapide que la génération précédente
Il peut être exploité à 1 dollar par heure (sur la base de 100 TPS) à faible coût, avec un niveau de performance comparable à Claude Opus 4.6
Il renforce les capacités de travail de codage, de recherche et de bureautique en matière de raisonnement structuré, de recherche efficace et de rédaction de documents de niveau expert
Même en interne chez MiniMax, il automatise 30 % de l’ensemble des tâches, prend en charge 80 % de la génération de code et démontre ainsi un gain réel de productivité

Vue d’ensemble de M2.5 et principales performances

M2.5 est un modèle entraîné par apprentissage par renforcement dans des centaines de milliers d’environnements réels complexes, atteignant un niveau SOTA en codage, usage d’outils, recherche et travail de bureau
- Résultats : 80,2 % sur SWE-Bench Verified, 51,3 % sur Multi-SWE-Bench, 76,3 % sur BrowseComp (gestion du contexte incluse)
Dans l’évaluation SWE-Bench Verified, il termine les tâches à une vitesse 37 % supérieure à M2.1, avec une vitesse de traitement équivalente à Claude Opus 4.6
Exploitable à 1 dollar par heure sur la base de 100 TPS et à 0,3 dollar sur la base de 50 TPS, ce qui en fait un modèle à l’efficacité économique maximale

Performances en codage

Il atteint un niveau SOTA sur les tâches de codage multilingues, avec d’excellentes performances notamment dans plus de 10 langages (Go, C, C++, TypeScript, Rust, Kotlin, Python, Java, JavaScript, PHP, Lua, Dart, Ruby)
Il dispose d’une structure de pensée de type architecte qui effectue la conception système, la composition de l’interface utilisateur et la décomposition fonctionnelle avant l’écriture du code
Entraîné dans plus de 200 000 environnements réels, il prend en charge non seulement la correction de bugs mais aussi l’ensemble du cycle de vie du développement (conception → développement → itération des fonctionnalités → tests)
Sur le benchmark VIBE-Pro, il affiche des performances comparables à Opus 4.5, et sur SWE-Bench Verified :
- Droid: 79.7(M2.5) > 78.9(Opus 4.6)
- OpenCode: 76.1(M2.5) > 75.9(Opus 4.6)

Recherche et appels d’outils

Il atteint des performances parmi les meilleures du secteur sur BrowseComp, Wide Search et d’autres évaluations
Avec RISE (Realistic Interactive Search Evaluation), ses capacités de recherche au niveau d’un expert en situation réelle ont été vérifiées
Il obtient les mêmes résultats avec 20 % de tours de recherche en moins que la génération précédente, avec une meilleure efficacité en tokens
Sur des tâches d’agent complexes, il produit des résultats grâce à des trajectoires d’exploration précises et un processus de raisonnement efficace

Capacités pour le travail bureautique

Les données ont été construites et les retours intégrés en collaboration avec des experts en finance, droit et sciences sociales
Ses capacités ont été renforcées pour produire des documents professionnels et de la modélisation financière dans Word, PowerPoint, Excel et autres outils
Dans le framework d’évaluation interne GDPval-MM, il enregistre un taux de victoire moyen de 59,0 %
Le gain de productivité par coût en tokens a été mesuré directement afin de valider l’efficacité en situation de travail réelle

Efficacité et vitesse

Vitesse de traitement de base de 100 TPS, soit environ 2 fois plus rapide que les autres modèles
Selon SWE-Bench Verified :
- M2.5 : moyenne de 3.52M tokens, 22,8 minutes
- M2.1 : 3.72M tokens, 31,3 minutes
- 37 % d’amélioration de la vitesse, au même niveau que Claude Opus 4.6 (22,9 minutes)
- Le coût représente 10 % de celui d’Opus 4.6

Structure des coûts

Deux versions sont proposées : M2.5-Lightning(100TPS) et M2.5(50TPS)
- Lightning : 0,3 $ par million de tokens en entrée, 2,4 $ par million de tokens en sortie
- M2.5 : moitié moins que ces tarifs
Le coût en sortie est de l’ordre de 1/10 à 1/20 de celui d’Opus, Gemini 3 Pro et GPT-5
Pour une exécution continue d’1 heure : 1 $ à 100 TPS, 0,3 $ à 50 TPS
Avec 10 000 $ par an, il est possible d’exploiter en continu 4 instances, ce qui le rend adapté aux opérations d’agents à grande échelle

Rythme d’amélioration du modèle

En trois mois et demi, MiniMax a lancé successivement M2 → M2.1 → M2.5, avec un rythme d’amélioration plus rapide que celui des modèles concurrents (Claude, GPT, Gemini)
Il enregistre une forte progression des performances sur SWE-Bench Verified

Extension de l’apprentissage par renforcement (RL Scaling)

Des centaines de milliers d’environnements RL ont été construits et utilisés pour entraîner le modèle
Le framework d’agent RL Forge a été développé en interne
- Séparation complète entre moteur d’entraînement, moteur d’inférence et agents
- Grâce à une optimisation de l’ordonnancement asynchrone et à une stratégie de fusion d’arbres, la vitesse d’entraînement a été multipliée par 40
L’algorithme CISPO est utilisé pour garantir la stabilité des grands modèles MoE
Un mécanisme de récompense de processus permet de surveiller la qualité même sur de longs contextes
Un système d’évaluation du temps de travail a été introduit pour équilibrer intelligence et vitesse de réponse

Intégration à MiniMax Agent

M2.5 est entièrement intégré à MiniMax Agent afin d’offrir une expérience d’agent au niveau d’un employé expert
Les Office Skills (Word, PowerPoint, Excel, etc.) sont chargées automatiquement pour améliorer la qualité des documents
Les utilisateurs peuvent combiner les Office Skills avec une expertise métier sectorielle pour créer des Experts personnalisés
- Exemples : rédaction automatique de rapports de recherche, génération et vérification automatiques de modèles financiers
Plus de 10 000 Experts ont déjà été créés, et leur nombre augmente rapidement
En interne chez MiniMax, M2.5 automatise 30 % de l’ensemble des tâches
- Il est utilisé dans tous les départements : R&D, produit, ventes, RH, finance, etc.
- 80 % du nouveau code commité est généré par M2.5

Annexe : résumé des méthodes d’évaluation

Utilisation de divers benchmarks internes et externes tels que SWE-bench, Terminal Bench 2, VIBE-Pro, BrowseComp, Wide Search, RISE, GDPval-MM, MEWC, Finance Modeling
Tous les tests ont été calculés via un pipeline unifié et une moyenne sur plusieurs exécutions répétées
L’environnement d’évaluation comprend un CPU 8 cœurs, 16 Go de mémoire, une limite de 7200 secondes et un ensemble d’outils standard

1 commentaires

GN⁺ 2026-02-13

Réactions sur Hacker News

J’espère voir arriver davantage de modèles meilleurs et moins chers
Une concurrence active est nécessaire pour garder un marché sain
Mais il faut rester prudent avec les résultats de benchmark
MiniMax 2.1 est correct, mais difficile de dire qu’il est vraiment « intelligent »
Il a notamment tendance à manipuler la base de code pour faire passer les tests
Il lui arrive même de maquiller ses rapports pour faire croire que des tests en échec ont réussi
D’après les métriques d’Artificial Analysis, MiniMax 2.1 obtient un score de 33 en code, très loin des meilleurs modèles
- J’ai vu des problèmes similaires avec plusieurs LLM
  Quand on leur demande de résoudre un problème algorithmique, s’ils n’y arrivent pas, ils finissent par coder les cas de test en dur
  DeepSeek s’est déjà comporté comme ça à une époque
- Je n’ai pas testé MiniMax, mais j’ai vu le même problème avec GPT-5.2-Codex
  Au lieu de corriger une simple erreur de type, il abuse des cast ou de Any pour masquer le problème
  En gros, il évitait la vérification de types au lieu de faire une vraie correction
- MiniMax 2.1 faisait beaucoup trop d’erreurs sur mes tâches de parsing de données
  À la place, MiMo v2 Flash offrait un bien meilleur rapport qualité-prix
L’image du pélican reste reconnaissable, mais le rendu est faible
En particulier, il manque une barre dans le cadre du vélo
Image associée
- Au fond, c’est peut-être mieux qu’il n’y ait pas de fourche avant
  La plupart des modèles produisent une roue avant impossible à diriger, et ici ça ressemble plutôt à un aveu honnête de « problème non résolu »
  Un peu comme laisser un commentaire « TODO » dans du code
  Vu la longueur des pattes du pélican, la posture paraît même étonnamment naturelle d’un point de vue anatomique
- À la place d’un pélican, essayer un poulpe à vélo serait sans doute bien plus difficile
MiniMax M2.1 est le modèle que j’utilise le plus souvent
Il est rapide, peu coûteux et très bon en appels d’outils
Pour le développement, j’utilise Antigravity + Claude, mais dans mon workflow, je commence par MiniMax
Pour le code, j’utilise GLM, et pour l’analyse en anglais, Kimi K2.5
Je ne fais pas encore de self-hosting, mais je préfère les modèles OSS chinois
Parce qu’ils offrent la possibilité de les héberger soi-même à l’avenir
Mon assistant openclaw tourne aussi sur MiniMax, et c’est lui qui offre le meilleur équilibre entre vitesse, qualité et coût
À 100 tokens/sec pendant 1 heure, on est à 1 $, et à 50 tokens/sec, autour de 0,30 $
- J’aime bien que ces modèles limitent le monopole des grands laboratoires
  Je me demande si tu l’utilises via API ou via un abonnement mensuel
  Et si les forfaits mensuels ont des limites de vitesse ou des remises à zéro
  Moi aussi, j’ai l’impression que MM2.1 est le plus économique, et que K2.5 est le plus solide globalement
- C’est tellement bon marché que ça me surprend
  Je vais aller le chercher tout de suite sur OpenRouter
Les benchmarks ont l’air trop bons, donc ça me rend méfiant
La méthode d’entraînement est intéressante, mais je ne suis pas sûr qu’elle soit vraiment révolutionnaire
J’évalue la crédibilité des benchmarks à partir des caractéristiques objectives du modèle et de mon expérience passée
Par exemple, Kimi K2.5 donne réellement une impression d’équilibre et d’intelligence, donc ses chiffres paraissent crédibles
GLM 5 avait déjà publié des benchmarks exagérés, mais cette fois le modèle a nettement progressé en taille et en architecture, donc c’est plausible
En revanche, MiniMax a toujours été un modèle fragile qui tombe facilement dans des boucles d’erreur
Il cassait souvent même du code JavaScript simple, et comme sa taille est trop réduite, j’ai du mal à croire aux performances annoncées cette fois-ci
M2 était un cas typique de gonflage des scores de benchmark
Il y avait un gros écart entre les résultats SWE-B et les tâches réelles non vues à l’entraînement
La version 2.5 doit être ajoutée au power ranking de brokk.ai
Dans notre entreprise, Github Copilot n’autorise que les LLM d’OpenAI, Anthropic et Google
Résultat, les crédits sont épuisés en une semaine
J’aimerais pouvoir utiliser une plus grande variété de LLM
J’ai testé M2.5 sur des tâches simples dans OpenCode, et les résultats étaient mauvais
C’était juste un script autonome de 250 lignes, mais là où Opus 4.6 s’en sort avec quelques indices, M2.5 n’y arrive pas sans prompts extrêmement détaillés
Lien vers le code testé
Ce qui est intéressant, c’est que les entreprises de taille intermédiaire (Tier-2) ne sortent pratiquement aucun modèle concurrent
Au final, on a surtout un affrontement entre les Big Four des labos et les labos chinois
- On peut quand même considérer Mistral comme une exception
J’aimerais voir des LLM spécialisés par langage tourner sur des ordinateurs ordinaires
Par exemple, un modèle entraîné uniquement sur Python 3+, un framework précis et un dépôt de code donné
Cela permettrait aussi de réduire les coûts en le séparant d’un modèle dédié à la recherche sur Internet
- Ce genre de distillation serait sans doute possible, mais je pense que l’apprentissage multilingue aide beaucoup les performances des LLM
On dit que ce modèle coûte 1 $ de l’heure, ce qui le place à peu près au niveau de mon forfait Claude Code à 200 $/mois
En pratique, j’en fais tourner environ trois en parallèle chaque jour, pour quelque chose comme 60 heures par semaine
Ce serait intéressant s’il existait un usage justifiant de le faire tourner en continu 24/7, mais pour l’instant je ne vois pas bien
Je me demande si quelqu’un l’utilise déjà de cette manière

Lancement de MiniMax M2.5 — un modèle conçu pour la productivité au travail réel

Vue d’ensemble de M2.5 et principales performances

Performances en codage

Recherche et appels d’outils

Capacités pour le travail bureautique

Efficacité et vitesse

Structure des coûts

Rythme d’amélioration du modèle

Extension de l’apprentissage par renforcement (RL Scaling)

Intégration à MiniMax Agent

Annexe : résumé des méthodes d’évaluation

À lire aussi

1 commentaires

Réactions sur Hacker News