Lancement de MiniMax M2.5 — un modèle conçu pour la productivité au travail réel

(minimax.io)

7 points par GN⁺ 2026-02-13 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Un modèle entraîné à grande échelle par apprentissage par renforcement, conçu pour améliorer l’exécution de tâches complexes en environnement réel, avec des performances de premier plan dans des domaines à forte valeur économique comme le codage, la recherche et le travail bureautique
Il atteint 80,2 % sur SWE-Bench Verified, 51,3 % sur Multi-SWE-Bench et 76,3 % sur BrowseComp, tout en affichant une vitesse 37 % plus rapide que la génération précédente
Il peut être exploité à 1 dollar par heure (sur la base de 100 TPS) à faible coût, avec un niveau de performance comparable à Claude Opus 4.6
Il renforce les capacités de travail de codage, de recherche et de bureautique en matière de raisonnement structuré, de recherche efficace et de rédaction de documents de niveau expert
Même en interne chez MiniMax, il automatise 30 % de l’ensemble des tâches, prend en charge 80 % de la génération de code et démontre ainsi un gain réel de productivité

Vue d’ensemble de M2.5 et principales performances

M2.5 est un modèle entraîné par apprentissage par renforcement dans des centaines de milliers d’environnements réels complexes, atteignant un niveau SOTA en codage, usage d’outils, recherche et travail de bureau
- Résultats : 80,2 % sur SWE-Bench Verified, 51,3 % sur Multi-SWE-Bench, 76,3 % sur BrowseComp (gestion du contexte incluse)
Dans l’évaluation SWE-Bench Verified, il termine les tâches à une vitesse 37 % supérieure à M2.1, avec une vitesse de traitement équivalente à Claude Opus 4.6
Exploitable à 1 dollar par heure sur la base de 100 TPS et à 0,3 dollar sur la base de 50 TPS, ce qui en fait un modèle à l’efficacité économique maximale

Il atteint un niveau SOTA sur les tâches de codage multilingues, avec d’excellentes performances notamment dans plus de 10 langages (Go, C, C++, TypeScript, Rust, Kotlin, Python, Java, JavaScript, PHP, Lua, Dart, Ruby)
Il dispose d’une structure de pensée de type architecte qui effectue la conception système, la composition de l’interface utilisateur et la décomposition fonctionnelle avant l’écriture du code
Entraîné dans plus de 200 000 environnements réels, il prend en charge non seulement la correction de bugs mais aussi l’ensemble du cycle de vie du développement (conception → développement → itération des fonctionnalités → tests)
Sur le benchmark VIBE-Pro, il affiche des performances comparables à Opus 4.5, et sur SWE-Bench Verified :
- Droid: 79.7(M2.5) > 78.9(Opus 4.6)
- OpenCode: 76.1(M2.5) > 75.9(Opus 4.6)

Il atteint des performances parmi les meilleures du secteur sur BrowseComp, Wide Search et d’autres évaluations
Avec RISE (Realistic Interactive Search Evaluation), ses capacités de recherche au niveau d’un expert en situation réelle ont été vérifiées
Il obtient les mêmes résultats avec 20 % de tours de recherche en moins que la génération précédente, avec une meilleure efficacité en tokens
Sur des tâches d’agent complexes, il produit des résultats grâce à des trajectoires d’exploration précises et un processus de raisonnement efficace

Les données ont été construites et les retours intégrés en collaboration avec des experts en finance, droit et sciences sociales
Ses capacités ont été renforcées pour produire des documents professionnels et de la modélisation financière dans Word, PowerPoint, Excel et autres outils
Dans le framework d’évaluation interne GDPval-MM, il enregistre un taux de victoire moyen de 59,0 %
Le gain de productivité par coût en tokens a été mesuré directement afin de valider l’efficacité en situation de travail réelle

Vitesse de traitement de base de 100 TPS, soit environ 2 fois plus rapide que les autres modèles
Selon SWE-Bench Verified :
- M2.5 : moyenne de 3.52M tokens, 22,8 minutes
- M2.1 : 3.72M tokens, 31,3 minutes
- 37 % d’amélioration de la vitesse, au même niveau que Claude Opus 4.6 (22,9 minutes)
- Le coût représente 10 % de celui d’Opus 4.6

Deux versions sont proposées : M2.5-Lightning(100TPS) et M2.5(50TPS)
- Lightning : 0,3 $ par million de tokens en entrée, 2,4 $ par million de tokens en sortie
- M2.5 : moitié moins que ces tarifs
Le coût en sortie est de l’ordre de 1/10 à 1/20 de celui d’Opus, Gemini 3 Pro et GPT-5
Pour une exécution continue d’1 heure : 1 $ à 100 TPS, 0,3 $ à 50 TPS
Avec 10 000 $ par an, il est possible d’exploiter en continu 4 instances, ce qui le rend adapté aux opérations d’agents à grande échelle

En trois mois et demi, MiniMax a lancé successivement M2 → M2.1 → M2.5, avec un rythme d’amélioration plus rapide que celui des modèles concurrents (Claude, GPT, Gemini)
Il enregistre une forte progression des performances sur SWE-Bench Verified

Des centaines de milliers d’environnements RL ont été construits et utilisés pour entraîner le modèle
Le framework d’agent RL Forge a été développé en interne
- Séparation complète entre moteur d’entraînement, moteur d’inférence et agents
- Grâce à une optimisation de l’ordonnancement asynchrone et à une stratégie de fusion d’arbres, la vitesse d’entraînement a été multipliée par 40
L’algorithme CISPO est utilisé pour garantir la stabilité des grands modèles MoE
Un mécanisme de récompense de processus permet de surveiller la qualité même sur de longs contextes
Un système d’évaluation du temps de travail a été introduit pour équilibrer intelligence et vitesse de réponse

M2.5 est entièrement intégré à MiniMax Agent afin d’offrir une expérience d’agent au niveau d’un employé expert
Les Office Skills (Word, PowerPoint, Excel, etc.) sont chargées automatiquement pour améliorer la qualité des documents
Les utilisateurs peuvent combiner les Office Skills avec une expertise métier sectorielle pour créer des Experts personnalisés
- Exemples : rédaction automatique de rapports de recherche, génération et vérification automatiques de modèles financiers
Plus de 10 000 Experts ont déjà été créés, et leur nombre augmente rapidement
En interne chez MiniMax, M2.5 automatise 30 % de l’ensemble des tâches
- Il est utilisé dans tous les départements : R&D, produit, ventes, RH, finance, etc.
- 80 % du nouveau code commité est généré par M2.5

Utilisation de divers benchmarks internes et externes tels que SWE-bench, Terminal Bench 2, VIBE-Pro, BrowseComp, Wide Search, RISE, GDPval-MM, MEWC, Finance Modeling
Tous les tests ont été calculés via un pipeline unifié et une moyenne sur plusieurs exécutions répétées
L’environnement d’évaluation comprend un CPU 8 cœurs, 16 Go de mémoire, une limite de 7200 secondes et un ensemble d’outils standard