- Un modèle entraîné à grande échelle par apprentissage par renforcement, conçu pour améliorer l’exécution de tâches complexes en environnement réel, avec des performances de premier plan dans des domaines à forte valeur économique comme le codage, la recherche et le travail bureautique
- Il atteint 80,2 % sur SWE-Bench Verified, 51,3 % sur Multi-SWE-Bench et 76,3 % sur BrowseComp, tout en affichant une vitesse 37 % plus rapide que la génération précédente
- Il peut être exploité à 1 dollar par heure (sur la base de 100 TPS) à faible coût, avec un niveau de performance comparable à Claude Opus 4.6
- Il renforce les capacités de travail de codage, de recherche et de bureautique en matière de raisonnement structuré, de recherche efficace et de rédaction de documents de niveau expert
- Même en interne chez MiniMax, il automatise 30 % de l’ensemble des tâches, prend en charge 80 % de la génération de code et démontre ainsi un gain réel de productivité
Vue d’ensemble de M2.5 et principales performances
- M2.5 est un modèle entraîné par apprentissage par renforcement dans des centaines de milliers d’environnements réels complexes, atteignant un niveau SOTA en codage, usage d’outils, recherche et travail de bureau
- Résultats : 80,2 % sur SWE-Bench Verified, 51,3 % sur Multi-SWE-Bench, 76,3 % sur BrowseComp (gestion du contexte incluse)
- Dans l’évaluation SWE-Bench Verified, il termine les tâches à une vitesse 37 % supérieure à M2.1, avec une vitesse de traitement équivalente à Claude Opus 4.6
- Exploitable à 1 dollar par heure sur la base de 100 TPS et à 0,3 dollar sur la base de 50 TPS, ce qui en fait un modèle à l’efficacité économique maximale
Performances en codage
- Il atteint un niveau SOTA sur les tâches de codage multilingues, avec d’excellentes performances notamment dans plus de 10 langages (Go, C, C++, TypeScript, Rust, Kotlin, Python, Java, JavaScript, PHP, Lua, Dart, Ruby)
- Il dispose d’une structure de pensée de type architecte qui effectue la conception système, la composition de l’interface utilisateur et la décomposition fonctionnelle avant l’écriture du code
- Entraîné dans plus de 200 000 environnements réels, il prend en charge non seulement la correction de bugs mais aussi l’ensemble du cycle de vie du développement (conception → développement → itération des fonctionnalités → tests)
- Sur le benchmark VIBE-Pro, il affiche des performances comparables à Opus 4.5, et sur SWE-Bench Verified :
- Droid: 79.7(M2.5) > 78.9(Opus 4.6)
- OpenCode: 76.1(M2.5) > 75.9(Opus 4.6)
Recherche et appels d’outils
- Il atteint des performances parmi les meilleures du secteur sur BrowseComp, Wide Search et d’autres évaluations
- Avec RISE (Realistic Interactive Search Evaluation), ses capacités de recherche au niveau d’un expert en situation réelle ont été vérifiées
- Il obtient les mêmes résultats avec 20 % de tours de recherche en moins que la génération précédente, avec une meilleure efficacité en tokens
- Sur des tâches d’agent complexes, il produit des résultats grâce à des trajectoires d’exploration précises et un processus de raisonnement efficace
Capacités pour le travail bureautique
- Les données ont été construites et les retours intégrés en collaboration avec des experts en finance, droit et sciences sociales
- Ses capacités ont été renforcées pour produire des documents professionnels et de la modélisation financière dans Word, PowerPoint, Excel et autres outils
- Dans le framework d’évaluation interne GDPval-MM, il enregistre un taux de victoire moyen de 59,0 %
- Le gain de productivité par coût en tokens a été mesuré directement afin de valider l’efficacité en situation de travail réelle
Efficacité et vitesse
- Vitesse de traitement de base de 100 TPS, soit environ 2 fois plus rapide que les autres modèles
- Selon SWE-Bench Verified :
- M2.5 : moyenne de 3.52M tokens, 22,8 minutes
- M2.1 : 3.72M tokens, 31,3 minutes
- 37 % d’amélioration de la vitesse, au même niveau que Claude Opus 4.6 (22,9 minutes)
- Le coût représente 10 % de celui d’Opus 4.6
Structure des coûts
- Deux versions sont proposées : M2.5-Lightning(100TPS) et M2.5(50TPS)
- Lightning : 0,3 $ par million de tokens en entrée, 2,4 $ par million de tokens en sortie
- M2.5 : moitié moins que ces tarifs
- Le coût en sortie est de l’ordre de 1/10 à 1/20 de celui d’Opus, Gemini 3 Pro et GPT-5
- Pour une exécution continue d’1 heure : 1 $ à 100 TPS, 0,3 $ à 50 TPS
- Avec 10 000 $ par an, il est possible d’exploiter en continu 4 instances, ce qui le rend adapté aux opérations d’agents à grande échelle
Rythme d’amélioration du modèle
- En trois mois et demi, MiniMax a lancé successivement M2 → M2.1 → M2.5, avec un rythme d’amélioration plus rapide que celui des modèles concurrents (Claude, GPT, Gemini)
- Il enregistre une forte progression des performances sur SWE-Bench Verified
Extension de l’apprentissage par renforcement (RL Scaling)
- Des centaines de milliers d’environnements RL ont été construits et utilisés pour entraîner le modèle
- Le framework d’agent RL Forge a été développé en interne
- Séparation complète entre moteur d’entraînement, moteur d’inférence et agents
- Grâce à une optimisation de l’ordonnancement asynchrone et à une stratégie de fusion d’arbres, la vitesse d’entraînement a été multipliée par 40
- L’algorithme CISPO est utilisé pour garantir la stabilité des grands modèles MoE
- Un mécanisme de récompense de processus permet de surveiller la qualité même sur de longs contextes
- Un système d’évaluation du temps de travail a été introduit pour équilibrer intelligence et vitesse de réponse
Intégration à MiniMax Agent
- M2.5 est entièrement intégré à MiniMax Agent afin d’offrir une expérience d’agent au niveau d’un employé expert
- Les Office Skills (Word, PowerPoint, Excel, etc.) sont chargées automatiquement pour améliorer la qualité des documents
- Les utilisateurs peuvent combiner les Office Skills avec une expertise métier sectorielle pour créer des Experts personnalisés
- Exemples : rédaction automatique de rapports de recherche, génération et vérification automatiques de modèles financiers
- Plus de 10 000 Experts ont déjà été créés, et leur nombre augmente rapidement
- En interne chez MiniMax, M2.5 automatise 30 % de l’ensemble des tâches
- Il est utilisé dans tous les départements : R&D, produit, ventes, RH, finance, etc.
- 80 % du nouveau code commité est généré par M2.5
Annexe : résumé des méthodes d’évaluation
- Utilisation de divers benchmarks internes et externes tels que SWE-bench, Terminal Bench 2, VIBE-Pro, BrowseComp, Wide Search, RISE, GDPval-MM, MEWC, Finance Modeling
- Tous les tests ont été calculés via un pipeline unifié et une moyenne sur plusieurs exécutions répétées
- L’environnement d’évaluation comprend un CPU 8 cœurs, 16 Go de mémoire, une limite de 7200 secondes et un ensemble d’outils standard
Aucun commentaire pour le moment.