7 points par GN⁺ 2026-02-13 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Un modèle entraîné à grande échelle par apprentissage par renforcement, conçu pour améliorer l’exécution de tâches complexes en environnement réel, avec des performances de premier plan dans des domaines à forte valeur économique comme le codage, la recherche et le travail bureautique
  • Il atteint 80,2 % sur SWE-Bench Verified, 51,3 % sur Multi-SWE-Bench et 76,3 % sur BrowseComp, tout en affichant une vitesse 37 % plus rapide que la génération précédente
  • Il peut être exploité à 1 dollar par heure (sur la base de 100 TPS) à faible coût, avec un niveau de performance comparable à Claude Opus 4.6
  • Il renforce les capacités de travail de codage, de recherche et de bureautique en matière de raisonnement structuré, de recherche efficace et de rédaction de documents de niveau expert
  • Même en interne chez MiniMax, il automatise 30 % de l’ensemble des tâches, prend en charge 80 % de la génération de code et démontre ainsi un gain réel de productivité

Vue d’ensemble de M2.5 et principales performances

  • M2.5 est un modèle entraîné par apprentissage par renforcement dans des centaines de milliers d’environnements réels complexes, atteignant un niveau SOTA en codage, usage d’outils, recherche et travail de bureau
    • Résultats : 80,2 % sur SWE-Bench Verified, 51,3 % sur Multi-SWE-Bench, 76,3 % sur BrowseComp (gestion du contexte incluse)
  • Dans l’évaluation SWE-Bench Verified, il termine les tâches à une vitesse 37 % supérieure à M2.1, avec une vitesse de traitement équivalente à Claude Opus 4.6
  • Exploitable à 1 dollar par heure sur la base de 100 TPS et à 0,3 dollar sur la base de 50 TPS, ce qui en fait un modèle à l’efficacité économique maximale

Performances en codage

  • Il atteint un niveau SOTA sur les tâches de codage multilingues, avec d’excellentes performances notamment dans plus de 10 langages (Go, C, C++, TypeScript, Rust, Kotlin, Python, Java, JavaScript, PHP, Lua, Dart, Ruby)
  • Il dispose d’une structure de pensée de type architecte qui effectue la conception système, la composition de l’interface utilisateur et la décomposition fonctionnelle avant l’écriture du code
  • Entraîné dans plus de 200 000 environnements réels, il prend en charge non seulement la correction de bugs mais aussi l’ensemble du cycle de vie du développement (conception → développement → itération des fonctionnalités → tests)
  • Sur le benchmark VIBE-Pro, il affiche des performances comparables à Opus 4.5, et sur SWE-Bench Verified :
    • Droid: 79.7(M2.5) > 78.9(Opus 4.6)
    • OpenCode: 76.1(M2.5) > 75.9(Opus 4.6)

Recherche et appels d’outils

  • Il atteint des performances parmi les meilleures du secteur sur BrowseComp, Wide Search et d’autres évaluations
  • Avec RISE (Realistic Interactive Search Evaluation), ses capacités de recherche au niveau d’un expert en situation réelle ont été vérifiées
  • Il obtient les mêmes résultats avec 20 % de tours de recherche en moins que la génération précédente, avec une meilleure efficacité en tokens
  • Sur des tâches d’agent complexes, il produit des résultats grâce à des trajectoires d’exploration précises et un processus de raisonnement efficace

Capacités pour le travail bureautique

  • Les données ont été construites et les retours intégrés en collaboration avec des experts en finance, droit et sciences sociales
  • Ses capacités ont été renforcées pour produire des documents professionnels et de la modélisation financière dans Word, PowerPoint, Excel et autres outils
  • Dans le framework d’évaluation interne GDPval-MM, il enregistre un taux de victoire moyen de 59,0 %
  • Le gain de productivité par coût en tokens a été mesuré directement afin de valider l’efficacité en situation de travail réelle

Efficacité et vitesse

  • Vitesse de traitement de base de 100 TPS, soit environ 2 fois plus rapide que les autres modèles
  • Selon SWE-Bench Verified :
    • M2.5 : moyenne de 3.52M tokens, 22,8 minutes
    • M2.1 : 3.72M tokens, 31,3 minutes
    • 37 % d’amélioration de la vitesse, au même niveau que Claude Opus 4.6 (22,9 minutes)
    • Le coût représente 10 % de celui d’Opus 4.6

Structure des coûts

  • Deux versions sont proposées : M2.5-Lightning(100TPS) et M2.5(50TPS)
    • Lightning : 0,3 $ par million de tokens en entrée, 2,4 $ par million de tokens en sortie
    • M2.5 : moitié moins que ces tarifs
  • Le coût en sortie est de l’ordre de 1/10 à 1/20 de celui d’Opus, Gemini 3 Pro et GPT-5
  • Pour une exécution continue d’1 heure : 1 $ à 100 TPS, 0,3 $ à 50 TPS
  • Avec 10 000 $ par an, il est possible d’exploiter en continu 4 instances, ce qui le rend adapté aux opérations d’agents à grande échelle

Rythme d’amélioration du modèle

  • En trois mois et demi, MiniMax a lancé successivement M2 → M2.1 → M2.5, avec un rythme d’amélioration plus rapide que celui des modèles concurrents (Claude, GPT, Gemini)
  • Il enregistre une forte progression des performances sur SWE-Bench Verified

Extension de l’apprentissage par renforcement (RL Scaling)

  • Des centaines de milliers d’environnements RL ont été construits et utilisés pour entraîner le modèle
  • Le framework d’agent RL Forge a été développé en interne
    • Séparation complète entre moteur d’entraînement, moteur d’inférence et agents
    • Grâce à une optimisation de l’ordonnancement asynchrone et à une stratégie de fusion d’arbres, la vitesse d’entraînement a été multipliée par 40
  • L’algorithme CISPO est utilisé pour garantir la stabilité des grands modèles MoE
  • Un mécanisme de récompense de processus permet de surveiller la qualité même sur de longs contextes
  • Un système d’évaluation du temps de travail a été introduit pour équilibrer intelligence et vitesse de réponse

Intégration à MiniMax Agent

  • M2.5 est entièrement intégré à MiniMax Agent afin d’offrir une expérience d’agent au niveau d’un employé expert
  • Les Office Skills (Word, PowerPoint, Excel, etc.) sont chargées automatiquement pour améliorer la qualité des documents
  • Les utilisateurs peuvent combiner les Office Skills avec une expertise métier sectorielle pour créer des Experts personnalisés
    • Exemples : rédaction automatique de rapports de recherche, génération et vérification automatiques de modèles financiers
  • Plus de 10 000 Experts ont déjà été créés, et leur nombre augmente rapidement
  • En interne chez MiniMax, M2.5 automatise 30 % de l’ensemble des tâches
    • Il est utilisé dans tous les départements : R&D, produit, ventes, RH, finance, etc.
    • 80 % du nouveau code commité est généré par M2.5

Annexe : résumé des méthodes d’évaluation

  • Utilisation de divers benchmarks internes et externes tels que SWE-bench, Terminal Bench 2, VIBE-Pro, BrowseComp, Wide Search, RISE, GDPval-MM, MEWC, Finance Modeling
  • Tous les tests ont été calculés via un pipeline unifié et une moyenne sur plusieurs exécutions répétées
  • L’environnement d’évaluation comprend un CPU 8 cœurs, 16 Go de mémoire, une limite de 7200 secondes et un ensemble d’outils standard

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.