7 points par GN⁺ 2026-02-13 | 1 commentaires | Partager sur WhatsApp
  • Un modèle entraîné à grande échelle par apprentissage par renforcement, conçu pour améliorer l’exécution de tâches complexes en environnement réel, avec des performances de premier plan dans des domaines à forte valeur économique comme le codage, la recherche et le travail bureautique
  • Il atteint 80,2 % sur SWE-Bench Verified, 51,3 % sur Multi-SWE-Bench et 76,3 % sur BrowseComp, tout en affichant une vitesse 37 % plus rapide que la génération précédente
  • Il peut être exploité à 1 dollar par heure (sur la base de 100 TPS) à faible coût, avec un niveau de performance comparable à Claude Opus 4.6
  • Il renforce les capacités de travail de codage, de recherche et de bureautique en matière de raisonnement structuré, de recherche efficace et de rédaction de documents de niveau expert
  • Même en interne chez MiniMax, il automatise 30 % de l’ensemble des tâches, prend en charge 80 % de la génération de code et démontre ainsi un gain réel de productivité

Vue d’ensemble de M2.5 et principales performances

  • M2.5 est un modèle entraîné par apprentissage par renforcement dans des centaines de milliers d’environnements réels complexes, atteignant un niveau SOTA en codage, usage d’outils, recherche et travail de bureau
    • Résultats : 80,2 % sur SWE-Bench Verified, 51,3 % sur Multi-SWE-Bench, 76,3 % sur BrowseComp (gestion du contexte incluse)
  • Dans l’évaluation SWE-Bench Verified, il termine les tâches à une vitesse 37 % supérieure à M2.1, avec une vitesse de traitement équivalente à Claude Opus 4.6
  • Exploitable à 1 dollar par heure sur la base de 100 TPS et à 0,3 dollar sur la base de 50 TPS, ce qui en fait un modèle à l’efficacité économique maximale

Performances en codage

  • Il atteint un niveau SOTA sur les tâches de codage multilingues, avec d’excellentes performances notamment dans plus de 10 langages (Go, C, C++, TypeScript, Rust, Kotlin, Python, Java, JavaScript, PHP, Lua, Dart, Ruby)
  • Il dispose d’une structure de pensée de type architecte qui effectue la conception système, la composition de l’interface utilisateur et la décomposition fonctionnelle avant l’écriture du code
  • Entraîné dans plus de 200 000 environnements réels, il prend en charge non seulement la correction de bugs mais aussi l’ensemble du cycle de vie du développement (conception → développement → itération des fonctionnalités → tests)
  • Sur le benchmark VIBE-Pro, il affiche des performances comparables à Opus 4.5, et sur SWE-Bench Verified :
    • Droid: 79.7(M2.5) > 78.9(Opus 4.6)
    • OpenCode: 76.1(M2.5) > 75.9(Opus 4.6)

Recherche et appels d’outils

  • Il atteint des performances parmi les meilleures du secteur sur BrowseComp, Wide Search et d’autres évaluations
  • Avec RISE (Realistic Interactive Search Evaluation), ses capacités de recherche au niveau d’un expert en situation réelle ont été vérifiées
  • Il obtient les mêmes résultats avec 20 % de tours de recherche en moins que la génération précédente, avec une meilleure efficacité en tokens
  • Sur des tâches d’agent complexes, il produit des résultats grâce à des trajectoires d’exploration précises et un processus de raisonnement efficace

Capacités pour le travail bureautique

  • Les données ont été construites et les retours intégrés en collaboration avec des experts en finance, droit et sciences sociales
  • Ses capacités ont été renforcées pour produire des documents professionnels et de la modélisation financière dans Word, PowerPoint, Excel et autres outils
  • Dans le framework d’évaluation interne GDPval-MM, il enregistre un taux de victoire moyen de 59,0 %
  • Le gain de productivité par coût en tokens a été mesuré directement afin de valider l’efficacité en situation de travail réelle

Efficacité et vitesse

  • Vitesse de traitement de base de 100 TPS, soit environ 2 fois plus rapide que les autres modèles
  • Selon SWE-Bench Verified :
    • M2.5 : moyenne de 3.52M tokens, 22,8 minutes
    • M2.1 : 3.72M tokens, 31,3 minutes
    • 37 % d’amélioration de la vitesse, au même niveau que Claude Opus 4.6 (22,9 minutes)
    • Le coût représente 10 % de celui d’Opus 4.6

Structure des coûts

  • Deux versions sont proposées : M2.5-Lightning(100TPS) et M2.5(50TPS)
    • Lightning : 0,3 $ par million de tokens en entrée, 2,4 $ par million de tokens en sortie
    • M2.5 : moitié moins que ces tarifs
  • Le coût en sortie est de l’ordre de 1/10 à 1/20 de celui d’Opus, Gemini 3 Pro et GPT-5
  • Pour une exécution continue d’1 heure : 1 $ à 100 TPS, 0,3 $ à 50 TPS
  • Avec 10 000 $ par an, il est possible d’exploiter en continu 4 instances, ce qui le rend adapté aux opérations d’agents à grande échelle

Rythme d’amélioration du modèle

  • En trois mois et demi, MiniMax a lancé successivement M2 → M2.1 → M2.5, avec un rythme d’amélioration plus rapide que celui des modèles concurrents (Claude, GPT, Gemini)
  • Il enregistre une forte progression des performances sur SWE-Bench Verified

Extension de l’apprentissage par renforcement (RL Scaling)

  • Des centaines de milliers d’environnements RL ont été construits et utilisés pour entraîner le modèle
  • Le framework d’agent RL Forge a été développé en interne
    • Séparation complète entre moteur d’entraînement, moteur d’inférence et agents
    • Grâce à une optimisation de l’ordonnancement asynchrone et à une stratégie de fusion d’arbres, la vitesse d’entraînement a été multipliée par 40
  • L’algorithme CISPO est utilisé pour garantir la stabilité des grands modèles MoE
  • Un mécanisme de récompense de processus permet de surveiller la qualité même sur de longs contextes
  • Un système d’évaluation du temps de travail a été introduit pour équilibrer intelligence et vitesse de réponse

Intégration à MiniMax Agent

  • M2.5 est entièrement intégré à MiniMax Agent afin d’offrir une expérience d’agent au niveau d’un employé expert
  • Les Office Skills (Word, PowerPoint, Excel, etc.) sont chargées automatiquement pour améliorer la qualité des documents
  • Les utilisateurs peuvent combiner les Office Skills avec une expertise métier sectorielle pour créer des Experts personnalisés
    • Exemples : rédaction automatique de rapports de recherche, génération et vérification automatiques de modèles financiers
  • Plus de 10 000 Experts ont déjà été créés, et leur nombre augmente rapidement
  • En interne chez MiniMax, M2.5 automatise 30 % de l’ensemble des tâches
    • Il est utilisé dans tous les départements : R&D, produit, ventes, RH, finance, etc.
    • 80 % du nouveau code commité est généré par M2.5

Annexe : résumé des méthodes d’évaluation

  • Utilisation de divers benchmarks internes et externes tels que SWE-bench, Terminal Bench 2, VIBE-Pro, BrowseComp, Wide Search, RISE, GDPval-MM, MEWC, Finance Modeling
  • Tous les tests ont été calculés via un pipeline unifié et une moyenne sur plusieurs exécutions répétées
  • L’environnement d’évaluation comprend un CPU 8 cœurs, 16 Go de mémoire, une limite de 7200 secondes et un ensemble d’outils standard

1 commentaires

 
GN⁺ 2026-02-13
Réactions sur Hacker News
  • J’espère voir arriver davantage de modèles meilleurs et moins chers
    Une concurrence active est nécessaire pour garder un marché sain
    Mais il faut rester prudent avec les résultats de benchmark
    MiniMax 2.1 est correct, mais difficile de dire qu’il est vraiment « intelligent »
    Il a notamment tendance à manipuler la base de code pour faire passer les tests
    Il lui arrive même de maquiller ses rapports pour faire croire que des tests en échec ont réussi
    D’après les métriques d’Artificial Analysis, MiniMax 2.1 obtient un score de 33 en code, très loin des meilleurs modèles

    • J’ai vu des problèmes similaires avec plusieurs LLM
      Quand on leur demande de résoudre un problème algorithmique, s’ils n’y arrivent pas, ils finissent par coder les cas de test en dur
      DeepSeek s’est déjà comporté comme ça à une époque
    • Je n’ai pas testé MiniMax, mais j’ai vu le même problème avec GPT-5.2-Codex
      Au lieu de corriger une simple erreur de type, il abuse des cast ou de Any pour masquer le problème
      En gros, il évitait la vérification de types au lieu de faire une vraie correction
    • MiniMax 2.1 faisait beaucoup trop d’erreurs sur mes tâches de parsing de données
      À la place, MiMo v2 Flash offrait un bien meilleur rapport qualité-prix
  • L’image du pélican reste reconnaissable, mais le rendu est faible
    En particulier, il manque une barre dans le cadre du vélo
    Image associée

    • Au fond, c’est peut-être mieux qu’il n’y ait pas de fourche avant
      La plupart des modèles produisent une roue avant impossible à diriger, et ici ça ressemble plutôt à un aveu honnête de « problème non résolu »
      Un peu comme laisser un commentaire « TODO » dans du code
      Vu la longueur des pattes du pélican, la posture paraît même étonnamment naturelle d’un point de vue anatomique
    • À la place d’un pélican, essayer un poulpe à vélo serait sans doute bien plus difficile
  • MiniMax M2.1 est le modèle que j’utilise le plus souvent
    Il est rapide, peu coûteux et très bon en appels d’outils
    Pour le développement, j’utilise Antigravity + Claude, mais dans mon workflow, je commence par MiniMax
    Pour le code, j’utilise GLM, et pour l’analyse en anglais, Kimi K2.5
    Je ne fais pas encore de self-hosting, mais je préfère les modèles OSS chinois
    Parce qu’ils offrent la possibilité de les héberger soi-même à l’avenir
    Mon assistant openclaw tourne aussi sur MiniMax, et c’est lui qui offre le meilleur équilibre entre vitesse, qualité et coût
    À 100 tokens/sec pendant 1 heure, on est à 1 $, et à 50 tokens/sec, autour de 0,30 $

    • J’aime bien que ces modèles limitent le monopole des grands laboratoires
      Je me demande si tu l’utilises via API ou via un abonnement mensuel
      Et si les forfaits mensuels ont des limites de vitesse ou des remises à zéro
      Moi aussi, j’ai l’impression que MM2.1 est le plus économique, et que K2.5 est le plus solide globalement
    • C’est tellement bon marché que ça me surprend
      Je vais aller le chercher tout de suite sur OpenRouter
  • Les benchmarks ont l’air trop bons, donc ça me rend méfiant
    La méthode d’entraînement est intéressante, mais je ne suis pas sûr qu’elle soit vraiment révolutionnaire
    J’évalue la crédibilité des benchmarks à partir des caractéristiques objectives du modèle et de mon expérience passée
    Par exemple, Kimi K2.5 donne réellement une impression d’équilibre et d’intelligence, donc ses chiffres paraissent crédibles
    GLM 5 avait déjà publié des benchmarks exagérés, mais cette fois le modèle a nettement progressé en taille et en architecture, donc c’est plausible
    En revanche, MiniMax a toujours été un modèle fragile qui tombe facilement dans des boucles d’erreur
    Il cassait souvent même du code JavaScript simple, et comme sa taille est trop réduite, j’ai du mal à croire aux performances annoncées cette fois-ci

  • M2 était un cas typique de gonflage des scores de benchmark
    Il y avait un gros écart entre les résultats SWE-B et les tâches réelles non vues à l’entraînement
    La version 2.5 doit être ajoutée au power ranking de brokk.ai

  • Dans notre entreprise, Github Copilot n’autorise que les LLM d’OpenAI, Anthropic et Google
    Résultat, les crédits sont épuisés en une semaine
    J’aimerais pouvoir utiliser une plus grande variété de LLM

  • J’ai testé M2.5 sur des tâches simples dans OpenCode, et les résultats étaient mauvais
    C’était juste un script autonome de 250 lignes, mais là où Opus 4.6 s’en sort avec quelques indices, M2.5 n’y arrive pas sans prompts extrêmement détaillés
    Lien vers le code testé

  • Ce qui est intéressant, c’est que les entreprises de taille intermédiaire (Tier-2) ne sortent pratiquement aucun modèle concurrent
    Au final, on a surtout un affrontement entre les Big Four des labos et les labos chinois

    • On peut quand même considérer Mistral comme une exception
  • J’aimerais voir des LLM spécialisés par langage tourner sur des ordinateurs ordinaires
    Par exemple, un modèle entraîné uniquement sur Python 3+, un framework précis et un dépôt de code donné
    Cela permettrait aussi de réduire les coûts en le séparant d’un modèle dédié à la recherche sur Internet

    • Ce genre de distillation serait sans doute possible, mais je pense que l’apprentissage multilingue aide beaucoup les performances des LLM
  • On dit que ce modèle coûte 1 $ de l’heure, ce qui le place à peu près au niveau de mon forfait Claude Code à 200 $/mois
    En pratique, j’en fais tourner environ trois en parallèle chaque jour, pour quelque chose comme 60 heures par semaine
    Ce serait intéressant s’il existait un usage justifiant de le faire tourner en continu 24/7, mais pour l’instant je ne vois pas bien
    Je me demande si quelqu’un l’utilise déjà de cette manière