5 points par GN⁺ 2025-06-19 | 1 commentaires | Partager sur WhatsApp
  • MiniMax-M1 est le premier modèle de raisonnement à grande échelle basé sur une attention hybride en open weights au monde
  • Sa structure hybride MoE de 456 milliards de paramètres et son mécanisme d’attention Lightning excellent dans le traitement de contextes longs
  • Grâce à un entraînement fondé sur le RL et à l’introduction de l’algorithme CISPO, il peut résoudre efficacement divers types de problèmes
  • Sur les benchmarks, il affiche d’excellentes performances face à DeepSeek-R1, Qwen3-235B et d’autres, notamment en ingénierie logicielle complexe, usage d’outils et entrées longues
  • Avec divers environnements d’inférence, des outils de support, une API et un chatbot, il présente une forte valeur comme base pour les agents de modèles de langage de nouvelle génération

Présentation du projet open source MiniMax-M1

  • MiniMax-M1 est le premier modèle de raisonnement à grande échelle basé sur une attention hybride en open weights au monde, et montre de solides avantages ainsi qu’une forte utilité en conditions réelles par rapport aux modèles commerciaux et open source existants
  • Il combine une architecture hybride Mixture-of-Experts (MoE) à grande échelle avec un mécanisme d’attention Lightning, optimisé pour les contextes longs, le raisonnement complexe et la résolution de problèmes en environnement logiciel
  • Il prend efficacement en charge les longs contextes (jusqu’à 1 million de tokens) et réduit fortement le volume de calcul en test (25 % des FLOPs de DeepSeek-R1 sur une base 100K)
  • Grâce à des techniques RL de pointe, au nouvel algorithme CISPO et à une conception d’attention hybride, il maximise à la fois la scalabilité et l’efficacité d’inférence

1. Présentation du modèle

  • MiniMax-M1 embarque une architecture hybride Mixture-of-Experts (MoE) et l’attention Lightning
  • Il a été développé à partir de son prédécesseur MiniMax-Text-01 (456 milliards de paramètres, dont 45,9 milliards activés par token)
  • Prise en charge d’une longueur de contexte de 1 million de tokens (soit 8 fois celle de DeepSeek R1)
  • L’attention Lightning réduit fortement le volume de calcul en test (25 % de celui de DeepSeek R1)
  • Il est adapté aux tâches nécessitant de longues entrées et un raisonnement complexe
  • Il a été entraîné à grande échelle via le RL sur un large éventail de problèmes, notamment le raisonnement mathématique et l’ingénierie logicielle en conditions réelles
  • Il propose un framework propre à MiniMax-M1 pour le passage à l’échelle du RL
    • Méthode CISPO : introduction d’un algorithme de clipping des poids d’échantillonnage d’importance supérieur aux approches RL existantes
    • Renforcement de l’efficacité et de la scalabilité du RL grâce à l’attention hybride
  • Deux modèles ont été entraînés et publiés avec des budgets de réflexion 40K et 80K
  • Il offre des performances remarquables face à des modèles open weights haut de gamme comme DeepSeek-R1 et Qwen3-235B en ingénierie logicielle, usage d’outils et tâches à long contexte
  • Il fournit une base pour construire des agents de modèles de langage de nouvelle génération capables de relever des défis concrets

2. Évaluation

Principaux points des résultats de benchmark

  • Niveau proche de l’état de l’art dans les domaines des maths, du code, de l’ingénierie logicielle et des contextes longs
  • Il obtient globalement des scores élevés par rapport aux autres modèles open source, avec un avantage particulièrement marqué sur les benchmarks logiciels (SWE-bench) et les longs contextes
  • Exemples d’éléments notables
    • SWE-bench : 56.0(M1-80k) / 34.4(Qwen3) / 49.2(DeepSeek R1)
    • OpenAI-MRCR(128k) : 73.4(M1-80k) / 27.7(Qwen3) / 35.8(DeepSeek R1)
    • Solide sur des tâches liées au développement logiciel comme LiveCodeBench et FullStackBench
  • Environnement d’exécution : évaluation avec temperature 1.0 et top_p 0.95
  • Pour des benchmarks comme SWE-bench et TAU-bench, l’évaluation a été menée selon des procédures et réglages propres (par ex. localisation locale en deux étapes au niveau fichier, sans usage d’embeddings)

3. Guide d’utilisation du modèle MiniMax-M1

Réglages recommandés pour des performances optimales

3.1. Paramètres d’inférence

  • Temperature : 1.0
  • Top_p : 0.95
    Cette combinaison fournit un cadre qui assure à la fois diversité textuelle et cohérence logique

3.2. Prompt système

  • Usage général : "You are a helpful assistant."
  • Développement web : prompt spécialisé proposé pour des tâches complexes de pages web, comme la génération de code UI tout-en-un
  • Raisonnement mathématique : résoudre étape par étape puis inscrire la réponse finale dans \boxed{}

4. Guide de déploiement

  • Les modèles MiniMax-M1-40k et MiniMax-M1-80k peuvent être téléchargés sur HuggingFace
  • Pour un service en production, un déploiement basé sur vLLM est recommandé
    • Gestion mémoire efficace, excellent traitement par lots et optimisation des performances, adaptés au serving de grands modèles
  • Un déploiement séparé basé sur Transformers est également pris en charge

5. Appel de fonctions (interface de type fonctionnel)

  • MiniMax-M1 prend en charge l’appel de fonctions
    • Lorsqu’une fonction externe est nécessaire, il produit automatiquement les paramètres sous forme structurée
    • Un guide d’appel de fonctions est fourni

6. Chatbot & API

  • MiniMax Chatbot : propose une interface de chat incluant même la recherche en ligne
  • API : fournit une API en ligne pour développeurs ainsi que des outils comme MiniMax MCP Server
    • Inclut la synthèse IA de vidéos, d’images et de voix, ainsi que le voice cloning

1 commentaires

 
GN⁺ 2025-06-19
Commentaires sur Hacker News
  • Pour ceux qui se demandent ce qu’il faut pour faire tourner ça, il faut 8 H200 de 141 Go, pour un prix d’environ 250�00 $
    discussion GitHub / prix du produit sur eBay

    • Je me demande si ça ne pourrait pas tourner sur un Mac Studio 512 Go, pour environ 800 $
    • C’est en supposant une quantification complète ; en Q4 ou Q8, ça pourrait tourner sur une machine à moins de 10�00 $
    • Je me demande combien de paramètres ce modèle a
  • Il paraît que cette semaine est la « launch week » de MiniMax
    Ils ont dévoilé M1 lundi, puis Hailuo 2 mardi
    infos sur les modèles chinois
    On ne sait pas encore si les annonces vont continuer toute la semaine, et pour l’instant l’entreprise est surtout connue pour ses LLM et ses modèles vidéo
    Les annonces officielles sont visibles sur le X (anciennement Twitter) de MiniMax
    Le rapport technique de MiniMax M1 est aussi intéressant
    PDF du rapport technique
    Ce n’est pas un modèle open-weight SOTA, mais il avance des affirmations très intéressantes et ambitieuses sur lightning attention et une variante de GRPO (CISPO)
    (je n’ai aucun lien avec cette entreprise, je partage simplement des informations glanées ici et là)

    • Puisqu’ils ont fait M1 lundi et Hailuo 2 mardi, ça aurait été amusant de suivre le style des puces Apple avec des noms comme M1, M1 Pro et M1 Ultra
  • En voyant dans le papier arXiv la phrase « We publicly release MiniMax-M1 at this https url », j’ai apprécié que l’entreprise publie du vrai code et pas juste un dépôt vide

  • Mon avis

    • D’après LinkedIn, cela semble être une entreprise basée à Singapour, et la barrière à l’entrée pour produire de bons LLM ne paraît pas si élevée
    • Grâce aux modèles open-weight et aux progrès de Strix Halo / Ryzen AI Max, je suis optimiste sur le fait qu’on pourra faire tourner de bons LLM localement à bas coût d’ici quelques années
    • On sent que l’exécution locale des modèles va devenir inévitable, ce qui suscite à la fois de l’enthousiasme et de l’inquiétude
      Si quelqu’un connaît des experts fiables ou des personnes qui ont des discussions intéressantes sur ce sujet, je suis preneur
    • Contrairement à ce qui est indiqué sur LinkedIn, c’est en réalité une entreprise basée à Shanghai
    • J’ai vu ce post Twitter indiquant que MiniMax a entraîné le modèle avec un budget d’environ 500�0 $

      Entraînement RL (apprentissage par renforcement) pour 53400 $
      Je me demande comment c’est possible avec un tel coût

    • Cette entreprise est bien une société chinoise basée à Shanghai
      Elle prévoirait aussi une cotation prochaine à la Bourse de Hong Kong (HKEX)
      article associé
  • Ce n’est pas explicitement indiqué sur la page officielle, mais MiniMax est une entreprise chinoise
    voir Wikipédia

    • Beaucoup de gens savent que MiniMax est une entreprise chinoise parce que leur générateur vidéo a un nom très connoté chinois, « Hailuo », et que c’est ce qui les a rendus connus jusqu’ici
    • On peut se demander s’il y a vraiment une raison de préciser sur leur page projet qu’il s’agit d’une entreprise chinoise
  • J’aimerais qu’ils choisissent mieux leurs noms de modèles
    On dirait un processeur de Mac Studio

    • Je connais l’algorithme minimax
      C’est repris du nom de ce grand classique de l’IA
    • Ton Mac est fabriqué par « Apple », un nom qui vient littéralement d’une variété de pomme
    • Ça me rappelle mon vieux chien perdu depuis longtemps, qui s’appelait Max ; je trouve que c’est un nom tellement mauvais que ça en devient presque criminel
  • Le papier dit : « In our attention design, a transformer block with softmax attention follows every seven transnormer blocks (Qin et al., 2022a) with lightning attention »
    Autrement dit, 87,5 % de l’ensemble est en linear attention et 12,5 % en full attention
    En réalité, le terme « linear attention » prête à confusion
    softmax attention est une méthode de routage de l’information ; lorsqu’on calcule le token k, on peut intégrer l’information provenant de 1 à k, mais elle doit passer par des canaux de taille fixe
    En revanche, linear attention ne dispose au niveau de chaque couche que d’une « banque de registres » de taille fixe
    Ce n’est pas vraiment de l’attention, à part le fait que c’est compatible avec un calcul couche-par-couche

  • On dit que MiniMax alimente les rumeurs autour d’une IPO
    article associé

  • S’ils ont entraîné quelque chose d’une telle ampleur sans infrastructure cloud occidentale, je me demande à quoi ressemble leur architecture de traitement des tokens

    • Entraînement pendant 3 semaines sur 512 GPU H800, pour environ 500�0 $
      voir xcancel
    • En sneakernet (transport physique des données)