1 points par GN⁺ 2025-05-01 | 1 commentaires | Partager sur WhatsApp
  • MiMo-7B est une série de modèles développée pour exploiter au maximum le potentiel de raisonnement des modèles de langage
  • Grâce à des stratégies de pré-entraînement et de post-entraînement, il offre d’excellentes performances sur les tâches de raisonnement en mathématiques et en code
  • Bien que MiMo-7B soit un petit modèle, il affiche des performances comparables à celles de modèles plus grands
  • Il est proposé en open source, avec un fort potentiel de contribution pour la communauté
  • Son infrastructure RL améliore fortement la vitesse d’entraînement et de validation

I. Introduction

  • La plupart des travaux réussis en apprentissage par renforcement (RL) reposent sur de grands modèles, et il est difficile d’améliorer simultanément les capacités en mathématiques et en code sur de petits modèles
  • MiMo-7B est un modèle entraîné dès le départ pour les tâches de raisonnement, avec un potentiel de raisonnement capable de dépasser celui de modèles plus grands
  • La série MiMo-7B est publiée en open source et peut contribuer à la communauté pour développer de puissants modèles de langage orientés raisonnement

🌟 Points clés

  • Pré-entraînement : un modèle de base pour le raisonnement

    • Le pipeline de prétraitement des données a été optimisé afin d’augmenter la densité des schémas de raisonnement
    • Plusieurs stratégies sont utilisées pour générer diverses données synthétiques de raisonnement
    • La prédiction multi-token est incluse comme objectif d’entraînement supplémentaire afin d’améliorer les performances du modèle
  • Recette de post-entraînement : un modèle de raisonnement pionnier

    • 130K problèmes de mathématiques et de code sont utilisés comme données d’entraînement RL
    • Une récompense de code fondée sur la difficulté des tests est introduite pour optimiser efficacement la politique
    • Une stratégie de rééchantillonnage des données sur les problèmes faciles est mise en œuvre afin de stabiliser les mises à jour de la politique
  • Infrastructure RL

    • Le Seamless Rollout Engine a été développé pour accélérer l’entraînement et la validation RL
    • MTP est pris en charge dans vLLM, et la robustesse du moteur d’inférence du système RL est renforcée

II. Détails du modèle

  • La série MiMo-7B propose différents checkpoints de modèle, téléchargeables sur HuggingFace

III. Résultats d’évaluation

  • MiMo-7B-RL affiche d’excellentes performances sur les tâches de raisonnement en mathématiques et en code
  • Il obtient des résultats compétitifs sur divers benchmarks

IV. Déploiement

  • Prise en charge de l’inférence via vLLM et HuggingFace
  • Des environnements recommandés et l’usage des prompts adaptés permettent d’obtenir des performances optimales

V. Citation

  • Informations de citation fournies pour MiMo-7B

VI. Contact

  • Pour toute question, contactez mimo@xiaomi.com ou ouvrez une issue sur GitHub

1 commentaires

 
GN⁺ 2025-05-01
Avis Hacker News
  • J’ai trouvé intéressante la manière dont l’article traite l’étape d’apprentissage par renforcement (RL) sur les données de code. Ils entraînent le modèle sur des tâches de génération de code pouvant être résolues en exécutant des tests unitaires. Je me demande si d’autres modèles passent aussi par cette étape d’entraînement

    • Données de code : ils ont constitué un jeu d’entraînement de haute qualité incluant des jeux de données open source et un nouvel ensemble de problèmes collectés pour les tâches de programmation. Les problèmes sans cas de test ont été supprimés. Parmi les problèmes disposant d’une solution de référence, ceux qui ne passaient pas tous les cas de test ont été exclus. Pour les problèmes sans solution de référence, ceux qui ne pouvaient pas être résolus en 16 rollouts d’un modèle de raisonnement avancé ont été retirés. Comme pour les données de mathématiques, ils ont utilisé une version SFT de MiMo-7B pour filtrer les problèmes faciles parfaitement résolus sur les 16 rollouts. Ce processus de nettoyage strict a abouti à 30 000 problèmes de code
    • À chaque itération de RL, ils évaluent des milliers de problèmes pour calculer la récompense. Chaque problème peut inclure des centaines de cas de test. Pour améliorer l’efficacité du calcul de la récompense et éliminer les temps morts GPU, ils ont développé un environnement de juge en ligne capable d’exécuter en parallèle un très grand volume de tests unitaires
  • Je me demande pourquoi il y a autant de modèles d’IA chinois orientés d’abord vers l’anglais. Est-ce qu’ils ne s’intéressent pas à leur propre population, ou pensent-ils qu’un modèle prioritairement en chinois n’attirerait pas l’attention en Occident ?

  • Les performances en code du modèle 7B sont très solides. J’utilise Gemini Pro 2.5, qui a obtenu 67,8 points, et ce modèle obtient 57,8, donc très proche des 60,6 de Gemini 2.5 Flash

    • Avec ce que j’ai entendu sur llama4, je suis devenu sceptique vis-à-vis des résultats d’évaluation, mais j’attendrai de voir où il se situe dans des évaluations fermées. Cela dit, c’est très impressionnant
  • MiMo-7B dépasse des modèles plus gros comme Qwen-32B et revendique des performances comparables à OpenAI o1-mini sur les benchmarks de maths/code. Je me demande si c’est le signe que l’optimisation pré-entraînement + RLHF commence à l’emporter sur la taille, ou si nous devenons simplement meilleurs pour benchmarker des capacités étroites

  • C’est amusant de voir des benchmarks qui omettent les modèles les plus performants comme O3. C’est actuellement le meilleur modèle sur beaucoup de benchmarks. Il y a aussi Gemini Pro/Claude 3.7

  • Quand on utilise des fichiers gguf dans ollama, je me demande si vous créez généralement un modelfile pour accompagner un nouveau modèle, ou si vous espérez simplement que l’ollama par défaut fonctionnera avec le nouveau modèle

  • Le README indique seulement « RL » sans préciser quel type de RL est utilisé. Aux chercheurs : je sais que vous êtes occupés, mais s’il vous plaît, n’omettez pas ce genre de détail

  • Je l’ai un peu testé, et globalement c’est assez solide. Le temps d’attente est toutefois assez long à cause de la longue phase de réflexion, plus long encore qu’avec des modèles plus gros comme les récents qwen moe

    • Les moe semblent globalement offrir un meilleur compromis
  • Je me demande s’ils vont utiliser ce modèle comme assistant IA sur les téléphones de la série Xiaomi 15. Probablement. Je ne sais pas trop à quoi m’attendre

  • Waouh. Excellents benchmarks. J’ai hâte de discuter avec ce modèle

    • Quelques points ressortent. D’abord, le modèle 7B a été entraîné sur 25T tokens (!). C’est un entraînement à l’échelle de Meta. Llama 4 Maverick a été entraîné sur environ 22T. (Scout, le plus petit modèle : 40T)
    • Ensuite, c’est une voie intéressante : aller vers un modèle RL avec raisonnement intégré dès le départ, plutôt que vers un modèle distillé ou une couche RL ajoutée pour obtenir du raisonnement à partir d’autres modèles. Ils affirment qu’on peut ainsi obtenir beaucoup plus d’efficacité supplémentaire par paramètre
    • Je n’ai pas d’expérience avec les modèles de Xiaomi, donc je reste prudent, mais statistiquement cela ressemble à un modèle de raisonnement local très prometteur