Le modèle de raisonnement MiMo de Xiaomi
(github.com/XiaomiMiMo)- MiMo-7B est une série de modèles développée pour exploiter au maximum le potentiel de raisonnement des modèles de langage
- Grâce à des stratégies de pré-entraînement et de post-entraînement, il offre d’excellentes performances sur les tâches de raisonnement en mathématiques et en code
- Bien que MiMo-7B soit un petit modèle, il affiche des performances comparables à celles de modèles plus grands
- Il est proposé en open source, avec un fort potentiel de contribution pour la communauté
- Son infrastructure RL améliore fortement la vitesse d’entraînement et de validation
I. Introduction
- La plupart des travaux réussis en apprentissage par renforcement (RL) reposent sur de grands modèles, et il est difficile d’améliorer simultanément les capacités en mathématiques et en code sur de petits modèles
- MiMo-7B est un modèle entraîné dès le départ pour les tâches de raisonnement, avec un potentiel de raisonnement capable de dépasser celui de modèles plus grands
- La série MiMo-7B est publiée en open source et peut contribuer à la communauté pour développer de puissants modèles de langage orientés raisonnement
🌟 Points clés
-
Pré-entraînement : un modèle de base pour le raisonnement
- Le pipeline de prétraitement des données a été optimisé afin d’augmenter la densité des schémas de raisonnement
- Plusieurs stratégies sont utilisées pour générer diverses données synthétiques de raisonnement
- La prédiction multi-token est incluse comme objectif d’entraînement supplémentaire afin d’améliorer les performances du modèle
-
Recette de post-entraînement : un modèle de raisonnement pionnier
- 130K problèmes de mathématiques et de code sont utilisés comme données d’entraînement RL
- Une récompense de code fondée sur la difficulté des tests est introduite pour optimiser efficacement la politique
- Une stratégie de rééchantillonnage des données sur les problèmes faciles est mise en œuvre afin de stabiliser les mises à jour de la politique
-
Infrastructure RL
- Le Seamless Rollout Engine a été développé pour accélérer l’entraînement et la validation RL
- MTP est pris en charge dans vLLM, et la robustesse du moteur d’inférence du système RL est renforcée
II. Détails du modèle
- La série MiMo-7B propose différents checkpoints de modèle, téléchargeables sur HuggingFace
III. Résultats d’évaluation
- MiMo-7B-RL affiche d’excellentes performances sur les tâches de raisonnement en mathématiques et en code
- Il obtient des résultats compétitifs sur divers benchmarks
IV. Déploiement
- Prise en charge de l’inférence via vLLM et HuggingFace
- Des environnements recommandés et l’usage des prompts adaptés permettent d’obtenir des performances optimales
V. Citation
- Informations de citation fournies pour MiMo-7B
VI. Contact
- Pour toute question, contactez mimo@xiaomi.com ou ouvrez une issue sur GitHub
1 commentaires
Avis Hacker News
J’ai trouvé intéressante la manière dont l’article traite l’étape d’apprentissage par renforcement (RL) sur les données de code. Ils entraînent le modèle sur des tâches de génération de code pouvant être résolues en exécutant des tests unitaires. Je me demande si d’autres modèles passent aussi par cette étape d’entraînement
Je me demande pourquoi il y a autant de modèles d’IA chinois orientés d’abord vers l’anglais. Est-ce qu’ils ne s’intéressent pas à leur propre population, ou pensent-ils qu’un modèle prioritairement en chinois n’attirerait pas l’attention en Occident ?
Les performances en code du modèle 7B sont très solides. J’utilise Gemini Pro 2.5, qui a obtenu 67,8 points, et ce modèle obtient 57,8, donc très proche des 60,6 de Gemini 2.5 Flash
MiMo-7B dépasse des modèles plus gros comme Qwen-32B et revendique des performances comparables à OpenAI o1-mini sur les benchmarks de maths/code. Je me demande si c’est le signe que l’optimisation pré-entraînement + RLHF commence à l’emporter sur la taille, ou si nous devenons simplement meilleurs pour benchmarker des capacités étroites
C’est amusant de voir des benchmarks qui omettent les modèles les plus performants comme O3. C’est actuellement le meilleur modèle sur beaucoup de benchmarks. Il y a aussi Gemini Pro/Claude 3.7
Quand on utilise des fichiers gguf dans ollama, je me demande si vous créez généralement un modelfile pour accompagner un nouveau modèle, ou si vous espérez simplement que l’ollama par défaut fonctionnera avec le nouveau modèle
Le README indique seulement « RL » sans préciser quel type de RL est utilisé. Aux chercheurs : je sais que vous êtes occupés, mais s’il vous plaît, n’omettez pas ce genre de détail
Je l’ai un peu testé, et globalement c’est assez solide. Le temps d’attente est toutefois assez long à cause de la longue phase de réflexion, plus long encore qu’avec des modèles plus gros comme les récents qwen moe
Je me demande s’ils vont utiliser ce modèle comme assistant IA sur les téléphones de la série Xiaomi 15. Probablement. Je ne sais pas trop à quoi m’attendre
Waouh. Excellents benchmarks. J’ai hâte de discuter avec ce modèle