7 points par xguru 2026-04-29 | 2 commentaires | Partager sur WhatsApp
  • Un modèle omni-modal natif qui traite de façon unifiée le texte, les images, la vidéo et l’audio dans une architecture unique, avec une spécialisation pour les tâches d’agent
  • Sous licence MIT, il peut être distribué commercialement et affiné librement, sans autorisation distincte requise
  • Architecture Sparse MoE : seuls 15B paramètres sont activés sur un total de 310B, ce qui permet une inférence efficace (la version Pro est à 1.02T/42B)
  • Hybrid Attention (SWA + GA au ratio 5:1, fenêtre 128) : réduction d’environ 6x du volume de stockage du KV-cache tout en prenant en charge jusqu’à 1M tokens de contexte
  • Intègre un encodeur de vision dédié (ViT de 729M paramètres, attention hybride par fenêtres) et un encodeur audio (261M paramètres, basé sur MiMo-Audio-Tokenizer)
  • Module Multi-Token Prediction (MTP) sur 3 couches pour accélérer l’inférence via le speculative decoding et améliorer l’efficacité de l’entraînement RL
  • Entraîné en FP8 mixed precision sur environ 48T tokens au total, puis renforcé en post-traitement avec SFT, RL d’agent à grande échelle, Multi-Teacher On-Policy Distillation (MOPD) pour améliorer les performances sur les benchmarks agent et multimodaux
    • Pipeline en 5 étapes (pré-entraînement texte → warm-up du projecteur → pré-entraînement multimodal → post-traitement SFT/agent → RL/MOPD)
  • Compatible avec SGLang (quantification FP8, parallélisme dp/tp) et avec le déploiement officiel vLLM
  • Disponible en deux versions : Base (256K) et Full (1M)

2 commentaires

 
xguru 2026-04-29

VentureBeat l’a testé, et apparemment c’est plutôt bien adapté à OpenClaw.
https://venturebeat.com/ai/…

  • Sur le benchmark ClawEval, le modèle Pro a enregistré un taux de réussite de 63,8 %, en tête parmi les modèles open source
  • Par rapport à Anthropic Claude Opus 4.6, Google Gemini 3.1 Pro et OpenAI GPT-5.4, il obtient des résultats équivalents avec 40 à 60 % de tokens en moins
  • MiMo-V2.5 ("Omni") est un modèle spécialisé multimodal natif, qui traite de manière intégrée la vision, l’audio et le texte
  • MiMo-V2.5-Pro ("Agent") est spécialisé dans la cohérence à long horizon (long-horizon coherence) et l’ingénierie logicielle complexe
  • Le modèle Pro a obtenu 1581 points sur le benchmark GDPVal-AA (Elo), dépassant Kimi K2.6 et GLM 5.1
  • Alors que de nombreux modèles « open » incluent des politiques d’« Acceptable Use » restrictives, MiMo-V2.5 est publié sous licence MIT
    • Aucune approbation requise : distribution commerciale possible sans autorisation explicite de Xiaomi
    • Liberté de poursuite de l’entraînement : possibilité de faire du fine-tuning sur ses propres données puis de publier les poids dérivés
    • Usage commercial illimité : pas de plafond de revenus ni de limite sur le nombre d’utilisateurs, comme on en voit souvent dans les licences communautaires
  • Chef de projet : Fuli Luo (ancien membre clé de DeepSeek)

    « La valeur d’un modèle ne se mesure pas à son classement, mais aux problèmes qu’il résout »

 
cosine20 2026-05-01

Quand on pense aux principaux domaines d’activité de Xiaomi, il est possible que cela ait aussi été conçu en ayant en tête des agents comme OpenClaw ou Hermes.