MiMo-V2.5 — le modèle d’IA omnimodal open source de Xiaomi

(huggingface.co)

7 points par xguru 23 시간 전 | 1 commentaires | Partager sur WhatsApp

Modèle omnimodal natif capable de traiter de façon unifiée le texte, les images, la vidéo et l’audio dans une architecture unique, avec une spécialisation pour les tâches d’agent
Sous licence MIT, permettant à la fois la distribution commerciale et le fine-tuning sans aucune autorisation supplémentaire
Architecture Sparse MoE permettant une inférence efficace en n’activant que 15B paramètres sur un total de 310B (la version Pro est à 1.02T/42B)
Hybrid Attention (SWA + GA au ratio 5:1, fenêtre 128) réduisant d’environ 6 fois le volume de stockage du KV-cache tout en prenant en charge jusqu’à 1M tokens de contexte
Intègre un encodeur de vision dédié (ViT de 729M paramètres, hybrid window attention) et un encodeur audio (261M paramètres, basé sur MiMo-Audio-Tokenizer)
Module Multi-Token Prediction (MTP) sur 3 couches pour accélérer l’inférence via le speculative decoding et améliorer l’efficacité de l’entraînement RL
Entraîné en mixed precision FP8 sur un total d’environ 48T tokens, puis enrichi en post-traitement avec SFT, RL d’agent à grande échelle, Multi-Teacher On-Policy Distillation (MOPD) afin d’améliorer les performances sur les benchmarks agentiques et multimodaux
- Pipeline en 5 étapes (préentraînement texte → warm-up du projecteur → préentraînement multimodal → post-traitement SFT/agent → RL/MOPD)
Prise en charge des déploiements officiels SGLang (quantification FP8, parallélisme dp/tp) et vLLM
Disponible en deux versions : Base(256K) et Full(1M)

1 commentaires

xguru 23 시간 전

VentureBeat l’a testé, et apparemment c’est plutôt bien adapté à OpenClaw.
https://venturebeat.com/ai/…

Sur le benchmark ClawEval, le modèle Pro a enregistré un taux de réussite de 63,8 %, en tête parmi les modèles open source
Par rapport à Anthropic Claude Opus 4.6, Google Gemini 3.1 Pro et OpenAI GPT-5.4, il obtient des résultats équivalents avec 40 à 60 % de tokens en moins
MiMo-V2.5 ("Omni") est un modèle spécialisé multimodal natif, qui traite de manière intégrée la vision, l’audio et le texte
MiMo-V2.5-Pro ("Agent") est spécialisé dans la cohérence à long horizon (long-horizon coherence) et l’ingénierie logicielle complexe
Le modèle Pro a obtenu 1581 points sur le benchmark GDPVal-AA (Elo), dépassant Kimi K2.6 et GLM 5.1
Alors que de nombreux modèles « open » incluent des politiques d’« Acceptable Use » restrictives, MiMo-V2.5 est publié sous licence MIT
- Aucune approbation requise : distribution commerciale possible sans autorisation explicite de Xiaomi
- Liberté de poursuite de l’entraînement : possibilité de faire du fine-tuning sur ses propres données puis de publier les poids dérivés
- Usage commercial illimité : pas de plafond de revenus ni de limite sur le nombre d’utilisateurs, comme on en voit souvent dans les licences communautaires
Chef de projet : Fuli Luo (ancien membre clé de DeepSeek)
> « La valeur d’un modèle ne se mesure pas à son classement, mais aux problèmes qu’il résout »

MiMo-V2.5 — le modèle d’IA omnimodal open source de Xiaomi

À lire aussi

1 commentaires