MiMo-V2.5 — le modèle d’IA omni-modal open source de Xiaomi
(huggingface.co)- Un modèle omni-modal natif qui traite de façon unifiée le texte, les images, la vidéo et l’audio dans une architecture unique, avec une spécialisation pour les tâches d’agent
- Sous licence MIT, il peut être distribué commercialement et affiné librement, sans autorisation distincte requise
- Architecture Sparse MoE : seuls 15B paramètres sont activés sur un total de 310B, ce qui permet une inférence efficace (la version Pro est à 1.02T/42B)
- Hybrid Attention (SWA + GA au ratio 5:1, fenêtre 128) : réduction d’environ 6x du volume de stockage du KV-cache tout en prenant en charge jusqu’à 1M tokens de contexte
- Intègre un encodeur de vision dédié (ViT de 729M paramètres, attention hybride par fenêtres) et un encodeur audio (261M paramètres, basé sur MiMo-Audio-Tokenizer)
- Module Multi-Token Prediction (MTP) sur 3 couches pour accélérer l’inférence via le speculative decoding et améliorer l’efficacité de l’entraînement RL
- Entraîné en FP8 mixed precision sur environ 48T tokens au total, puis renforcé en post-traitement avec SFT, RL d’agent à grande échelle, Multi-Teacher On-Policy Distillation (MOPD) pour améliorer les performances sur les benchmarks agent et multimodaux
- Pipeline en 5 étapes (pré-entraînement texte → warm-up du projecteur → pré-entraînement multimodal → post-traitement SFT/agent → RL/MOPD)
- Compatible avec SGLang (quantification FP8, parallélisme dp/tp) et avec le déploiement officiel vLLM
- Disponible en deux versions : Base (256K) et Full (1M)
2 commentaires
VentureBeat l’a testé, et apparemment c’est plutôt bien adapté à OpenClaw.
https://venturebeat.com/ai/…
Quand on pense aux principaux domaines d’activité de Xiaomi, il est possible que cela ait aussi été conçu en ayant en tête des agents comme OpenClaw ou Hermes.