- Modèle omnimodal natif capable de traiter de façon unifiée le texte, les images, la vidéo et l’audio dans une architecture unique, avec une spécialisation pour les tâches d’agent
- Sous licence MIT, permettant à la fois la distribution commerciale et le fine-tuning sans aucune autorisation supplémentaire
- Architecture Sparse MoE permettant une inférence efficace en n’activant que 15B paramètres sur un total de 310B (la version Pro est à 1.02T/42B)
- Hybrid Attention (SWA + GA au ratio 5:1, fenêtre 128) réduisant d’environ 6 fois le volume de stockage du KV-cache tout en prenant en charge jusqu’à 1M tokens de contexte
- Intègre un encodeur de vision dédié (ViT de 729M paramètres, hybrid window attention) et un encodeur audio (261M paramètres, basé sur MiMo-Audio-Tokenizer)
- Module Multi-Token Prediction (MTP) sur 3 couches pour accélérer l’inférence via le speculative decoding et améliorer l’efficacité de l’entraînement RL
- Entraîné en mixed precision FP8 sur un total d’environ 48T tokens, puis enrichi en post-traitement avec SFT, RL d’agent à grande échelle, Multi-Teacher On-Policy Distillation (MOPD) afin d’améliorer les performances sur les benchmarks agentiques et multimodaux
- Pipeline en 5 étapes (préentraînement texte → warm-up du projecteur → préentraînement multimodal → post-traitement SFT/agent → RL/MOPD)
- Prise en charge des déploiements officiels SGLang (quantification FP8, parallélisme dp/tp) et vLLM
- Disponible en deux versions : Base(256K) et Full(1M)
1 commentaires
VentureBeat l’a testé, et apparemment c’est plutôt bien adapté à OpenClaw.
https://venturebeat.com/ai/…
> « La valeur d’un modèle ne se mesure pas à son classement, mais aux problèmes qu’il résout »