7 points par xguru 23 시간 전 | 1 commentaires | Partager sur WhatsApp
  • Modèle omnimodal natif capable de traiter de façon unifiée le texte, les images, la vidéo et l’audio dans une architecture unique, avec une spécialisation pour les tâches d’agent
  • Sous licence MIT, permettant à la fois la distribution commerciale et le fine-tuning sans aucune autorisation supplémentaire
  • Architecture Sparse MoE permettant une inférence efficace en n’activant que 15B paramètres sur un total de 310B (la version Pro est à 1.02T/42B)
  • Hybrid Attention (SWA + GA au ratio 5:1, fenêtre 128) réduisant d’environ 6 fois le volume de stockage du KV-cache tout en prenant en charge jusqu’à 1M tokens de contexte
  • Intègre un encodeur de vision dédié (ViT de 729M paramètres, hybrid window attention) et un encodeur audio (261M paramètres, basé sur MiMo-Audio-Tokenizer)
  • Module Multi-Token Prediction (MTP) sur 3 couches pour accélérer l’inférence via le speculative decoding et améliorer l’efficacité de l’entraînement RL
  • Entraîné en mixed precision FP8 sur un total d’environ 48T tokens, puis enrichi en post-traitement avec SFT, RL d’agent à grande échelle, Multi-Teacher On-Policy Distillation (MOPD) afin d’améliorer les performances sur les benchmarks agentiques et multimodaux
    • Pipeline en 5 étapes (préentraînement texte → warm-up du projecteur → préentraînement multimodal → post-traitement SFT/agent → RL/MOPD)
  • Prise en charge des déploiements officiels SGLang (quantification FP8, parallélisme dp/tp) et vLLM
  • Disponible en deux versions : Base(256K) et Full(1M)

1 commentaires

 

VentureBeat l’a testé, et apparemment c’est plutôt bien adapté à OpenClaw.
https://venturebeat.com/ai/…

  • Sur le benchmark ClawEval, le modèle Pro a enregistré un taux de réussite de 63,8 %, en tête parmi les modèles open source
  • Par rapport à Anthropic Claude Opus 4.6, Google Gemini 3.1 Pro et OpenAI GPT-5.4, il obtient des résultats équivalents avec 40 à 60 % de tokens en moins
  • MiMo-V2.5 ("Omni") est un modèle spécialisé multimodal natif, qui traite de manière intégrée la vision, l’audio et le texte
  • MiMo-V2.5-Pro ("Agent") est spécialisé dans la cohérence à long horizon (long-horizon coherence) et l’ingénierie logicielle complexe
  • Le modèle Pro a obtenu 1581 points sur le benchmark GDPVal-AA (Elo), dépassant Kimi K2.6 et GLM 5.1
  • Alors que de nombreux modèles « open » incluent des politiques d’« Acceptable Use » restrictives, MiMo-V2.5 est publié sous licence MIT
    • Aucune approbation requise : distribution commerciale possible sans autorisation explicite de Xiaomi
    • Liberté de poursuite de l’entraînement : possibilité de faire du fine-tuning sur ses propres données puis de publier les poids dérivés
    • Usage commercial illimité : pas de plafond de revenus ni de limite sur le nombre d’utilisateurs, comme on en voit souvent dans les licences communautaires
  • Chef de projet : Fuli Luo (ancien membre clé de DeepSeek)
    > « La valeur d’un modèle ne se mesure pas à son classement, mais aux problèmes qu’il résout »