Rapport technique de Kimi K2.5 [PDF] - Un modèle multimodal open source vers l’intelligence agentique visuelle

(github.com/MoonshotAI)

5 points par GN⁺ 2026-02-01 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Kimi K2.5, publié par Moonshot AI, est un modèle agentique multimodal open source optimisé conjointement pour le texte et la vision, capable de couvrir de façon unifiée le raisonnement, le code, la vision et l’ensemble des tâches agentiques au sein d’un seul modèle
Pour dépasser les limites des agents séquentiels existants, il introduit Agent Swarm, une orchestration parallèle d’agents, qui décompose et exécute simultanément des tâches complexes
Il présente ses performances comparées à des modèles commerciaux et open source sur une large batterie d’évaluations, incluant images, vidéos, documents, web et environnements OS
Il confirme expérimentalement un effet de transfert intermodal dans lequel l’apprentissage par renforcement visuel améliore aussi les performances de raisonnement textuel
En publiant les checkpoints entraînés, le projet vise à étendre la recherche sur les systèmes agentiques généralistes et leur usage réel

Vue d’ensemble et problématique

Les grands modèles de langage évoluent au-delà du simple question-réponse vers une intelligence agentique capable d’utiliser des outils et de planifier sur le long terme
Les modèles multimodaux existants ajoutent souvent la vision à une architecture centrée sur le texte, ce qui crée des conflits entre modalités et des limites de généralisation
Dans les tâches réelles complexes, la latence induite par l’exécution séquentielle d’agents et les limites de contexte constituent des goulets d’étranglement majeurs

Conception centrale de Kimi K2.5

Le préentraînement conjoint texte–vision renforce l’alignement en mélangeant les deux modalités selon une proportion fixe dès les premières phases d’apprentissage
L’encodeur visuel MoonViT-3D permet de traiter, avec une structure unique, des images en résolution native et des vidéos longues
Le modèle adopte une stratégie de zero-vision SFT, où les performances visuelles s’activent même sans SFT dédiée à la vision
Un apprentissage par renforcement multimodal conjoint, structuré par blocs de capacités, améliore simultanément les connaissances, le raisonnement, le code et les capacités agentiques

Architecture Agent Swarm

Un orchestrateur central décompose les tâches en sous-problèmes parallélisables et crée dynamiquement des sous-agents spécialisés
Chaque sous-agent travaille dans un contexte local indépendant, afin d’éviter la pollution du contexte global
Au lieu de fusionner l’historique complet, le système n’agrège sélectivement que des résultats résumés, ce qui met en œuvre un sharding du contexte
Des prompts d’entraînement favorisant l’exécution parallèle et l’indicateur Critical Steps servent à apprendre la minimisation de la latence

Configuration et échelle de l’entraînement

Le modèle de base Kimi K2 repose sur une architecture MoE d’un trillion de paramètres préentraînée sur 15 trillions de tokens de texte
Un entraînement conjoint en long contexte permet de prendre en charge jusqu’à 256k de longueur de contexte
L’entraînement inclut diverses données multimodales : images, vidéos, OCR, documents, captures d’écran d’OS, etc.

Évaluation et performances : synthèse axée sur la comparaison entre principaux modèles

Kimi K2.5 a été évalué dans des conditions identiques face à des modèles commerciaux (Claude Opus 4.5, GPT-5.2, Gemini 3 Pro) et à des modèles open source (DeepSeek-V3.2, Qwen3-VL-235B)
Toutes les évaluations ont été réalisées avec temperature 1.0, top-p 0.95 et une longueur de contexte maximale de 256k
Benchmarks de raisonnement et de connaissances générales
- Sur AIME 2025, Kimi K2.5 atteint 96.1, dépassant Claude Opus 4.5 (92.8) et Gemini 3 Pro (95.0), tout en se rapprochant de GPT-5.2 (100)
- Sur HMMT 2025 et IMO-AnswerBench, il maintient également des scores supérieurs à ceux de Claude Opus 4.5 et de Qwen3-VL
- Sur GPQA-Diamond, il obtient 87.6, un niveau comparable à Claude Opus 4.5 (87.0), avec de meilleures performances que les modèles open source
- Sur LongBench v2, Gemini 3 Pro enregistre le meilleur score, mais Kimi K2.5 affiche des résultats compétitifs face à DeepSeek-V3.2 et Qwen3-VL
Code et ingénierie logicielle
- Sur SWE-Bench Verified, Kimi K2.5 obtient 76.8, un résultat proche de DeepSeek-V3.2 (76.2) et supérieur à Qwen3-VL (73.1)
- Sur SWE-Bench Pro et Multilingual, il reste en dessous des modèles commerciaux, mais se maintient parmi les meilleurs du côté open source
- Sur LiveCodeBench v6, il atteint 85.0, au-dessus de Claude Opus 4.5 (82.2) et de Qwen3-VL (83.3)
- Sur PaperBench(CodeDev) et CyberGym, les modèles commerciaux gardent l’avantage, mais Kimi K2.5 montre des performances stables et exploitables en pratique
Tâches agentiques et basées sur la recherche
- Sur BrowseComp, il atteint 60.6 en agent unique, largement au-dessus de Claude Opus 4.5 (37.0)
- Avec Agent Swarm, il monte à 78.4 sur BrowseComp et à 79.0 sur WideSearch, montrant une amélioration nette par rapport à l’agent unique
- Sur WideSearch, Claude Opus 4.5 affichait un meilleur score en mode agent unique, mais Kimi K2.5 prend l’avantage dans une configuration d’agents parallèles
- Sur les familles de benchmarks DeepSearchQA et FinSearchComp, il obtient aussi des résultats proches de ceux des modèles commerciaux
Compréhension visuelle, documentaire et vidéo
- Sur MMMU-Pro, OCRBench, OmniDocBench 1.5 et d’autres, il est directement comparé à Qwen3-VL et reste globalement compétitif en raisonnement visuel et en compréhension documentaire
- GPT-5.2 a connu, sur certaines évaluations visuelles, un taux d’échec de sortie d’environ 10 %, ce qui a conduit à une notation prudente
- Sur les benchmarks vidéo courts et longs, Kimi K2.5 montre des performances régulières, avec des résultats plus stables que ceux de modèles centrés sur l’image unique
Évaluation globale
- Kimi K2.5 n’atteint pas toujours les meilleurs modèles commerciaux sur certains indicateurs, mais il présente, parmi les modèles multimodaux et agentiques open source, les performances les plus larges et les plus équilibrées
- En particulier, l’usage d’Agent Swarm fait clairement ressortir son avantage sur les tâches agentiques et de recherche
- En réunissant raisonnement, code, vision et capacités agentiques dans un seul modèle ouvert, il s’agit d’un modèle agentique généraliste réellement utilisable, et pas seulement expérimental

Limites et observations

Certains modèles commerciaux ont présenté un taux d’échec de sortie sur des benchmarks visuels, ce qui a conduit à des scores prudents
Sur les longues tâches agentiques, les différences de performances varient fortement selon la stratégie de gestion du contexte
Certains benchmarks coûteux ont été exclus de l’évaluation en raison de problèmes de stabilité d’API

Publication et usages

Les checkpoints de post-entraînement de Kimi K2.5 sont publiés en open source
Il constitue un modèle de base réutilisable pour les systèmes agentiques généralistes, la recherche multimodale et les charges d’automatisation réelles
Une approche qui ne sépare pas texte et vision, combinée à une architecture d’agents parallèles, pourrait constituer une voie concrète vers la General Agentic Intelligence

Rapport technique de Kimi K2.5 [PDF] - Un modèle multimodal open source vers l’intelligence agentique visuelle

Vue d’ensemble et problématique

Conception centrale de Kimi K2.5

Architecture Agent Swarm

Configuration et échelle de l’entraînement

Évaluation et performances : synthèse axée sur la comparaison entre principaux modèles

Benchmarks de raisonnement et de connaissances générales

Code et ingénierie logicielle

Tâches agentiques et basées sur la recherche

Compréhension visuelle, documentaire et vidéo

Évaluation globale

Limites et observations

Publication et usages

À lire aussi

Aucun commentaire pour le moment.