- Kimi K2.5 est un modèle multimodal open source entraîné en plus sur environ 1,5 quadrillion de tokens visuels et textuels, intégrant les capacités de génération de code et de traitement de la vision
- Grâce à une architecture Agent Swarm capable de piloter en parallèle jusqu’à 100 sous-agents, il exécute des tâches complexes 4,5 fois plus vite
- Intégré à Kimi Code et Kimi App, il prend en charge diverses fonctions orientées usage professionnel comme le codage à partir d’images et de vidéos, le débogage visuel et l’automatisation bureautique
- Dans les benchmarks internes, il enregistre des gains de performance significatifs par rapport à K2 sur l’ensemble des domaines code, vision et productivité bureautique
- Dans la communauté open source, il est considéré comme un modèle montrant des progrès concrets vers l’AGI (intelligence artificielle générale)
Aperçu de Kimi K2.5
- Kimi K2.5 est un modèle multimodal natif basé sur le modèle K2, ayant reçu un préentraînement supplémentaire sur environ 1,5 quadrillion de tokens mixtes vision-texte
- Il unifie les capacités de codage et de vision, et met en œuvre le paradigme de l’agent swarm autonome
- Jusqu’à 100 sous-agents peuvent effectuer en parallèle jusqu’à 1 500 appels d’outils, atteignant un temps d’exécution jusqu’à 4,5 fois plus rapide qu’un agent unique
- Il est disponible via Kimi.com, Kimi App, l’API et Kimi Code, avec prise en charge des modes Instant, Thinking, Agent et Agent Swarm (bêta)
Intégration du code et de la vision
- K2.5 est un modèle open source de codage particulièrement performant pour le développement frontend, capable de générer automatiquement des interfaces complexes comme des interfaces conversationnelles et des animations déclenchées au scroll
- Il prend en charge le visual coding à partir d’images et de vidéos, en convertissant l’intention exprimée visuellement par l’utilisateur en code
- Par exemple, il peut reconstruire un site web à partir d’une vidéo ou trouver le chemin le plus court (113 557 étapes) dans l’image d’un labyrinthe avec l’algorithme BFS
- Grâce à un apprentissage conjoint vision-texte à grande échelle, les capacités visuelles et linguistiques progressent ensemble
- Dans le benchmark interne Kimi Code Bench, il montre des gains constants par rapport à K2 sur l’ensemble des tâches de codage multilingue, y compris build, débogage, refactorisation et tests
- Kimi Code s’intègre au terminal ainsi qu’à des IDE comme VSCode, Cursor et Zed, avec prise en charge des entrées image/vidéo et de la migration automatique des skills
Agent Swarm
- K2.5 Agent Swarm n’est pas une simple extension d’un agent unique, mais une architecture de collaboration parallèle entraînée avec Parallel-Agent Reinforcement Learning (PARL)
- Un agent orchestrateur décompose la tâche en sous-tâches parallélisables, puis des sous-agents fixes les exécutent simultanément
- La fonction de récompense encourage d’abord l’exploration de la parallélisation, puis se recentre progressivement sur la qualité de tâche Q(τ)
- Un indicateur centré sur la latence, appelé Critical Steps, est introduit pour évaluer l’efficacité de l’exécution parallèle
- Dans les évaluations internes, cela permet une réduction de 80 % du temps d’exécution de bout en bout et une amélioration de la capacité à traiter des tâches longues et complexes
- Exemple : pour trouver des créateurs YouTube dans 100 domaines spécialisés, il génère en parallèle 100 sous-agents puis agrège les résultats
Productivité bureautique
- K2.5 Agent prend en charge l’automatisation de tâches bureautiques à grande échelle, avec traitement conversationnel allant jusqu’à la création de documents, feuilles de calcul, PDF et présentations
- Dans les benchmarks internes AI Office Benchmark et General Agent Benchmark, il progresse respectivement de 59,3 % et 24,3 %
- Il peut effectuer des tâches avancées comme l’ajout de commentaires dans Word, la modélisation financière avec des tableaux croisés dynamiques et la rédaction de formules LaTeX dans des PDF
- Il peut terminer en quelques minutes des travaux longs comme la génération d’un article de 10 000 mots ou d’un document de 100 pages
Conclusion
- Kimi K2.5 montre des avancées dans trois domaines — codage basé sur la vision, agent swarm et automatisation bureautique — apportant une démonstration d’une approche de l’AGI sous contraintes du monde réel
- À l’avenir, l’entreprise prévoit de redéfinir les frontières du travail intellectuel via l’extension de l’agentic intelligence
Annexe : principaux résultats de benchmark
- Comparaison avec GPT-5.2, Claude 4.5, Gemini 3 Pro et d’autres sur 7 domaines, dont Reasoning, Vision, Coding et Agentic Search
- HLE-Full w/ tools: 50.2 (GPT-5.2: 45.5)
- MMMU-Pro: 78.5 (Gemini 3 Pro: 81.0)
- SWE-Bench Verified: 76.8 (Claude 4.5: 80.9)
- BrowseComp (Swarm Mode) : 78.4
- Il enregistre des performances de premier plan sur la plupart des benchmarks de vision, de codage et de recherche agentique
- Toutes les expériences ont été menées avec un contexte de 256k tokens,
temperature=1.0 et top-p=0.95
- Kimi Vendor Verifier (KVV) permet de vérifier la précision de services tiers
Aucun commentaire pour le moment.