- Kimi K2.5 est un modèle multimodal open source entraîné en plus sur environ 1,5 quadrillion de tokens visuels et textuels, intégrant les capacités de génération de code et de traitement de la vision
- Grâce à une architecture Agent Swarm capable de piloter en parallèle jusqu’à 100 sous-agents, il exécute des tâches complexes 4,5 fois plus vite
- Intégré à Kimi Code et Kimi App, il prend en charge diverses fonctions orientées usage professionnel comme le codage à partir d’images et de vidéos, le débogage visuel et l’automatisation bureautique
- Dans les benchmarks internes, il enregistre des gains de performance significatifs par rapport à K2 sur l’ensemble des domaines code, vision et productivité bureautique
- Dans la communauté open source, il est considéré comme un modèle montrant des progrès concrets vers l’AGI (intelligence artificielle générale)
Aperçu de Kimi K2.5
- Kimi K2.5 est un modèle multimodal natif basé sur le modèle K2, ayant reçu un préentraînement supplémentaire sur environ 1,5 quadrillion de tokens mixtes vision-texte
- Il unifie les capacités de codage et de vision, et met en œuvre le paradigme de l’agent swarm autonome
- Jusqu’à 100 sous-agents peuvent effectuer en parallèle jusqu’à 1 500 appels d’outils, atteignant un temps d’exécution jusqu’à 4,5 fois plus rapide qu’un agent unique
- Il est disponible via Kimi.com, Kimi App, l’API et Kimi Code, avec prise en charge des modes Instant, Thinking, Agent et Agent Swarm (bêta)
Intégration du code et de la vision
- K2.5 est un modèle open source de codage particulièrement performant pour le développement frontend, capable de générer automatiquement des interfaces complexes comme des interfaces conversationnelles et des animations déclenchées au scroll
- Il prend en charge le visual coding à partir d’images et de vidéos, en convertissant l’intention exprimée visuellement par l’utilisateur en code
- Par exemple, il peut reconstruire un site web à partir d’une vidéo ou trouver le chemin le plus court (113 557 étapes) dans l’image d’un labyrinthe avec l’algorithme BFS
- Grâce à un apprentissage conjoint vision-texte à grande échelle, les capacités visuelles et linguistiques progressent ensemble
- Dans le benchmark interne Kimi Code Bench, il montre des gains constants par rapport à K2 sur l’ensemble des tâches de codage multilingue, y compris build, débogage, refactorisation et tests
- Kimi Code s’intègre au terminal ainsi qu’à des IDE comme VSCode, Cursor et Zed, avec prise en charge des entrées image/vidéo et de la migration automatique des skills
Agent Swarm
- K2.5 Agent Swarm n’est pas une simple extension d’un agent unique, mais une architecture de collaboration parallèle entraînée avec Parallel-Agent Reinforcement Learning (PARL)
- Un agent orchestrateur décompose la tâche en sous-tâches parallélisables, puis des sous-agents fixes les exécutent simultanément
- La fonction de récompense encourage d’abord l’exploration de la parallélisation, puis se recentre progressivement sur la qualité de tâche Q(τ)
- Un indicateur centré sur la latence, appelé Critical Steps, est introduit pour évaluer l’efficacité de l’exécution parallèle
- Dans les évaluations internes, cela permet une réduction de 80 % du temps d’exécution de bout en bout et une amélioration de la capacité à traiter des tâches longues et complexes
- Exemple : pour trouver des créateurs YouTube dans 100 domaines spécialisés, il génère en parallèle 100 sous-agents puis agrège les résultats
Productivité bureautique
- K2.5 Agent prend en charge l’automatisation de tâches bureautiques à grande échelle, avec traitement conversationnel allant jusqu’à la création de documents, feuilles de calcul, PDF et présentations
- Dans les benchmarks internes AI Office Benchmark et General Agent Benchmark, il progresse respectivement de 59,3 % et 24,3 %
- Il peut effectuer des tâches avancées comme l’ajout de commentaires dans Word, la modélisation financière avec des tableaux croisés dynamiques et la rédaction de formules LaTeX dans des PDF
- Il peut terminer en quelques minutes des travaux longs comme la génération d’un article de 10 000 mots ou d’un document de 100 pages
Conclusion
- Kimi K2.5 montre des avancées dans trois domaines — codage basé sur la vision, agent swarm et automatisation bureautique — apportant une démonstration d’une approche de l’AGI sous contraintes du monde réel
- À l’avenir, l’entreprise prévoit de redéfinir les frontières du travail intellectuel via l’extension de l’agentic intelligence
Annexe : principaux résultats de benchmark
- Comparaison avec GPT-5.2, Claude 4.5, Gemini 3 Pro et d’autres sur 7 domaines, dont Reasoning, Vision, Coding et Agentic Search
- HLE-Full w/ tools: 50.2 (GPT-5.2: 45.5)
- MMMU-Pro: 78.5 (Gemini 3 Pro: 81.0)
- SWE-Bench Verified: 76.8 (Claude 4.5: 80.9)
- BrowseComp (Swarm Mode) : 78.4
- Il enregistre des performances de premier plan sur la plupart des benchmarks de vision, de codage et de recherche agentique
- Toutes les expériences ont été menées avec un contexte de 256k tokens,
temperature=1.0ettop-p=0.95 - Kimi Vendor Verifier (KVV) permet de vérifier la précision de services tiers
1 commentaires
Commentaires sur Hacker News
En regardant la page Hugging Face de Kimi-K2.5, on voit qu’il s’agit d’un modèle de 1 trillion de paramètres
La licence est basée sur MIT, mais ajoute une condition : pour les services commerciaux ayant plus de 100 millions d’utilisateurs actifs mensuels ou plus de 20 millions de dollars de chiffre d’affaires, il faut afficher « Kimi K2.5 » dans l’interface
C’est techniquement impressionnant, mais comme on ne peut de toute façon pas le faire tourner chez soi, le fait de le publier gratuitement donne presque l’impression que le risque est réduit de moitié
L’API mentionne l’agent swarm, mais j’aimerais savoir si les poids ont eux aussi été publiés
Le « moment Deepseek » date d’il y a exactement un an
Comparé à cette époque, énormément de technologies sont aujourd’hui publiées gratuitement, et on ressent une liberté complètement différente de l’approche fermée d’OpenAI
En y ajoutant GLM 4.7 flash, Minimax-M2 et la série Qwen, la diversité est vraiment remarquable
Cela fait deux ans que j’ai arrêté mes abonnements à OpenAI et Anthropic, et cela ne me manque pas du tout
Même sur Reddit, il y avait en permanence d’étranges commentaires « pro-deepseek ». Ça ressemblait presque à du marketing à la Apple
Les entreprises chinoises ne publient probablement pas cela par amour de l’humanité
Partage de plusieurs sites utiles pour comparer différents modèles
Kimi K2.5 exécute en parallèle jusqu’à 100 sous-agents et traite en parallèle jusqu’à 1 500 appels d’outils
Ce qui est intéressant, ce n’est pas seulement l’appel d’outils, mais le fait d’avoir entraîné l’orchestration d’agents elle-même par apprentissage par renforcement (RL)
D’ordinaire, le modèle produit « call tool X », puis l’IDE l’exécute et lui renvoie le résultat
J’obtiens un effet similaire avec le TeammateTool de Claude Code
En plus de K2.5, Moonshot AI a aussi publié Kimi Code
C’est un agent de codage en terminal issu de l’ancien Kimi CLI ; je l’utilise depuis le mois dernier et il est plutôt stable
GitHub : MoonshotAI/kimi-cli
Il a un hook zsh qui permet de passer en mode agent de n’importe où
Il est intéressant de voir que K2.5 a été entraîné à créer automatiquement des sous-agents et à constituer un swarm
Cela ressemble aux sous-agents dynamiques de Claude Code, mais avec une capacité bien plus autonome à gérer un grand nombre d’agents
Je me demande si Claude reçoit un entraînement similaire et si cela sera dévoilé dans la prochaine version
Dernièrement, les modèles chinois prennent Claude Opus comme référence pour leurs benchmarks
Qwen3 max thinking et Kimi K2.5 se comparent tous deux à Opus plutôt qu’à Sonnet. Ils le rattrapent pratiquement à la même vitesse
Kimi K2 était souvent considéré comme ayant une forte intelligence émotionnelle
Je me demande si K2.5 conservera cette caractéristique
Le score CCP-bench a fortement progressé avec K2.5
Voir l’image associée
Félicitations à l’équipe Kimi pour ce résultat
Mais je me demande toujours pourquoi Claude reste numéro 1 en codage. Est-ce grâce à un entraînement spécialisé pour le code, ou à une meilleure qualité d’apprentissage globale ?
J’aimerais que quelqu’un batte Opus 4.5 en codage
Il arrive même que les modèles soient surajustés aux benchmarks
J’ai utilisé à la fois GPT5.2 et Opus 4.5, et leurs performances réelles en codage sont presque identiques
En plus, K2.5 coûte environ un cinquième du prix des modèles haut de gamme, ce qui le rend prometteur
Opus a souvent tendance à introduire des abstractions inutiles ou du hardcoding