Kimi dévoile Kimi K2.5, un modèle agentique visuel SOTA open source

(kimi.com)

3 points par GN⁺ 2026-01-28 | 1 commentaires | Partager sur WhatsApp

Kimi K2.5 est un modèle multimodal open source entraîné en plus sur environ 1,5 quadrillion de tokens visuels et textuels, intégrant les capacités de génération de code et de traitement de la vision
Grâce à une architecture Agent Swarm capable de piloter en parallèle jusqu’à 100 sous-agents, il exécute des tâches complexes 4,5 fois plus vite
Intégré à Kimi Code et Kimi App, il prend en charge diverses fonctions orientées usage professionnel comme le codage à partir d’images et de vidéos, le débogage visuel et l’automatisation bureautique
Dans les benchmarks internes, il enregistre des gains de performance significatifs par rapport à K2 sur l’ensemble des domaines code, vision et productivité bureautique
Dans la communauté open source, il est considéré comme un modèle montrant des progrès concrets vers l’AGI (intelligence artificielle générale)

Aperçu de Kimi K2.5

Kimi K2.5 est un modèle multimodal natif basé sur le modèle K2, ayant reçu un préentraînement supplémentaire sur environ 1,5 quadrillion de tokens mixtes vision-texte
- Il unifie les capacités de codage et de vision, et met en œuvre le paradigme de l’agent swarm autonome
Jusqu’à 100 sous-agents peuvent effectuer en parallèle jusqu’à 1 500 appels d’outils, atteignant un temps d’exécution jusqu’à 4,5 fois plus rapide qu’un agent unique
Il est disponible via Kimi.com, Kimi App, l’API et Kimi Code, avec prise en charge des modes Instant, Thinking, Agent et Agent Swarm (bêta)

Intégration du code et de la vision

K2.5 est un modèle open source de codage particulièrement performant pour le développement frontend, capable de générer automatiquement des interfaces complexes comme des interfaces conversationnelles et des animations déclenchées au scroll
Il prend en charge le visual coding à partir d’images et de vidéos, en convertissant l’intention exprimée visuellement par l’utilisateur en code
- Par exemple, il peut reconstruire un site web à partir d’une vidéo ou trouver le chemin le plus court (113 557 étapes) dans l’image d’un labyrinthe avec l’algorithme BFS
Grâce à un apprentissage conjoint vision-texte à grande échelle, les capacités visuelles et linguistiques progressent ensemble
Dans le benchmark interne Kimi Code Bench, il montre des gains constants par rapport à K2 sur l’ensemble des tâches de codage multilingue, y compris build, débogage, refactorisation et tests
Kimi Code s’intègre au terminal ainsi qu’à des IDE comme VSCode, Cursor et Zed, avec prise en charge des entrées image/vidéo et de la migration automatique des skills

Agent Swarm

K2.5 Agent Swarm n’est pas une simple extension d’un agent unique, mais une architecture de collaboration parallèle entraînée avec Parallel-Agent Reinforcement Learning (PARL)
- Un agent orchestrateur décompose la tâche en sous-tâches parallélisables, puis des sous-agents fixes les exécutent simultanément
La fonction de récompense encourage d’abord l’exploration de la parallélisation, puis se recentre progressivement sur la qualité de tâche Q(τ)
Un indicateur centré sur la latence, appelé Critical Steps, est introduit pour évaluer l’efficacité de l’exécution parallèle
Dans les évaluations internes, cela permet une réduction de 80 % du temps d’exécution de bout en bout et une amélioration de la capacité à traiter des tâches longues et complexes
- Exemple : pour trouver des créateurs YouTube dans 100 domaines spécialisés, il génère en parallèle 100 sous-agents puis agrège les résultats

Productivité bureautique

K2.5 Agent prend en charge l’automatisation de tâches bureautiques à grande échelle, avec traitement conversationnel allant jusqu’à la création de documents, feuilles de calcul, PDF et présentations
Dans les benchmarks internes AI Office Benchmark et General Agent Benchmark, il progresse respectivement de 59,3 % et 24,3 %
Il peut effectuer des tâches avancées comme l’ajout de commentaires dans Word, la modélisation financière avec des tableaux croisés dynamiques et la rédaction de formules LaTeX dans des PDF
Il peut terminer en quelques minutes des travaux longs comme la génération d’un article de 10 000 mots ou d’un document de 100 pages

Conclusion

Kimi K2.5 montre des avancées dans trois domaines — codage basé sur la vision, agent swarm et automatisation bureautique — apportant une démonstration d’une approche de l’AGI sous contraintes du monde réel
À l’avenir, l’entreprise prévoit de redéfinir les frontières du travail intellectuel via l’extension de l’agentic intelligence

Annexe : principaux résultats de benchmark

Comparaison avec GPT-5.2, Claude 4.5, Gemini 3 Pro et d’autres sur 7 domaines, dont Reasoning, Vision, Coding et Agentic Search
- HLE-Full w/ tools: 50.2 (GPT-5.2: 45.5)
- MMMU-Pro: 78.5 (Gemini 3 Pro: 81.0)
- SWE-Bench Verified: 76.8 (Claude 4.5: 80.9)
- BrowseComp (Swarm Mode) : 78.4
Il enregistre des performances de premier plan sur la plupart des benchmarks de vision, de codage et de recherche agentique
Toutes les expériences ont été menées avec un contexte de 256k tokens, temperature=1.0 et top-p=0.95
Kimi Vendor Verifier (KVV) permet de vérifier la précision de services tiers

1 commentaires

GN⁺ 2026-01-28

Commentaires sur Hacker News

En regardant la page Hugging Face de Kimi-K2.5, on voit qu’il s’agit d’un modèle de 1 trillion de paramètres
La licence est basée sur MIT, mais ajoute une condition : pour les services commerciaux ayant plus de 100 millions d’utilisateurs actifs mensuels ou plus de 20 millions de dollars de chiffre d’affaires, il faut afficher « Kimi K2.5 » dans l’interface
- Un trillion… même en int4, il faudrait sans doute un demi-téraoctet de VRAM
  C’est techniquement impressionnant, mais comme on ne peut de toute façon pas le faire tourner chez soi, le fait de le publier gratuitement donne presque l’impression que le risque est réduit de moitié
- Les développeurs de Cursor ont essayé de cacher que le modèle Composer était basé sur GLM ; ça risque d’être une nouvelle assez gênante pour eux
- Je me demande si le thinking, l’instruct, l’agent et l’agent swarm (bêta) de Kimi K2.5 sont tous open source
  L’API mentionne l’agent swarm, mais j’aimerais savoir si les poids ont eux aussi été publiés
- En voyant la clause « si le chiffre d’affaires dépasse 20 millions de dollars, affichez Kimi K2.5 dans l’interface », je me dis qu’il vaudrait presque mieux dire carrément « payez 1 million de dollars »
Le « moment Deepseek » date d’il y a exactement un an
Comparé à cette époque, énormément de technologies sont aujourd’hui publiées gratuitement, et on ressent une liberté complètement différente de l’approche fermée d’OpenAI
- Même après DeepSeekR1, la vitesse de progression des modèles chinois comme v3-0324, v3.1, v3.1-terminus et v3.2-speciale est impressionnante
  En y ajoutant GLM 4.7 flash, Minimax-M2 et la série Qwen, la diversité est vraiment remarquable
  Cela fait deux ans que j’ai arrêté mes abonnements à OpenAI et Anthropic, et cela ne me manque pas du tout
- Ce n’est pas un hasard. Les entreprises chinoises font souvent de grosses publications avant le Nouvel An lunaire, donc il est probable qu’il y en ait encore d’autres avant le 17 février
- Je me demande pourquoi ils publient gratuitement des modèles aussi énormes. Je m’interroge sur leur modèle économique
- Je pense que Deepseek était en réalité un projet surtout marketing
  Même sur Reddit, il y avait en permanence d’étranges commentaires « pro-deepseek ». Ça ressemblait presque à du marketing à la Apple
- Mais ces modèles peuvent aussi être détournés pour des attaques de sécurité ou biologiques
  Les entreprises chinoises ne publient probablement pas cela par amour de l’humanité
Partage de plusieurs sites utiles pour comparer différents modèles
- lmarena.ai/leaderboard — duels ELO entre modèles
- dashboard.safe.ai — tableau de bord de CAIS
- clocks.brianmoore.com — comparaison des modèles sur le dessin d’horloges
- eqbench.com — benchmark d’intelligence émotionnelle
- ocrarena.ai/battle — duel OCR
- mafia-arena.com — duel au jeu du loup-garou/mafia
- openrouter.ai/rankings — parts d’usage basées sur OpenRouter
Kimi K2.5 exécute en parallèle jusqu’à 100 sous-agents et traite en parallèle jusqu’à 1 500 appels d’outils
Ce qui est intéressant, ce n’est pas seulement l’appel d’outils, mais le fait d’avoir entraîné l’orchestration d’agents elle-même par apprentissage par renforcement (RL)
- Mais 1 500 appels d’outils, c’est un cauchemar en termes de structure de coûts. Même avec seulement quelques dizaines d’étapes, la marge s’effondre ; sans financement VC, cela semble intenable
- Je me demande si « self-direct an agent swarm » est une fonctionnalité interne au modèle ou quelque chose implémenté au niveau de l’IDE/service
  D’ordinaire, le modèle produit « call tool X », puis l’IDE l’exécute et lui renvoie le résultat
- Les agents parallèles sont une astuce simple mais puissante
  J’obtiens un effet similaire avec le TeammateTool de Claude Code
En plus de K2.5, Moonshot AI a aussi publié Kimi Code
C’est un agent de codage en terminal issu de l’ancien Kimi CLI ; je l’utilise depuis le mois dernier et il est plutôt stable
GitHub : MoonshotAI/kimi-cli
- Ce n’est pas seulement un agent de codage, il fait aussi office de shell
  Il a un hook zsh qui permet de passer en mode agent de n’importe où
- Je me demande s’il prend en charge la fonction swarm, ainsi qu’Opencode
- J’aimerais aussi savoir ce qu’il vaut en comparaison avec CC
Il est intéressant de voir que K2.5 a été entraîné à créer automatiquement des sous-agents et à constituer un swarm
Cela ressemble aux sous-agents dynamiques de Claude Code, mais avec une capacité bien plus autonome à gérer un grand nombre d’agents
Je me demande si Claude reçoit un entraînement similaire et si cela sera dévoilé dans la prochaine version
Dernièrement, les modèles chinois prennent Claude Opus comme référence pour leurs benchmarks
Qwen3 max thinking et Kimi K2.5 se comparent tous deux à Opus plutôt qu’à Sonnet. Ils le rattrapent pratiquement à la même vitesse
- Sur clocks.brianmoore.com, K2 fait partie des rares modèles ayant réussi parfaitement le test de l’horloge
- Les laboratoires chinois semblent suivre un schéma consistant à distiller les modèles SOTA occidentaux puis à les rattraper en quelques mois
- Sur benchmark, c’est comparable, mais en usage réel, les modèles d’Anthropic gardent encore l’avantage
- Au final, ce sont surtout les scénarios d’usage réels qui comptent. Il est difficile de juger sur les seuls scores de benchmark
Kimi K2 était souvent considéré comme ayant une forte intelligence émotionnelle
Je me demande si K2.5 conservera cette caractéristique
- J’ai eu exactement la même impression. Je suis vraiment curieux de savoir comment ils ont produit ce type de réponse émotionnelle
- Je compte le tester sur mafia-arena.com
- C’est subjectif, mais il m’a semblé plus humain que Gemini 3, GPT 5.2 et Opus 4.5
Le score CCP-bench a fortement progressé avec K2.5
Voir l’image associée
Félicitations à l’équipe Kimi pour ce résultat
Mais je me demande toujours pourquoi Claude reste numéro 1 en codage. Est-ce grâce à un entraînement spécialisé pour le code, ou à une meilleure qualité d’apprentissage globale ?
J’aimerais que quelqu’un batte Opus 4.5 en codage
- Les écarts de benchmark n’ont presque aucune signification. Le bruit des environnements de codage réels est bien plus important
  Il arrive même que les modèles soient surajustés aux benchmarks
  J’ai utilisé à la fois GPT5.2 et Opus 4.5, et leurs performances réelles en codage sont presque identiques
  En plus, K2.5 coûte environ un cinquième du prix des modèles haut de gamme, ce qui le rend prometteur
- J’utilise Gemini Pro plutôt qu’Opus, car il repense la structure du code et reflète mieux les exigences
  Opus a souvent tendance à introduire des abstractions inutiles ou du hardcoding
- Gemini 3 Pro est particulièrement meilleur sur les grandes bases de code
- Opus 4.5 est un modèle sorti il y a deux mois, et c’est le résultat du fort accent mis par Anthropic sur les performances en codage

Kimi dévoile Kimi K2.5, un modèle agentique visuel SOTA open source

Aperçu de Kimi K2.5

Intégration du code et de la vision

Agent Swarm

Productivité bureautique

Conclusion

Annexe : principaux résultats de benchmark

À lire aussi

1 commentaires

Commentaires sur Hacker News