Présentation de Kimi K2.6 - Les progrès du codage open source

(kimi.com)

5 points par GN⁺ 9 일 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Modèle ayant amélioré ses performances en codage sur de longues séquences et dans les tâches de type agent, avec un renforcement de la généralisation sur plusieurs langages ainsi que sur le front-end, le devops et l’optimisation des performances
Traite des tâches d’ingénierie complexes en codage à exécution continue, avec des gains majeurs de débit observés lors de l’optimisation de l’inférence en Zig et de la refonte complète d’exchange-core, après des milliers d’appels d’outils et plus de 12 heures d’exécution continue
Transforme de simples prompts en interfaces front-end complètes et exploite même des outils de génération d’images et de vidéos, avec prise en charge de workflows full-stack simples incluant authentification et base de données
Étend l’architecture Agent Swarm à 300 sous-agents et 4 000 étapes de coordination, afin d’exécuter en parallèle des tâches de recherche, d’investigation, de rédaction documentaire et de création de fichiers, et de convertir les formats et styles de PDF, diapositives, feuilles de calcul et documents Word en skills réutilisables
Élargit son périmètre aux agents proactifs et aux Claw Groups pour assurer un fonctionnement autonome de longue durée, la collaboration multi-agents et la réattribution de tâches, avec des améliorations confirmées en codage, en appels d’outils et en fiabilité sur longue durée dans les benchmarks et les bêta-tests en entreprise

Codage sur de longues séquences

Confirmation d’une amélioration des performances sur les tâches de codage sur de longues séquences, avec une généralisation renforcée sur plusieurs langages comme Rust, Go et Python, ainsi que sur divers types de travaux comme le front-end, le devops et l’optimisation des performances
- Sur le benchmark interne Kimi Code Bench, fortes améliorations par rapport à Kimi K2.5 sur des tâches complexes de bout en bout
Exécution de codage à exécution continue sur des tâches d’ingénierie complexes
- Téléchargement et déploiement réussis du modèle Qwen3.5-0.8B dans un environnement local Mac
- Implémentation et optimisation de l’inférence du modèle en Zig, démontrant des capacités de généralisation hors distribution
- Après plus de 4 000 appels d’outils, plus de 12 heures d’exécution continue et 14 itérations, le débit est passé d’environ 15 tokens/sec à environ 193 tokens/sec
- La vitesse finale est environ 20 % plus rapide que LM Studio
Refonte complète de exchange-core, moteur open source de matching financier vieux de 8 ans
- Pendant 13 heures d’exécution, répétition de 12 stratégies d’optimisation et ajustement fin de plus de 4 000 lignes de code via plus de 1 000 appels d’outils
- Identification de goulets d’étranglement cachés par analyse des flame graphs d’allocation CPU et mémoire
- Reconfiguration de la topologie des threads cœur de 4ME+2RE à 2ME+1RE
- Sur un moteur déjà proche de ses limites de performance, obtention d’une hausse de 185 % du débit médian (0.43→1.24 MT/s) et d’une hausse de 133 % du débit de performance (1.23→2.86 MT/s)
De nombreuses évaluations d’entreprises en bêta-test ont également confirmé des retours positifs sur la fiabilité du codage longue durée et la qualité des appels d’outils
- Baseten mentionne des performances de codage comparables à celles de modèles propriétaires de premier plan, une forte qualité d’appel d’outils fondée sur la compréhension de frameworks tiers, et une bonne adéquation aux tâches d’ingénierie complexes et longues
- Blackbox évoque un nouveau standard des modèles open source pour les workflows de codage longue durée et orientés agent, la gestion de tâches complexes à plusieurs étapes, une qualité de code élevée, la stabilité sur de longues sessions et la capacité à détecter des bugs non évidents
- CodeBuddy rapporte une hausse de 12 % de la précision de génération de code par rapport à K2.5, une amélioration de 18 % de la stabilité en contexte long et un taux de réussite des appels d’outils de 96.60 %
- Factory signale une amélioration de 15 % dans une évaluation comparative avec ses propres benchmarks
- Fireworks cite comme principaux progrès la fiabilité sur les longues séquences et la capacité à suivre les instructions
- Hermes Agent souligne le resserrement entre appels d’outils et boucles agentiques, l’amélioration du codage et l’élargissement du champ créatif
- Kilo met en avant des performances de niveau SOTA pour un faible coût et de solides capacités sur le contexte long à l’échelle de l’ensemble d’une codebase
- Ollama mentionne l’adéquation au codage et aux outils agentiques, la stabilité lors de longues sessions multi-étapes et l’intégration immédiate avec les intégrations existantes
- OpenCode relève la stabilité de la décomposition des tâches et des appels d’outils, la réduction du surcoût des itérations et la fiabilité de l’expérience de bout en bout
- Qoder mentionne une hausse de la fréquence des appels d’outils et du modèle, un renforcement de la proactivité pendant l’exécution des tâches, ainsi qu’une réduction des interruptions utilisateur et de la latence
- Vercel cite une amélioration de plus de 50 % sur le benchmark Next.js, des performances de premier plan sur la plateforme, et une bonne adéquation au codage agentique et à la génération front-end au regard du rapport coût/efficacité

Conception centrée sur le codage

Grâce à de fortes capacités de codage, il peut transformer de simples prompts en interfaces front-end complètes
- Génération de layouts structurés incluant des hero sections esthétiques, des éléments interactifs et de riches animations avec effets déclenchés au scroll
Son aptitude à exploiter des outils de génération d’images et de vidéos permet de créer des assets visuellement cohérents
- Contribue à la production de hero sections de meilleure qualité et plus marquantes
Va au-delà du front-end statique pour s’étendre à des workflows full-stack simples
- Inclut l’authentification, les interactions utilisateur et les opérations sur base de données
- Prend en charge des cas d’usage légers comme l’historique des transactions ou la gestion de session
Construction du benchmark interne Kimi Design Bench
- Composé de quatre catégories : Visual Input Tasks, Landing Page Construction, Full-Stack Application Development, General Creative Programming
- Par rapport à Google AI Studio, enregistre des résultats prometteurs et de bonnes performances dans plusieurs catégories
Présentation de créations d’exemple du K2.6 Agent
- Résultats générés à partir d’un seul prompt et d’un harness préconfiguré avec ses outils
- Sur le plan esthétique, inclut de beaux designs front-end riches en interactions
- Sur le plan fonctionnel, inclut une base de données intégrée et l’authentification
- Sur le plan de l’usage des outils, inclut la création de sites web soignés à l’aide d’outils de génération d’images et de vidéos

Agent Swarm amélioré

Adoption d’une architecture axée non seulement sur la montée en charge verticale, mais aussi sur la montée en charge horizontale
- Agent Swarm décompose dynamiquement les tâches en sous-tâches hétérogènes, que des agents spécialisés par domaine, générés par lui-même, exécutent en parallèle
Sur la base de l’aperçu de recherche K2.5 Agent Swarm, Kimi K2.6 Agent Swarm propose un saut qualitatif de l’expérience
- Combine recherche large et investigation approfondie
- Combine analyse documentaire à grande échelle et rédaction longue
- Exécute en parallèle la création de contenus sous plusieurs formats
- Fournit, au sein d’une seule exécution autonome, des livrables de bout en bout couvrant documents, sites web, diapositives et feuilles de calcul
Extension de l’ampleur de la montée en charge horizontale de l’architecture
- 300 sous-agents exécutent simultanément 4 000 étapes de coordination
- Forte progression par rapport aux 100 sous-agents et 1 500 étapes de K2.5
- Cette parallélisation à grande échelle réduit la latence de bout en bout, améliore la qualité des sorties et élargit les limites opérationnelles d’Agent Swarm
Possibilité de convertir en Skills des fichiers de haute qualité tels que PDF, feuilles de calcul, diapositives et documents Word
- Capture et préserve les caractéristiques structurelles et stylistiques des documents
- Permet de reproduire ensuite la même qualité et le même format dans d’autres tâches
De nombreux exemples de tâches sont présentés
- Conception et exécution de 5 stratégies quantitatives sur 100 actifs mondiaux du semi-conducteur, extraction d’un PPT de style McKinsey en skill réutilisable, et fourniture d’une feuille de calcul de modélisation détaillée ainsi que d’un support complet de présentation pour la direction
- Conversion d’un article d’astrophysique de haute qualité riche en données visuelles en skill académique réutilisable, extraction du flux de raisonnement et de la méthode de visualisation, puis génération d’un article de recherche de 40 pages et 7 000 mots, d’un jeu de données structuré de plus de 20 000 éléments et de 14 graphiques de niveau astronomique
- À partir d’un CV téléversé, génération de 100 sous-agents pour faire correspondre 100 postes pertinents en Californie, avec fourniture d’un dataset structuré d’opportunités et de 100 CV personnalisés
- Identification sur Google Maps de 30 commerces de détail à Los Angeles sans site web officiel, puis création pour chaque magasin d’une landing page axée sur la conversion

Agents proactifs

Fortes performances enregistrées sur des agents autonomes et proactifs comme OpenClaw et Hermes
- Prise en charge de systèmes fonctionnant 24 heures sur 24, 7 jours sur 7 à travers plusieurs applications
Prise en charge de workflows distincts des simples interactions de chat
- Nécessité d’exécuter en tant qu’agents d’arrière-plan persistants la gestion d’agenda, l’exécution de code et l’orchestration de tâches entre plateformes
L’équipe d’infrastructure RL a mené une exploitation autonome pendant 5 jours à l’aide d’agents basés sur K2.6
- En charge du monitoring, de la réponse aux incidents et de l’exploitation système
- Démonstration du maintien d’un contexte persistant, du traitement de tâches multithread et de l’exécution du cycle complet depuis le déclenchement d’une alerte jusqu’à sa résolution
- Mention de l’existence de journaux de tâches après suppression des informations sensibles
Mesure d’une amélioration de la fiabilité en environnement réel
- Interprétation plus précise des API
- Performances plus stables sur les exécutions de longue durée
- Meilleure conscience de la sécurité lors des tâches de recherche de longue haleine
Quantification des progrès via la suite d’évaluation interne Claw Bench
- Couvre cinq domaines : Coding Tasks, IM Ecosystem Integration, Information Research & Analysis, Scheduled Task Management, Memory Utilization
- Sur tous les indicateurs, forte amélioration du taux d’achèvement des tâches et de la précision des appels d’outils par rapport à Kimi K2.5
- Améliorations particulièrement marquées sur les workflows nécessitant une exploitation autonome continue sans supervision humaine

Bring Your Own Agents

En s’appuyant sur de fortes capacités d’orchestration, étend les agents proactifs en Claw Groups
- Présenté comme une nouvelle implémentation de l’architecture Agent Swarm dans un aperçu de recherche
Accueille un écosystème ouvert et hétérogène
- Plusieurs agents et humains peuvent agir ensemble comme de véritables collaborateurs
- Les utilisateurs peuvent intégrer des agents quel que soit l’appareil ou le modèle utilisé pour les faire tourner
- Chaque agent possède son propre ensemble d’outils, ses skills et un contexte mémoire persistant
- Des agents opérant sur un ordinateur portable local, un appareil mobile ou une instance cloud s’intègrent naturellement dans un espace de travail partagé
Kimi K2.6 agit au centre comme coordinateur adaptatif
- Répartit dynamiquement les tâches selon le profil de skills de chaque agent et les outils disponibles
- Optimise les tâches en fonction des capacités adéquates
- Détecte les échecs ou blocages des agents et réassigne les tâches ou régénère des sous-tâches
- Gère activement l’ensemble du cycle de vie des livrables, du démarrage à la validation puis à la finalisation
Inclut des cas d’usage internes de Claw Groups
- Utilisation interne d’une équipe marketing d’agents pour affiner concrètement les workflows humains-agents
- Coopération d’agents spécialisés comme Demo Makers, Benchmark Makers, Social Media Agents et Video Makers
- Exploitation de campagnes de production de contenu et de lancement de bout en bout
- K2.6 coordonne le partage des résultats intermédiaires et la transformation des idées en livrables cohérents et aboutis
Élargit la relation entre humains et IA au-delà des questions-réponses ou de la simple délégation de tâches, vers un véritable partenariat de collaboration
- Propose une vision où les frontières entre « my agent », « your agent » et « our team » s’effacent naturellement au sein d’un système collaboratif

Tableau de benchmarks

Principaux chiffres de la catégorie Agentic
- HLE-Full w/ tools 54.0, GPT-5.4 52.1, Claude Opus 4.6 53.0, Gemini 3.1 Pro 51.4, Kimi K2.5 50.2
- BrowseComp 83.2, BrowseComp(agent swarm) 86.3, Kimi K2.5 à 74.9 et 78.4 respectivement
- DeepSearchQA f1-score 92.5, accuracy 83.0
- WideSearch item-f1 80.8
- Toolathlon 50.0, Kimi K2.5 27.8
- MCPMark 55.9
- Claw Eval pass^3 62.3, pass@3 80.9
- APEX-Agents 27.9
- OSWorld-Verified 73.1
Principaux chiffres de la catégorie Coding
- Terminal-Bench 2.0 (Terminus-2) 66.7
- SWE-Bench Pro 58.6
- SWE-Bench Multilingual 76.7
- SWE-Bench Verified 80.2
- SciCode 52.2
- OJBench (python) 60.6
- LiveCodeBench (v6) 89.6
Principaux chiffres de la catégorie Reasoning & Knowledge
- HLE-Full 34.7
- AIME 2026 96.4
- HMMT 2026 (Feb) 92.7
- IMO-AnswerBench 86.0
- GPQA-Diamond 90.5
Principaux chiffres de la catégorie Vision
- MMMU-Pro 79.4, MMMU-Pro w/ python 80.1
- CharXiv (RQ) 80.4, CharXiv (RQ) w/ python 86.7
- MathVision 87.4, MathVision w/ python 93.2
- BabyVision 39.8, BabyVision w/ python 68.5
- V* w/ python 96.9
Pour reproduire officiellement les résultats de benchmark de Kimi-K2.6, l’usage de l’API officielle est recommandé
- En cas de choix d’un fournisseur tiers, indication de se référer au Kimi Vendor Verifier (KVV)

Notes

Détails généraux des tests
- Les résultats de Kimi K2.6 et Kimi K2.5 sont rapportés avec thinking mode enabled, ceux de Claude Opus 4.6 avec max effort, ceux de GPT-5.4 avec xhigh reasoning effort et ceux de Gemini 3.1 Pro avec high thinking level
- Sauf mention contraire, les expériences Kimi K2.6 ont été menées avec temperature 1.0, top-p 1.0 et une longueur de contexte de 262,144 tokens
- Les benchmarks sans score public ont été réévalués dans les mêmes conditions que Kimi K2.6 et marqués d’un astérisque (*)
- Les résultats sans astérisque sont tirés des rapports officiels
Benchmarks de raisonnement
- Les scores IMO-AnswerBench de GPT-5.4 et Claude 4.6 proviennent du blog z.ai
- Humanity's Last Exam (HLE) et les autres tâches de raisonnement ont été évalués avec une longueur maximale de génération de 98,304 tokens
- La valeur rapportée par défaut est celle du jeu complet HLE
- Sur le sous-ensemble texte seul, Kimi K2.6 atteint 36.4% accuracy sans outils et 55.5% accuracy avec outils
Renforcement par outils et tâches agentiques
- Les tâches HLE with tools, BrowseComp, DeepSearchQA et WideSearch sont équipées des outils search, code-interpreter et web-browsing
- HLE-Full with tools utilise une longueur maximale de génération de 262,144 tokens, avec une limite par étape de 49,152 tokens
- Lorsque la fenêtre de contexte dépasse le seuil, une stratégie simple de gestion du contexte est utilisée, ne conservant que le tour le plus récent des messages liés aux outils
- Les scores BrowseComp ont été obtenus avec la même gestion de contexte en stratégie discard-all que Kimi K2.5 et DeepSeek-V3.2
- Sur DeepSearchQA, aucun mécanisme de gestion du contexte n’a été appliqué aux tests Kimi K2.6, et les tâches dépassant la longueur de contexte prise en charge ont été directement comptées comme des échecs
- Les scores DeepSearchQA de Claude Opus 4.6, GPT-5.4 et Gemini 3.1 Pro sont cités depuis la Claude Opus 4.7 System Card
- WideSearch rapporte ses résultats avec le réglage de gestion du contexte hide tool result
- Le system prompt de test est identique à celui du Kimi K2.5 technical report
- Claw Eval a été exécuté en version 1.1, avec max-tokens-per-step 16384
- APEX-Agents a évalué 452 tâches sur 480 tâches publiques
  - Comme Artificial Analysis, exclusion de Investment Banking Worlds 244, 246
  - Motif d’exclusion : dépendances à des runtimes externes
Tâches de codage
- Le score Terminal-Bench 2.0 a été obtenu avec le framework agentique par défaut Terminus-2 et le JSON parser fourni, en mode preserve thinking mode
- Les évaluations de la famille SWE-Bench (Verified, Multilingual et Pro inclus) utilisent un framework interne d’évaluation modifié à partir de SWE-agent
- La configuration d’outils de ce framework comprend l’ensemble minimal suivant : bash tool, createfile tool, insert tool, view tool, strreplace tool, submit tool
- Tous les scores rapportés pour les tâches de codage sont des moyennes sur 10 exécutions indépendantes
Benchmarks de vision
- Application de max-tokens 98,304 et de la moyenne sur 3 exécutions (avg@3)
- Le réglage avec outil Python effectue un raisonnement multi-étapes avec max-tokens-per-step 65,536 et max-steps 50
- MMMU-Pro suit le protocole officiel, conserve l’ordre des entrées et place les images en premier

Présentation de Kimi K2.6 - Les progrès du codage open source

Codage sur de longues séquences

Conception centrée sur le codage

Agent Swarm amélioré

Agents proactifs

Bring Your Own Agents

Tableau de benchmarks

Notes

Détails généraux des tests

Benchmarks de raisonnement

Renforcement par outils et tâches agentiques

Tâches de codage

Benchmarks de vision

À lire aussi

Aucun commentaire pour le moment.