Kimi K2.7-Code : un modèle de code open source avec une meilleure efficacité en tokens

(huggingface.co)

3 points par GN⁺ 2026-06-13 | 1 commentaires | Partager sur WhatsApp

Modèle de code de type agent conçu pour gérer des tâches de code de longue durée et des workflows complexes d’ingénierie logicielle, basé sur Kimi K2.6 avec une meilleure capacité à accomplir des tâches de bout en bout et une utilisation plus efficace des tokens
Par rapport à Kimi K2.6, l’usage des tokens de raisonnement a été réduit d’environ 30 %, tandis que Kimi Code Bench v2 est passé de 50.9 à 62.0 et MCP Mark Verified de 72.8 à 81.1
L’architecture du modèle est basée sur un MoE, avec 1T de paramètres au total, 32B de paramètres actifs, une longueur de contexte de 256K et un encodeur de vision MoonViT
Le déploiement cible l’API officielle ainsi que vLLM, SGLang et KTransformers, et comme l’architecture est la même que Kimi-K2.5/Kimi-K2.6, les méthodes de déploiement existantes peuvent être réutilisées
À l’usage, le mode Thinking et preserve_thinking sont imposés, l’entrée image est prise en charge et l’entrée vidéo n’est pour l’instant prise en charge à titre expérimental que via l’API officielle

Présentation du modèle

Kimi K2.7-Code est un modèle agent centré sur le code, basé sur Kimi K2.6, amélioré pour des tâches de code réalistes de longue durée
Il renforce la capacité d’accomplissement de tâches de bout en bout dans l’ensemble de workflows complexes d’ingénierie logicielle
Par rapport à Kimi K2.6, il améliore l’efficacité en tokens en réduisant d’environ 30 % l’usage des tokens de raisonnement
Il est proposé avec des tags comme image-text input, Transformers, Safetensors, conversational et custom_code

Résumé du modèle

L’architecture est un Mixture-of-Experts (MoE) avec 1T de paramètres au total et 32B de paramètres actifs
Le modèle comporte 61 couches au total, dont 1 couche Dense
La dimension cachée de l’attention est de 7168 et la dimension cachée du MoE est de 2048 par expert
Il compte 64 têtes d’attention, 384 experts, 8 experts sélectionnés par token et 1 expert partagé
La taille du vocabulaire est de 160K et la longueur de contexte est de 256K
Le mécanisme d’attention est MLA et la fonction d’activation est SwiGLU
L’encodeur de vision est MoonViT, avec 400M de paramètres pour l’encodeur de vision

Résultats d’évaluation

Benchmarks de code
- Sur Kimi Code Bench v2, Kimi K2.6 obtient 50.9, Kimi K2.7 Code 62.0, GPT-5.5 69.0 et Claude Opus 4.8 67.4
- Sur Program Bench, Kimi K2.6 obtient 48.3, Kimi K2.7 Code 53.6, GPT-5.5 69.1 et Claude Opus 4.8 63.8
- Sur MLS Bench Lite, Kimi K2.6 obtient 26.7, Kimi K2.7 Code 35.1, GPT-5.5 35.5 et Claude Opus 4.8 42.8
Benchmarks d’agent
- Sur Kimi Claw 24/7 Bench, Kimi K2.6 obtient 42.9, Kimi K2.7 Code 46.9, GPT-5.5 52.8 et Claude Opus 4.8 50.4
- Sur MCP Atlas, Kimi K2.6 obtient 69.4, Kimi K2.7 Code 76.0, GPT-5.5 79.4 et Claude Opus 4.8 81.3
- Sur MCP Mark Verified, Kimi K2.6 obtient 72.8, Kimi K2.7 Code 81.1, GPT-5.5 92.9 et Claude Opus 4.8 76.4
Conditions d’évaluation
- Sauf mention contraire, Kimi K2.7 Code et K2.6 ont été testés dans Kimi Code CLI avec le mode Thinking activé, une température de 1.0, un top-p de 0.95 et une longueur de contexte de 262,144 tokens
- GPT-5.5 a été exécuté en mode xhigh de Codex, et Opus 4.8 en mode xhigh de Claude Code
- À l’exception de ces différences, tous les benchmarks ont été évalués dans les mêmes conditions
Composition des benchmarks
- Kimi Code Bench V2 est un benchmark interne qui évalue les agents de code sur des tâches réalistes, couvrant plus de 10 langages de programmation majeurs et l’ensemble de la stack technique de production
- Kimi Code Bench V2 inclut des cas d’usage internes d’ingénierie, des incidents en production et des tâches issues de véritables projets open source
- Program Bench demande de reproduire le comportement d’un programme à partir des seuls binaires compilés et de la documentation, en s’appuyant sur 200 tâches et plus de 248 000 tests de comportement générés par fuzzing
- MLS-Bench évalue si des systèmes d’IA peuvent créer des méthodes de ML généralisables et extensibles, et MLS-Bench-Lite en est le sous-ensemble officiel de 30 tâches
- Kimi Claw 24/7 Bench est un benchmark interne qui évalue les performances d’agents de longue durée dans une collaboration continue multi-jours, couvrant 17 scénarios spécialisés et 610 points d’évaluation
- MCP-Atlas évalue les performances des LLM sur des tâches réalistes d’utilisation d’outils via un MCP extensible
- MCPMark-Verified est la version validée par des humains de MCPMark, et évalue l’usage d’outils MCP dans 5 environnements serveur réels, dont Notion, GitHub, Filesystem, Postgres et Playwright

Quantification native INT4

Kimi-K2.7-Code adopte la même méthode de quantification native int4 que Kimi-K2-Thinking

Déploiement

L’API Kimi-K2.7-Code est accessible sur https://platform.moonshot.ai
L’API officielle fournit une API compatible OpenAI/Anthropic
Les moteurs d’inférence recommandés sont vLLM, SGLang et KTransformers
Kimi-K2.7-Code partage la même architecture que Kimi-K2.5/Kimi-K2.6, ce qui permet de réutiliser directement les méthodes de déploiement
La version requise de transformers est >=4.57.1, <5.0.0
Des exemples de déploiement sont disponibles dans le Model Deployment Guide

Utilisation

Conditions de base pour l’appel API
- Les exemples d’utilisation se basent sur la méthode d’appel de l’API officielle
- Kimi-K2.7-Code impose Thinking et preserve_thinking=True
- Sur les API tierces déployées avec vLLM ou SGLang, le chat avec contenu vidéo est pour l’instant une fonctionnalité expérimentale uniquement prise en charge par l’API officielle
- Les valeurs recommandées en mode Thinking sont temperature=1.0 et top_p=0.95
- Le mode Instant n’est pas pris en charge
Chat Completion
- L’exemple de Chat Completion appelle l’API K2.7-Code en mode Thinking
- Le code d’exemple appelle client.chat.completions.create avec le client openai et définit max_tokens=4096
- La réponse affiche response.choices[0].message.reasoning et response.choices[0].message.content
Entrée de contenu visuel
- K2.7-Code prend en charge les entrées image et vidéo
- L’exemple d’entrée image encode l’image en base64 puis la transmet via image_url, avec une réponse générée en max_tokens=8192
- L’exemple d’entrée vidéo encode un fichier mp4 en base64 puis le transmet via video_url
- Le chat vidéo est actuellement une fonctionnalité expérimentale uniquement prise en charge par l’API officielle
Preserve Thinking
- Kimi K2.7 Code impose le mode preserve_thinking, en conservant l’intégralité du contenu de raisonnement dans les interactions multi-tours
- preserve_thinking améliore les performances dans les scénarios d’agents de code
- Cette fonctionnalité est activée par défaut et ne peut pas être désactivée
- Certaines API peuvent ne pas prendre en charge reasoning_content, auquel cas il est possible d’essayer reasoning
Interleaved Thinking et appels d’outils multi-étapes
- K2.7-Code partage avec K2 Thinking la conception Interleaved Thinking et les appels d’outils en plusieurs étapes
- Pour des exemples d’utilisation, voir la documentation K2 Thinking
Framework d’agent de code
- Kimi K2.7-Code fonctionne au mieux avec Kimi Code CLI comme framework d’agent
- Kimi Code CLI est proposé sur https://www.kimi.com/code

Exemples d’exécution locale

Transformers
- Avec Transformers, on peut créer un pipeline de haut niveau via pipeline("image-text-to-text", model="moonshotai/Kimi-K2.7-Code", trust_remote_code=True)
- Le chargement direct du modèle est possible via AutoModel.from_pretrained("moonshotai/Kimi-K2.7-Code", trust_remote_code=True, dtype="auto")
vLLM
- vLLM s’installe avec pip install vllm et le serveur se lance avec vllm serve "moonshotai/Kimi-K2.7-Code"
- L’exemple d’appel utilise l’endpoint d’API compatible OpenAI http://localhost:8000/v1/chat/completions
- Avec Docker Model Runner, l’exécution se fait via docker model run hf.co/moonshotai/Kimi-K2.7-Code
SGLang
- SGLang s’installe avec pip install sglang et le serveur se lance avec python3 -m sglang.launch_server --model-path "moonshotai/Kimi-K2.7-Code"
- L’exemple d’appel utilise l’endpoint d’API compatible OpenAI http://localhost:30000/v1/chat/completions
- L’exemple d’exécution avec Docker configure le GPU, la mémoire partagée, le cache Hugging Face et la variable d’environnement HF_TOKEN

Licence

Le dépôt de code et les poids du modèle sont distribués sous Modified MIT License

1 commentaires

GN⁺ 2026-06-13

Avis sur Hacker News

En lisant la clause de licence modifiée, ça m’a fait rire. C’est en gros une licence MIT avec une clause publicitaire héritée des anciennes licences BSD, et peu importe le nombre d’utilisateurs actifs mensuels ou le chiffre d’affaires, si on l’utilise dans un produit ils demandent essentiellement qu’on leur fasse un peu de « publicité »
Honnêtement, ça me semble être une demande raisonnable
- Ça ressemble à une clause anti-Cursor. En gros, ne les forcez pas à vous afficher publiquement pour vous faire honte
- Ici, la clause de « publicité » semble simplement demander de mentionner son utilisation quelque part dans le produit. Par exemple, dans les crédits d’une section « About »
- Ça donne l’impression d’un ajout fait à la va-vite. Je m’attendais à ce que la formulation juridique soit plus soignée sur ce qui est inclus dans l’« interface utilisateur »
J’ai donné des instructions assez simples à Kimi K2.7-code pour rebaser le patch Fil-C OpenSSL de la version 3.3.1 vers 3.5.7, et ça a l’air d’avoir bien marché
Le patch faisait 177 Ko, donc ce n’était pas une petite modification, et il ne s’appliquait pas proprement au départ, donc l’agent a dû faire un travail assez substantiel
Je lui ai juste donné le patch pour 3.3.1, la commande de build, le chemin vers 3.5.7 et le lien vers la documentation des changements (https://fil-c.org/constant_time_crypto)
J’ai toutefois utilisé T800, leur propre agent de code, qui n’est pas public, et qui avait déjà été suffisamment testé et ajusté auparavant pour K2.5
L’utilisation de l’API m’a semblé coûter entre 5 et 10 $. Correction : c’est OpenSSL, pas OpenSSH
Personnellement, quand j’utilise de l’open code ou des routeurs, au-delà d’un certain niveau je ne ressens pas de très grande différence entre les modèles. À part des modèles chers et ambigus comme Gemini
Dans ce sens, les modèles chinois sont plutôt bons. En général, je leur fais écrire le code fonction par fonction ou méthode par méthode, puis je conçois et j’assemble le tout
Les modèles de type GPT sont plus minutieux et meilleurs, certes, mais je ne suis pas sûr que l’écart soit énorme. Ça dépend sûrement du workflow, mais si on les encadre de façon suffisamment stricte, je me demande s’il y a vraiment une grande différence
- J’ai plus ou moins abandonné les routeurs d’inférence « gratuits ». Comme on pouvait s’y attendre, à force d’essayer d’économiser au maximum l’inférence, la qualité du raisonnement en pâtit souvent
  Faire de mon MacBook M1 Pro un coussin chauffant pour faire tourner Qwen 3.6 35B A3B MTP a été relativement concluant
  Quand j’ai essayé d’utiliser les modèles Gemini comme s’ils étaient « locaux », j’ai rencontré un problème similaire : ils fragmentaient trop l’effort, faisaient plus d’erreurs et augmentaient le nombre de tours
  À l’inverse, quand on entend dire que Fable est obstinément « proactif », on se dit qu’avec un branding fort et une facturation efficace, on peut aller exactement dans la direction opposée
- D’après mon expérience, pour l’implémentation de fonctions individuelles, il n’y a presque aucune différence entre les modèles de pointe et les modèles récents autour de 30B
  Si on a déjà une architecture cohérente, ce qui est en fait la partie difficile, on peut obtenir quasiment la même qualité même avec un modèle assez petit
  Ça ne se fait pas en un seul coup, mais comme c’est plus rapide et moins cher, ça finit par être plus avantageux. Et en plus, c’est possible en local
- La différence de résultat n’est pas énorme, mais il faut bien les encadrer plus strictement. Par exemple, Kimi K2.5/K2.6 avait tendance à prendre des tests en échec pour des « échecs existants » et à les commenter au lieu de corriger les problèmes qu’il venait lui-même de créer
  Il faut donc faire en sorte explicitement que les tests commentés cassent le build. Personnellement, je n’ai pas eu ce problème avec les modèles d’Anthropic ou d’OpenAI
- J’aimerais qu’on arrête d’utiliser l’expression « modèles chinois ». Ça a une connotation négative
  C’est un peu comme quand on parlait autrefois de « voitures japonaises » : aujourd’hui ça n’a quasiment plus de sens, on dit simplement Toyota, Honda ou Lexus
S’il y a quelqu’un qui a essayé opencode + Kimi K2.6/2.7 en le comparant à Claude Code, ça m’intéresse vraiment. J’aimerais savoir ce qui est mieux ou moins bien, et comment les coûts se comparent
En ce moment, je paie 100 $ pour le forfait 5x Max, mais Fable consomme la limite d’usage assez vite, et je ne peux pas non plus dire qu’il y a une différence jour et nuit par rapport à Opus
Comme je m’en sers surtout pour des side projects, même une facture de 100 $ me paraît déjà assez lourde, et je n’ai pas envie de payer plus
- J’utilisais surtout Claude Code avec Opus, puis je suis passé à opencode + Kimi 2.6 pour des projets perso et je l’ai utilisé pendant quelques mois
  Claude Code est meilleur, c’est vrai. Mais le fait qu’opencode + Kimi 2.6 soit malgré tout tout à fait utilisable est un gros point positif
  Si on sait exactement ce qu’on veut et qu’on lui demande seulement d’écrire du code simple, la plupart des modèles populaires comme DeepSeek ou Kimi font largement l’affaire et ne donnent pas une impression très différente des modèles d’Anthropic
  En revanche, Opus comprend bien mieux l’intention que DeepSeek. Avec DeepSeek, il faut écrire les prompts de manière beaucoup plus précise, et si on reste vague, il part souvent dans une direction à côté de la plaque
  Kimi est entre les deux. Il redonne en partie le confort du flux de travail avec des « prompts lâches », et on peut davantage faire confiance à son plan qu’à celui de DeepSeek
  On peut avoir un workflow proche de Claude Code, mais globalement tout est un peu moins bon. La longueur de contexte, le nombre d’erreurs, la prise de décision, les recommandations et les capacités de débogage sont tous légèrement en retrait
  Côté usage, le forfait Claude à 100 $ offre en pratique un bon rapport qualité-prix. Au prix du token, Kimi est bien moins cher, mais l’abonnement Claude semble fortement subventionné, donc pour 100 $ on obtient bien plus de tokens que ce qu’on pourrait acheter via l’API
  Au final, avec des habitudes d’usage similaires, le coût d’opencode + Kimi et celui de Claude Code peuvent devenir comparables
  DeepSeek est moins cher encore, et ses tokens en cache sont ridiculement peu coûteux, mais si on vient de Claude Code, il faut peut-être adapter sa manière de travailler selon ses habitudes
  Pour un side project, je trouve qu’une combinaison avec le forfait Opencode Go à 10 $ et 10 $ de crédits DeepSeek v4 via OpenRouter ou un service du même genre est assez pratique
- Au travail, j’utilise Claude, et pour les side projects, Kimi. Dans l’organisation, LiteLLM et Kimi 2.5 sont activés, mais ça tourne rarement bien, donc Claude et GPT restent les outils principaux
  Kimi donne plus l’impression d’un développeur en entretien, donc c’est plus amusant. Regarder son raisonnement sur le problème ressemble à la façon dont j’explique les choses en session tableau blanc. Le fait qu’il dise « wait » beaucoup trop souvent me fait rire
  Claude ressemble davantage à un employé déjà recruté, ou à une équipe d’employés. Il ne donne pas d’emblée de longues explications, pose seulement des questions quand c’est nécessaire, puis fournit un rapport ou un plan d’ensemble
  À mon avis, OpenCode est un meilleur harnais. Pour le coût, je ne peux pas faire de comparaison directe parce que je n’ai jamais exécuté exactement le même prompt des deux côtés
  Récemment, j’ai fait créer avec Kimi un wrapper libpq pour le langage de programmation ZenC(https://github.com/nobleach/zenc-postgres), cela a pris environ une heure et le coût a été d’environ 4 $
- Je suis très satisfait d’ohmypi, mais on peut aussi utiliser OpenCode ou continuer avec Claude Code
  DeepSeek-V4-Pro est tout à fait correct, et pour les tâches ou petites activités qu’on confierait à Haiku ou Sonnet, on peut utiliser DS4-Flash. Il suffit de s’inscrire en prépayé avec 10 $
  On peut prendre OpenCode Go à 5 $ par mois et utiliser Qwen-3.7-Max pour la conception, la planification, l’architecture et la résolution de problèmes difficiles. La sensation est plus proche d’Opus 3.6 ou 3.7 que de DeepSeek, et c’est ce que j’ai trouvé de plus similaire
  OpenAI Codex permet, avec le forfait à 20 $ par mois, d’utiliser GPT-5.5 via l’API pour la conception, la planification, l’architecture, la résolution de problèmes et la rédaction de commits. Pour les problèmes vraiment difficiles, on peut aussi payer 100 $ et copier-coller dans le chat GPT-5.5-Pro
  Xiaomi MiMo-2.5-Pro permet d’obtenir 72 cents de crédits gratuits avec un code de parrainage à 2 $ reçu d’un ami. Le prix est le même que DeepSeek, et le niveau se situe quelque part entre Sonnet et Opus, avec de vraies compétences. La bêta UltraSpeed vaut aussi le coup d’être demandée
  Il suffit de basculer à la volée entre ces modèles dans OpenCode ou ohmypi pour trouver celui qui vous convient le mieux. J’utilise CodexBar pour suivre l’usage presque en temps réel
  Pour les utilisateurs occasionnels ou les débutants en programmation, le forfait Cursor à 20 $ est un bon point de départ avec Composer-2.5 et Composer-2.5-Fast. Il inclut aussi un quota API, ce qui permet d’accéder à Opus-4.x ou GPT-5.5-Pro depuis OpenCode ou ohmypi, en plus de Cursor lui-même
  Si vous utilisez Grok ou Twitter, SuperGrok à 30 $ par mois inclut un bon modèle de vision, que j’ai utilisé pour des tests automatiques frontend. En ce moment, je migre toutefois vers un Qwen-3-VL local sur un Mac standard. Si vous êtes moins à l’aise techniquement, unreach facilite l’hébergement de modèles locaux sur Mac
  Si vous avez un GPU puissant comme une RTX 5090, Qwen-3.6 vaut aussi le coup d’être essayé en local. Avec ollama ou llama-swap, c’est relativement simple
  Je n’ai pas encore essayé le nouveau Kimi, mais je fais tourner une équipe avec 3 développeurs professionnels, 1 graphiste qui utilise beaucoup Midjourney et Grok Imagine, et 1 utilisateur non technique qui utilise ohmypi pour recueillir les exigences et suivre l’implémentation, tout en maintenant le coût à moins de 200 $ par employé et par mois
  Avec un peu plus d’efforts, on pourrait probablement se rapprocher de 75 $ par employé et par mois
- J’utilise Claude Code avec un proxy litellm patché, openrouter et Qwen 3.7 max/Kimi K2.6/DeepSeek v4 pro branchés dessus
  Les seules fonctions qui ne marchent pas sont webfetch et la recherche web, mais je les ai remplacées en faisant contourner l’agent via ddg MCP et des pre-hooks de récupération/recherche web
  La mémoire, le cache, etc., tout le reste fonctionne bien
  Qwen est proche d’Opus pour la planification, mais Fable est clairement supérieur
  Pour le code, une fois qu’Opus a rédigé le plan, les résultats de Kimi et DeepSeek sont presque impossibles à distinguer de ceux d’Opus
  La plus grande différence, c’est le rythme de sortie. Par exemple, Kimi réfléchit longtemps puis produit rapidement beaucoup de texte
  En ce moment, je teste Fable pour la recherche et la planification, et DeepSeek v4 flash pour le code. Les résultats semblent comparables à Opus + DeepSeek v4 pro, avec un coût global qui devrait être plus bas
- Je ne peux parler que de GLM 5.1, mais pour moi, c’est proche du niveau de Sonnet 4

Bien, et gère correctement la plupart des tâches qu’on lui confie, mais échoue sur les tâches cognitivement complexes. Se bloque souvent. Cela dit, c’est environ 6 $ par mois.

Il existe un seuil à partir duquel le modèle « le meilleur » cesse d’être important, et je pense qu’on n’en est pas loin. Fable est vraiment excellent en ce moment, mais si dans un an Kimi le rattrape, j’utiliserai probablement Kimi même si Fable6 est bien meilleur, si son prix est de 1/10
En voyant Opus 4.5 à l’époque, je me disais : « si c’est aussi bon, dans 6 à 12 mois les modèles chinois seront aussi bons et moins chers, donc j’utiliserai ceux-là », mais je me suis trompé. Même aujourd’hui, je paie encore une prime pour Opus 4.7/8 et Fable
Malgré tout, un jour ils atteindront simplement le niveau où ils feront ce qu’on leur demande, et à partir de là commencera une concurrence à la baisse sur les prix
Maintenant que les entreprises chinoises peuvent accéder aux très bons tokens de Fable, j’espère que cette concurrence va s’accélérer
- Selon qui on est et comment on utilise les modèles, certains ont peut-être déjà atteint ce point
- Je pense que le prochain front concurrentiel, c’est la vitesse. Au lieu de jongler entre plusieurs agents qui travaillent chacun de leur côté avec des changements de contexte, ce serait bien qu’un agent unique puisse traiter n’importe quel prompt en quelques secondes et maintenir le flux d’un seul travail
- Le prix par token n’est pas le seul critère. Si je dois redemander à l’IA, cela peut coûter plus cher qu’un modèle qui donne juste du premier coup
  Donc même avec un prix par token plus élevé, un meilleur modèle peut en pratique revenir moins cher
Si Opus est 5 fois plus cher que Kimi K2.6 ou d’autres modèles chinois tout en n’étant qu’un peu meilleur, je me demandais comment des entreprises comme Anthropic peuvent rester compétitives
Mon hypothèse, c’est que les entreprises américaines ne peuvent pas envoyer leurs données en Chine, ce que je comprends. Mais est-ce vraiment un « moat » ?
- Le moat actuel, c’est la performance du modèle et, par conséquence, le nombre supplémentaire de tokens et le temps consommé
  Je dis ça en tant que personne qui utilise assez souvent les modèles Kimi et les apprécie globalement
  Sur des benchmarks pas encore gamifiés comme DeepSWE, Kimi K2.6 est nettement derrière Claude Sonnet 4.6($3/$15), et légèrement derrière GPT 5.4 Mini($0.75/$4.50)
  Il est clair que les modèles Kimi sont très bons pour beaucoup de tâches de code, et qu’ils offrent la meilleure qualité parmi les modèles open weights
  Mais pour obtenir des résultats globaux comparables à Sonnet/Opus, il faut en moyenne utiliser beaucoup plus de tokens et piloter davantage le modèle
  Il faut regarder combien coûte l’ensemble du processus, pas le prix par token
- Je pense qu’il existe une perception selon laquelle ce n’est pas « juste un peu mieux ». Cet écart de qualité perçu permet une différenciation tarifaire
  Et quand on dépense beaucoup d’argent, il y a suffisamment d’acteurs rationnels qui font tourner des évaluations, donc il est possible que « un peu mieux » ne soit pas qu’une simple impression
  Cela dit, je ne peux voir moi-même qu’une partie des suites d’évaluation. Il est aussi possible que tout le monde soit irrationnel et qu’Anthropic en profite
- La plupart des gens qui ont utilisé les deux diraient probablement que les modèles Anthropic sont plus qu’un peu meilleurs que Kimi
  Kimi et d’autres modèles open source peuvent obtenir de bons scores sur des choses comme SWE-bench, mais quand on les utilise réellement, l’écart se ressent
- Le prix des tokens API n’est qu’un facteur, et l’abonnement Claude offre un bon rapport qualité-prix
  Étrangement, tout le monde affirme, à partir des prix API, que l’abonnement Claude est subventionné, mais personne ne connaît le vrai coût d’inférence de Claude, et les fournisseurs chinois peuvent eux aussi proposer une inférence bon marché. Du coup, je me demande pourquoi on pense que Claude ne le peut pas
  Il y a peut-être aussi, pour les clients entreprise, d’autres accords tarifaires API qui ne sont pas publics. Ce que nous voyons n’est peut-être que le prix affiché élevé
- Ce n’est proche de « juste un peu mieux » que dans les domaines comparables ; dans beaucoup d’autres domaines, les modèles A\ sont bien meilleurs. Par exemple, pour des types de tâches que Kimi et les autres n’ont pas distillés
  Sur ces tâches-là, l’écart est vertigineux
Après l’avoir testé correctement, cela semble être une amélioration plutôt solide. Le simple fait d’utiliser moins de tokens sur les mêmes tâches suffit déjà à en faire une bonne raison de l’utiliser à la place de K2.6 quand on a besoin d’un modèle open
Si un nouveau modèle n’est pas clairement supérieur de 20 à 30 % à DeepSeek v4, mais qu’il est plus cher par token, je pense qu’il est presque automatiquement relégué au rang de modèle peu utilisé. Peut-être utilisable pour de la planification, à la rigueur
- DeepSeek v4 Pro n’est en réalité pas un si bon modèle que ça comparé à GLM 5.1 ou Kimi K2.6. C’est surtout un codeur/moteur de raisonnement correct pour son prix
- Je me demande si DeepSeek absorbe le coût, ou si les gens peuvent réellement héberger des modèles open pour un coût comparable
Je ne suis toujours pas très à l’aise avec les modèles open weights/open source. Si quelqu’un les utilise à plein temps, j’aimerais bien avoir son retour sur la configuration et les performances. J’envisage de faire migrer mon organisation des produits Anthropic
- Pour parler de mon expérience personnelle, j’utilise forgecode et openrouter pour mes projets perso. D’abord, je considère que forgecode est un harnais bien meilleur que Claude Code
  Côté qualité du modèle, il n’y a pas une énorme différence, mais l’écart de coût est complètement délirant. En tout cas, c’est le cas pour la manière dont j’utilise les agents
  Hier par exemple, je développais un petit DSL pour interroger de la documentation technique complexe, et j’ai essayé Fable pour ajouter un petit opérateur
  Fable a cramé 13 $, a produit une solution, mais ce n’était objectivement pas meilleur que ce que DeepSeek v4 avait fait pour 1,7 $ sur la même tâche
  Cela dit, je confie aux agents des tâches fragmentées. Dans le cas du DSL, je conçois les opérateurs moi-même puis je demande à l’agent de les implémenter un par un
  Si j’étais parti d’un document complexe en lui demandant de tout concevoir, Fable aurait peut-être brillé
  Mais chaque fois que je donne aux agents un périmètre plus large, ils brûlent des millions de tokens et génèrent du code douteux que je dois ensuite prendre le temps d’assimiler
- J’ai créé https://github.com/gitsense/gsc-cli, et j’estime qu’environ 80 % du code vient de glm-4.7
  Si vous regardez par exemple un fichier comme https://github.com/gitsense/gsc-cli/blob/main/internal/cli/r..., j’y ai indiqué le modèle utilisé
  4.7 n’était pas très bon en code go, donc on a commencé à voir Gemini 3 Flash apparaître dans l’attribution
  4.7 est un modèle fourni par Cerebras, et pour moi la vitesse d’itération est bien plus importante
  Après avoir essayé MiMo v2.5.0-Pro, je suis convaincu qu’il aurait pu faire à 100 % ce que Gemini 3 Flash a fait
  Quand je bloquais, j’avais parfois besoin que Sonnet m’explique les choses, mais le sale petit secret qu’Anthropic et OpenAI ne diront pas, c’est que si vous savez coder, les modèles sont honnêtement déjà assez bons
  Vu mon expérience avec MiMo et les avis d’autres personnes sur GLM 5.1, j’ai l’impression qu’on est désormais entrés dans une compétition matérielle
  Pour quelqu’un qui sait programmer et veut amplifier ce qu’il sait avec l’IA, les modèles chinois sont des remplaçants à 100 % de Claude
  À partir de maintenant, je vais surtout regarder quel fournisseur offre l’inférence la plus rapide
  MiMo-v2.5.0-Pro-Ultraspeed produit rapidement de bons résultats, et brûle aussi rapidement de l’argent
- Ces modèles sont open weights, mais à l’heure actuelle la plupart des modèles flagship ne sont accessibles en pratique que via des fournisseurs tiers de modèles
  La principale exception, ce sont les modèles autour de 30B paramètres, qu’on peut encore faire tourner sur des GPU grand public
  Cela dit, même les GPU grand public sont devenus de plus en plus chers ces dernières années, au point d’être difficiles à justifier
- J’essaie sans arrêt de basculer vers les modèles chinois, mais je finis toujours par demander à Claude de corriger leur sortie. Autant sur les fonctionnalités que sur le style, et au final je reviens toujours
  J’essaie aussi GPT en continu, et c’est assez solide. C’est très rapide et excellent pour le débogage. Mais le code est souvent trop malin, au point d’en devenir pénible
  C’est peut-être corrigeable par prompt. Ça a un peu aidé avec les modèles chinois. Il suffit de leur dire de faire ça proprement, un peu comme le « +good -bad » de l’époque des IA d’image
  Pour l’instant, il faut toujours qu’un humain puisse comprendre le code, et le seul qui satisfait cette exigence de façon constante, c’est Claude
  J’espère quand même qu’un des labos chinois finira par trouver une sauce secrète particulière
  Pour les petites corrections, DeepSeek Flash est excellent. On a pratiquement l’impression d’avoir une IA illimitée branchée en direct, c’est génial
- Depuis la sortie de dwarf star, j’utilise DeepSeek v4 flash comme modèle principal pour presque tout
  Je le fais tourner sur un MacBook Pro M4 Max avec 128 Go de mémoire
  En général je l’exécute comme serveur, puis sur la machine de dev j’utilise l’agent de code Pi via Tailscale
  C’est un bond énorme par rapport à l’époque où j’utilisais les modèles Qwen, mais il n’a pas de capacités de vision, donc quand j’ai besoin de vision je fais encore tourner ces modèles-là
  Avant, j’utilisais GLM 4.7 flash comme cheval de bataille pour le code, mais j’ai complètement basculé vers DeepSeek pour tout ce qui n’est pas vision
Je me demande si quelqu’un a essayé de retirer les éléments CCP des modèles chinois open weights. Ce n’est pas une pique sarcastique : je demande si quelqu’un a procédé à un audit approfondi avec des techniques comme les tests de résistance sur les weights ou l’activation de concepts
Par exemple, si le CCP avait réellement essayé d’implanter des comportements dépendants du contexte, on pourrait regarder comment le modèle réagit à des entrées susceptibles de déclencher des comportements trompeurs ou malveillants
Je ne sais pas si des soupçons comme celui selon lequel ils généreraient du code vulnérable lorsqu’ils sont utilisés dans des applications du gouvernement américain ont déjà été réellement démontrés
Dans une période de forte rivalité géopolitique, ce genre de question n’a rien d’irrationnel. C’est une question valable quel que soit le pays où l’on vit
- Ça vaut peut-être le coup de regarder TNG sur Hugging Face
  C’est un cabinet de conseil allemand, et j’ai vu une présentation où ils parlaient de tuning et de suppression des biais sur les modèles DeepSeek. C’était assez intéressant
  https://www.tngtech.com/en/about-us/news/release-of-deepseek...
  Ce n’est pas seulement le code qui peut poser problème, il peut aussi y avoir autre chose, comme du messaging latent
- Ça ressemble au genre de tâche où un outil comme heretic pourrait être utile
  https://github.com/p-e-w/heretic
- Les LLM créés par des entreprises peuvent eux aussi être soupçonnés de biais d’entreprise. Rien n’est sûr

Kimi K2.7-Code : un modèle de code open source avec une meilleure efficacité en tokens

Présentation du modèle

Résumé du modèle

Résultats d’évaluation

Benchmarks de code

Benchmarks d’agent

Conditions d’évaluation

Composition des benchmarks

Quantification native INT4

Déploiement

Utilisation

Conditions de base pour l’appel API

Chat Completion

Entrée de contenu visuel

Preserve Thinking

Interleaved Thinking et appels d’outils multi-étapes

Framework d’agent de code

Exemples d’exécution locale

Transformers

vLLM

SGLang

Licence

À lire aussi

1 commentaires

Avis sur Hacker News