9 points par GN⁺ 2025-12-10 | 1 commentaires | Partager sur WhatsApp
  • Devstral 2 est un modèle open source de codage de nouvelle génération de 123B paramètres, qui obtient 72,2 % de performance sur SWE-bench Verified et atteint une efficacité élevée par rapport aux modèles concurrents
  • Devstral Small 2 compte 24B paramètres, peut être exécuté sur du matériel grand public et est distribué sous licence Apache 2.0
  • Mistral Vibe CLI est un agent terminal open source basé sur Devstral, permettant d'explorer, de modifier et d'exécuter du code en langage naturel
  • Devstral 2 offre une efficacité en coût jusqu'à 7 fois supérieure à Claude Sonnet et conserve de bonnes performances tout en étant 5 fois plus petit que DeepSeek V3.2
  • Il est considéré comme un outil clé pour l'automatisation massive du code et l'accélération de l'intelligence distribuée dans l'écosystème open source

Aperçu de Devstral 2

  • Devstral 2 est un modèle Transformer dense de 123B paramètres qui prend en charge une fenêtre de contexte de 256K
    • Il atteint 72,2 % de performance sur SWE-bench Verified et se place parmi les meilleurs modèles à poids ouverts
    • Il est publié sous licence MIT modifiée, proposant une nouvelle référence pour les agents de code open source
  • Devstral Small 2 obtient 68,0 % de performance SWE-bench Verified et maintient un niveau comparable à celui de modèles jusqu'à 5 fois plus grands
    • Exécutable localement sur du matériel grand public, il offre une inférence rapide et une boucle de retour d'information personnalisée
    • La saisie d'images est prise en charge, permettant de faire fonctionner un agent multimodal
  • Devstral 2 (123B) et Small 2 (24B) sont respectivement 5 et 28 fois plus petits que DeepSeek V3.2, et 8 et 41 fois plus petits que Kimi K2
    • Une architecture de modèle compactée facilite le déploiement sur du matériel limité

Prise en charge des workflows de production

  • Devstral 2 prend en charge l'exploration d'une base de code et la gestion de modifications multi-fichiers, tout en préservant le contexte au niveau de l'architecture
    • Suivi des dépendances des frameworks, détection d'échecs et relance automatique inclus
    • Il permet de réaliser la correction de bugs et la modernisation de systèmes hérités
  • Prise en charge du fine-tuning adaptée à des langages spécifiques et aux grandes bases de code d'entreprise
  • Dans la comparaison d'évaluation humaine avec DeepSeek V3.2 et Claude Sonnet 4.5, Devstral 2 obtient un avantage sur DeepSeek avec un taux de victoire de 42,8 %
    • Un écart de performance subsiste toutefois avec Claude Sonnet 4.5
  • Cline qualifie Devstral 2 de modèle de codage open source de premier plan et indique que son taux de réussite d'appels d'outils est similaire à celui des modèles fermés
  • Kilo Code a annoncé avoir enregistré 17B de tokens durant les 24 premières heures après le lancement

Mistral Vibe CLI

  • Assistant CLI de codage open source basé sur Devstral permettant l'exploration, la modification et l'exécution de code via des commandes en langage naturel
    • Publié sous licence Apache 2.0
    • Utilisable depuis le terminal ou un IDE (avec intégration Agent Communication Protocol)
  • Principales fonctionnalités
    • Contexte sensible au projet : scan automatique de la structure de fichiers et de l'état Git
    • Références intelligentes : autocomplétion de @, exécution de commandes !, commandes slash pour modifier les paramètres
    • Orchestration multi-fichiers : raisonnement de niveau architecture via la compréhension globale de la base de code
    • Support d'un historique continu, de l'autocomplétion et de la personnalisation du thème
  • Possibilité de lancer des scripts, basculer l'approbation automatique, configurer un modèle local et contrôler les autorisations, etc., pour personnaliser le workflow

Déploiement et utilisation

  • Devstral 2 est actuellement proposé via une API gratuite, avec des tarifs prévus par la suite de 0,40 $ par entrée / 2,00 $ par sortie
    • Devstral Small 2 coûte 0,10 $ par entrée / 0,30 $ par sortie
  • Intégrable à des outils open agent comme Kilo Code et Cline
  • Utilisable directement via l'extension Zed IDE pour lancer Vibe CLI
  • Devstral 2 nécessite des GPU de niveau datacenter (minimum 4×H100) et est disponible en essai sur build.nvidia.com
    • Devstral Small 2 peut être exécuté sur un GPU unique ou même en environnement CPU
    • Support NVIDIA NIM prévu
  • Pour des performances optimales, il est recommandé de définir la température à 0.2 et de suivre les meilleures pratiques de Vibe CLI

Communauté et recrutement

  • Mistral encourage le partage de projets et la participation aux retours en utilisant Devstral 2, Small 2 et Vibe CLI
    • La discussion est possible via les canaux X/Twitter, Discord et GitHub
  • Mistral recrute pour des postes de recherche open source et développement d'interfaces ; les candidatures sont ouvertes sur la page carrière officielle de Mistral

1 commentaires

 
GN⁺ 2025-12-10
Commentaires Hacker News
  • J’ai installé le modèle Mistral avec la commande llm install llm-mistral, puis, après llm mistral refresh, j’ai généré une image SVG avec llm -m mistral/devstral-2512 "Generate an SVG of a pelican riding a bicycle"
    Le résultat peut être vu à ce lien. Pour un modèle de 123B, le résultat est plutôt bon.
    L’identifiant du modèle n’est peut-être pas exact, donc j’ai directement demandé à Mistral

    • Il est désormais possible qu’un prompt comme « générer un SVG d’un pélican à vélo » fasse partie des données d’entraînement. C’est utile comme benchmark, mais pour éviter le benchmaxxing, je pense qu’il faut aussi des tests aléatoires
    • Je me demande aussi si ce modèle pourrait reproduire le site web Space Jam 1996
    • Le SVG est bien du code, mais pas du code exécutable, donc cela peut être un peu trompeur pour évaluer un modèle de code. Cela dit, le résultat est impressionnant
    • Je me demande d’où vient l’outil llm
    • On dirait qu’il a laissé tomber le vélo pour passer à une superbe moto
  • Mistral a environ un an de retard sur le SOTA, mais devient plus compétitif en vitesse et en prix. Ce n’est pas encore suffisant pour mon usage, mais il rattrape vite son retard. Je le vois en concurrence avec Haiku 4.5, Gemini 3 Pro Fast et le nouveau modèle léger d’OpenAI (GPT 5.1 Codex Max Extra High Fast ?)

    • On dit que le nouveau modèle d’OpenAI s’appellerait Garlic ; ils ne vont quand même pas vraiment le lancer sous ce nom ?
    • Comparé à Deepseek-v3.2, il est nettement inférieur en capacités générales et coûte 5 fois plus cher
  • J’ai exécuté Devstral 2 en CLI pour relire un projet personnel de 500 KB
    Il a compris exactement ce que faisait le programme, corrigé 2 bugs, amélioré le code et ajouté 2 petites fonctionnalités.
    Il a introduit un nouveau bug, mais l’a corrigé immédiatement dès que je l’ai signalé.
    Les modifications de code sont restées minimales, sans réécritures inutiles.
    Il est encore trop tôt pour conclure, mais cela ressemble à un modèle assez compétent

    • Je serais curieux de savoir sur quel matériel cela tournait
  • J’ai l’intention d’essayer Devstral moi-même. L’ancien modèle était déjà correct pour le codage agentique en local.
    En revanche, le nom « Vibe CLI » donne une impression trop légère.
    Le « vibe-coding » est amusant pour tester les limites d’un modèle, mais peu adapté à du travail professionnel qui exige un contrôle qualité.
    En ce moment, tout le monde semble obsédé par le vibe-coding, mais je me demande où sont les outils LLM professionnels conçus pour assister l’intelligence humaine

    • Le nouvel agent CLI mistral-vibe est écrit en Python et prend en charge le protocole ACP de Zed
    • Beaucoup d’apps sont créées comme des services temporaires pour des objectifs business à court terme, donc le codage agentique est largement suffisant pour ce genre de « services en carton ». En revanche, ce n’est pas adapté à une infrastructure de données industrielle
    • Brokk que nous développons est précisément ce type d’outil professionnel. Voir ce billet de blog pour une présentation
    • Certains réagissent aussi par : « Donc Claude Code n’est pas suffisant ? »
    • Certains estiment désormais que la qualité des spécifications et des tests compte plus que la qualité du code elle-même
  • Je réfléchis à une configuration matérielle à 5 000 $ pour faire tourner Devstral Small 2.
    Je voudrais connaître les vitesses de traitement de tokens sur Mac 32 Go, RTX 4090, DGX Spark, RTX 5090, GPU externe (Oculink), etc.

    • 5 000 $ est un budget un peu bâtard, donc je recommanderais plutôt de louer des GPU dans le cloud.
      Si l’objectif est la performance pure, RTX 5090 ; pour la compatibilité CUDA, DGX Spark ; pour les gros modèles, Strix Halo 128GB ou M3 Ultra conviennent mieux.
      Pour de vrais benchmarks, mieux vaut regarder sur r/LocalLLaMA
    • Une configuration double 3090 (24GB×2) offre actuellement le meilleur rapport qualité-prix.
      Au-delà, il y a aussi des serveurs 8×V100 (32GB×8, 512GB RAM, NVLink). En revanche, ils nécessitent une alimentation 240 V
    • J’utilise une combinaison 7900XTX + 128GB DDR4. Et je déteste NVIDIA
  • Le nom « Vibe CLI » fait trop penser à un outil léger.
    J’utilise souvent Claude Code, mais je n’appellerais pas ça du vibe-coding

    • Ce genre de nom relève peut-être surtout du mème marketing. Le but semble être d’attirer l’attention avec des articles du style : « Une entreprise française a sorti un outil pour coder au vibe ! »
    • À mon avis, écrire du code avec un LLM est, par nature, plus adapté à des travaux légers
    • Si vous confiez le code à Claude, c’est déjà du vibe-coding
    • C’est peut-être simplement un nom volontairement humoristique
  • Content de voir une CLI qui n’utilise pas React.
    Vibe-cli est construit avec le framework Textual

    • Cela dit, comme c’est basé sur Python, je crains que la vitesse d’affichage soit lente. J’avais déjà rencontré un problème similaire avec Aider
  • Si Mistral est 10 fois moins cher par token que Claude, c’est assez séduisant.
    Tant que les performances ne sont pas 10 fois pires, c’est un bon point

    • GPT 5-mini est aussi bien moins cher que Haiku, mais en pratique c’était presque une perte de temps.
      En entreprise, nous utilisons Haiku, Sonnet et Opus, mais pour mon budget personnel j’utilise minimax m2
    • Si c’est 10 fois moins cher mais 2 fois plus lent, cela peut au final coûter plus cher en gaspillage de tokens
    • Même les modèles SOTA actuels ne sont pas parfaits en code, donc je ne vois pas l’intérêt de se focaliser à tout prix sur l’optimisation des coûts
  • J’ai créé un paquet AUR pour Mistral-vibe
    Lien du paquet

  • Pour les utilisateurs de Nix, on peut l’exécuter directement avec la commande ci-dessous

    nix run github:numtide/llm-agents.nix#mistral-vibe
    

    Le dépôt est mis à jour chaque jour

    • Je trouve que c’est un projet vraiment génial. Merci de l’avoir partagé