Devstral - le LLM agentique de Mistral

(mistral.ai)

4 points par GN⁺ 2025-05-22 | 1 commentaires | Partager sur WhatsApp

Devstral est un LLM agentique pour les tâches d’ingénierie logicielle, développé en collaboration entre Mistral AI et All Hands AI
Sur le benchmark SWE-Bench Verified, il atteint 46,8 % de performance, soit plus de 6 % de mieux que les modèles open source existants
Il affiche des performances supérieures à celles de modèles concurrents (Deepseek-V3, Qwen3, etc.) ainsi qu’à certains modèles closed source (comme GPT-4.1-mini)
Il peut être utilisé en local même sur une RTX 4090 ou un Mac avec 32 Go de RAM, ce qui le rend adapté aux environnements d’entreprise et aux copilotes
Il est distribué gratuitement sous licence Apache 2.0 et peut être utilisé et personnalisé immédiatement sur diverses plateformes

Présentation de Devstral

Devstral est un LLM agentique (Agentic Large Language Model) destiné aux tâches d’ingénierie logicielle comme l’écriture de code, les modifications et la résolution d’issues
Il a été développé dans le cadre d’un partenariat entre Mistral AI et All Hands AI
Devstral a été entraîné à résoudre de vraies issues GitHub dans des conditions réelles et fonctionne sur la base de scaffolds d’agents de code comme OpenHands ou SWE-Agent

Performances de Devstral sur le benchmark SWE-Bench Verified

Devstral obtient un score de 46,8 % sur SWE-Bench Verified, dépassant de plus de 6 points le meilleur modèle open source
Sur la base du même scaffold de test (OpenHands), il montre des résultats supérieurs à ceux de modèles plus grands comme Deepseek-V3-0324 (671B) et Qwen3 232B-A22B
Même dans des environnements de test personnalisés, Devstral surpasse plusieurs alternatives closed source
- Par exemple, il affiche une précision supérieure de plus de 20 % à celle du récent GPT-4.1-mini

Polyvalence et applicabilité

Devstral peut fonctionner de manière fluide même sur une RTX 4090 ou un Mac avec 32 Go de RAM, ce qui le rend avantageux pour le déploiement local et l’usage on-device
Sur des plateformes comme OpenHands, il peut s’intégrer à une base de code locale pour résoudre rapidement des issues
Il convient aussi aux dépôts de code nécessitant la protection de la confidentialité dans des environnements d’entreprise
Il peut être utilisé dans divers environnements de développement, comme les copilotes ou les plugins d’IDE agentiques

Déploiement et utilisation

Devstral est publié sous licence Apache 2.0, ce qui permet à tous de l’utiliser, le personnaliser et le redistribuer gratuitement
Des guides d’utilisation et tutoriels sont fournis, et le modèle peut être téléchargé depuis diverses plateformes comme HuggingFace, Ollama, Kaggle, Unsloth et LM Studio
Il est également proposé via l’API officielle de Mistral sous le nom devstral-small-2505, avec la même politique tarifaire que Mistral Small 3.1
Pour les besoins de personnalisation avancée en entreprise, comme le fine-tuning spécialisé sur des bases de code privées, il est possible de prendre contact

Feuille de route

Devstral est actuellement au stade de research preview
Des modèles agentiques de coding de plus grande taille sont également prévus à l’avenir
Pour toute question sur l’usage de Devstral ou sur les différents modèles et solutions de Mistral, il est possible de contacter l’équipe via les canaux officiels

1 commentaires

GN⁺ 2025-05-22

Commentaires sur Hacker News

En ce moment, je vérifie d’abord la taille des fichiers avec Ollama, et j’ai vu que ce modèle fait environ 14 Go, voir https://ollama.com/library/devstral/tags. Sur un Mac M2, il faut généralement compter environ 10 % de mémoire en plus que la taille du fichier du modèle, donc ça m’aide à estimer la RAM restante pour voir quelles applis je peux faire tourner en parallèle. En dessous de 20 Go, l’impact sur l’usage des autres programmes reste généralement limité. Ce modèle a l’air assez prometteur
- J’aurais besoin de recommandations pour un logiciel de développement agentique qui fonctionne bien avec des modèles locaux. J’ai essayé Cursor, mais j’ai été moins satisfait que prévu ; au final, alterner entre l’éditeur et ChatGPT m’a paru plus efficace. J’ai aussi testé Localforge et aider, mais avec des modèles locaux c’est un peu lent
- Même avis. Je l’ai lancé en local moi-même et j’en ai eu une bonne impression. Il gère bien aussi du code Ruby ou rspec un peu délicat. Je compte aussi le tester avec aider dans des contextes plus larges
Son score sur SWE-Bench est très élevé pour un modèle open source de cette taille. 46,8 % est au-dessus de o3-mini (avec Agentless-lite) et de Claude 3.6 (avec AutoCodeRover), et seulement légèrement en dessous de Claude 3.6 avec le scaffold propriétaire d’Anthropic. Si on ajoute le fait qu’il peut tourner quasiment gratuitement, c’est un modèle assez impressionnant
- Soit c’est « impressionnant », soit ça laisse penser que le benchmark ne remplit pas vraiment son rôle
- Il faudrait vérifier s’il s’agit peut-être de Claude 3.7
Petit retour utile pour ceux qui n’ont pas de carte graphique avec 24 Go de RAM. J’utilise ce modèle via Ollama sur une machine avec 8 Go de RAM pour des tâches simples. Pour les grandes fenêtres de contexte et les tâches sensibles au temps, je recommande plutôt l’API payante.
- Partage de chiffres détaillés comme le temps total, le chargement et le débit d’évaluation des tokens :
  - Exemple 1 : 35 secondes, 6,27 tokens/s
  - Exemple 2 : 4 min 44 s, 5,79 tokens/s
- À l’usage, ça me semble environ 20 % plus lent qu’un appel API. Je suppose que c’est dû à l’absence de GPU recommandé.
- Les performances en benchmark semblent étonnamment bien calibrées par rapport à la taille, mais je pense que c’est surtout parce qu’ils ont beaucoup itéré pour optimiser sur ces benchmarks pendant le développement. À mes yeux, la plupart des LLM vendus au secteur IT suivent plus ou moins la même stratégie. Au final, vérifier qu’un modèle est utilisable sans y passer trop de temps en tests reste un compromis acceptable
J’ai du mal à faire confiance aux benchmarks présentés. Je ne l’ai pas encore essayé, mais dans mes résultats, les benchmarks des modèles Mistral ont tendance à se classer assez bas, à un niveau similaire à Llama. Je ne m’attends pas à retrouver ce niveau de performance en pratique
- J’ai récemment travaillé avec le modèle All Hands, qui semble lui aussi basé sur Mistral. Mon impression : ça ne joue pas dans la même catégorie que Claude 3.7 Sonnet, mais c’est plutôt stable. Pour un usage de type « assistant d’IA de pair programming », c’est tout à fait exploitable, et même les gros travaux de structure passent si on découpe bien les étapes
- Je suis moi aussi assez sceptique. Ce genre de chose, il faut le tester soi-même. Par exemple, pour moi Qwen3 a plutôt été une régression, et GLM4 est actuellement la référence. Le modèle cogito 70b est aussi vraiment bon, mais on en parle peu. Je pense que ça varie beaucoup selon le projet, le langage et l’usage. Cela dit, je compte quand même essayer celui-ci
Le fait qu’il soit sous licence Apache 2.0 est un vrai point positif. Les conditions d’usage sont claires, contrairement aux licences complexes avec des clauses de type « open weights ». C’est un avantage
- Je pense que c’est justement un atout stratégique de Mistral. Pour des usages moralement acceptables, je recommanderais Gemma 3. Sinon, une licence Apache laisse la porte ouverte au choix d’un LLM sous licence plus permissive
J’aimerais que l’UE finance le coût de création de cet agent / modèle. Si les résultats sont vraiment à la hauteur des attentes, cela permettrait à Mistral de continuer à se concentrer sur son travail, et du point de vue européen ce serait une utilisation intelligente du budget
- Si mes impôts servent à développer des modèles sous licence apache/mit, je suis pour. Au minimum, cela permet de maintenir des alternatives et de limiter les monopoles des grands groupes. C’est important pour éviter qu’une poignée d’acteurs géants ne domine tout le secteur
- En pratique, l’UE a déjà financé la mise en place de supercalculateurs accessibles aux startups IA, et Mistral participe à ce programme comme partenaire
J’ai découvert ce modèle par hasard en testant le support des outils de LLamaIndex. J’expérimente différents modèles dans ma propre solution de code agentique, et j’étais justement sur le point d’appliquer une approche ReAct quand ce modèle est apparu.
- Mais dans mon système d’agents, avec ce modèle, j’obtiens uniquement « aucun outil ». J’ai essayé plusieurs prompts d’agent avec des instructions explicites du style « faire l’action bar avec l’outil foo », mais sans succès. Le ToolSpec est un objet Pydantic standard avec annotations, et jusque-là les autres modèles trouvaient bien tout seuls comment utiliser les outils
- On peut forcer le schéma des outils en contraignant le format de sortie. Avec un peu d’aide, ça peut fonctionner avec pratiquement n’importe quel modèle
Ravi de voir Mistral revenir avec un vrai modèle open source. Je ressens toujours le besoin d’avoir une entreprise IA compétitive en Europe.
- Les nouveaux modèles de Mistral sont impressionnants dernièrement. Je paie Le Chat Pro et je l’utilise activement. À côté de ça, Mistral Small est lui aussi vraiment solide. Je développe aussi une startup avec une intégration Mistral
Je cherche des recommandations sur les derniers modèles locaux, ou des ressources associées, qui tournent sur des machines modestes comme un MacBook Air. J’aimerais savoir à l’avance, sans devoir tout tester, quels modèles sont « réellement utilisables » selon les caractéristiques de chaque machine. J’essaie aussi de déterminer s’il faut vraiment conserver 2 à 3 modèles par tâche dans Ollama. Apple Intelligence n’est toujours pas la réponse
- Pour un modèle généraliste optimisé pour le local, je recommanderais Gemma 3 ou le dernier Mistral Small. Sous Windows, la VRAM est le principal goulot d’étranglement, mais sur les Mac M-series, la mémoire sur puce permet un usage rapide. La taille de modèle que l’on peut faire tourner dépend de la RAM réelle disponible, une fois retranchée la part utilisée par macOS et les autres applications.
  - Pour estimer la mémoire par modèle, on peut se baser sur la taille des modèles quantifiés fournie par HuggingFace et d’autres sources. Q4_K_M est une bonne valeur par défaut.
  - Pour Devstral, compter 14,3 Go, auxquels il faut ajouter entre 1 et 8 Go pour stocker le contexte.
  - Exemples :
    - MacBook Air 32 Go → Devstral (14,3 Go) + 4 Go, avec environ 14 Go restant pour le système et les autres applis
    - MacBook Air 16 Go → Gemma 3 12B (7,3 Go) + 2 Go, avec environ 7 Go de marge
    - MacBook 8 Go → Gemma 3 4B (2,5 Go) + 1 Go, usage réel globalement déconseillé
- Le plus efficace reste d’essayer soi-même. Tant qu’on dispose de l’espace nécessaire pour chaque modèle, llama.cpp (https://github.com/ggml-org/llama.cpp) s’installe et se compile facilement, avec un bon support des MacBook Air M-series. Personnellement, j’utilise surtout LMStudio (https://lmstudio.ai/). L’interface est simple, un peu dans l’esprit de ChatGPT ou Claude, et on peut rechercher/télécharger les modèles directement depuis l’application. Pour débuter, LMStudio suffit largement, et je l’utilise souvent sur un MacBook Air M2
Je me demande comment les performances réelles de ce modèle se comparent à celles de LLM hébergés comme Claude 3.7
- En réalité, les usages sont complètement différents, donc la comparaison directe n’a pas beaucoup de sens

Devstral - le LLM agentique de Mistral

Présentation de Devstral

Performances de Devstral sur le benchmark SWE-Bench Verified

Polyvalence et applicabilité

Déploiement et utilisation

Feuille de route

À lire aussi

1 commentaires

Commentaires sur Hacker News