- Premier agent de code open source conçu pour Lean 4, avec pour objectif d’automatiser les preuves formelles (formal proof) afin de réduire la charge de vérification humaine
- Les poids du modèle sont publiés sous licence Apache 2.0, et l’outil est immédiatement utilisable via l’environnement Mistral Vibe et un endpoint API gratuit
- Il s’appuie sur une architecture sparse de 6B paramètres actifs pour améliorer l’efficacité et réduire les coûts, tout en prenant en charge les intégrations MCP comme lean-lsp-mcp
- Sur le benchmark FLTEval, il obtient de meilleurs scores que de grands modèles open source comme Qwen3.5, GLM5 et Kimi-K2.5, avec des performances comparables à Claude Sonnet pour un coût plus de 15 fois inférieur
- Cette nouvelle approche combine automatisation des preuves formelles et amélioration de la fiabilité du code, avec un potentiel d’usage aussi bien en mathématiques de recherche que pour le développement de logiciels critiques
Présentation de Leanstral
- Leanstral est le premier agent de code open source pour Lean 4, fonctionnant dans un environnement d’assistant de preuve (proof assistant)
- Lean 4 permet de représenter des objets mathématiques complexes (par ex. les espaces perfectoids) ainsi que des spécifications logicielles
- Contrairement aux systèmes de preuve existants, souvent centrés sur des wrappers de modèles génériques ou sur des problèmes isolés, Leanstral a été entraîné pour fonctionner efficacement sur des dépôts formels réalistes (formal repositories)
- Il adopte une architecture sparse avec 6B paramètres actifs, combinant inférence parallèle (parallel inference) et capacités de vérification de Lean
- La prise en charge des intégrations MCP le rend compatible avec des protocoles courants comme lean-lsp-mcp
Publication et accessibilité
- Les poids du modèle sont publiés sous licence Apache 2.0, et l’agent est proposé en mode agent dans Mistral Vibe
- Tout le monde peut y accéder via l’endpoint API gratuit (
labs-leanstral-2603), et les retours utilisateurs serviront à améliorer les prochains modèles
- Un rapport technique et l’outil d’évaluation FLTEval sont publiés en parallèle afin de mesurer les performances réelles en ingénierie des preuves, au-delà des évaluations existantes centrées sur les mathématiques
Évaluation des performances
- L’évaluation se fonde sur la capacité à finaliser, au niveau des Pull Requests du projet FLT, l’ensemble des preuves formelles ainsi que la définition de nouveaux concepts mathématiques
- Modèles comparés : Claude Opus 4.6, Sonnet 4.6, Haiku 4.5, Qwen3.5 397B-A17B, Kimi-K2.5 1T-A32B, GLM5 744B-A40B
Leanstral vs. modèles open source
- Leanstral-120B-A6B atteint 26,3 points (pass@2), devant GLM5 (16,6 points) et Kimi-K2.5 (20,1 points)
- Alors que Qwen3.5 obtient 25,4 points en 4 exécutions (pass@4), Leanstral fait mieux avec deux fois moins d’exécutions
- À coût équivalent, les performances montent linéairement jusqu’à 29,3 points (pass@4)
Leanstral vs. gamme Claude
- Il affiche une avance de 2,6 points sur Sonnet (26,3 points vs 23,7 points), pour un coût d’exécution de 36 $ vs 549 $, soit plus de 15 fois moins cher
- En pass@16, il atteint 31,9 points, soit 8 points de plus que Sonnet
- Le meilleur score revient à Claude Opus 4.6 avec 39,6 points, mais pour un coût de 1 650 $, soit 92 fois celui de Leanstral
- Tous les benchmarks ont été exécutés dans l’environnement Mistral Vibe sans modification
| Modèle |
Coût ($) |
Score |
| Haiku |
184 |
23.0 |
| Sonnet |
549 |
23.7 |
| Opus |
1,650 |
39.6 |
| Leanstral |
18 |
21.9 |
| Leanstral pass@2 |
36 |
26.3 |
| Leanstral pass@4 |
72 |
29.3 |
| Leanstral pass@8 |
145 |
31.0 |
| Leanstral pass@16 |
290 |
31.9 |
Études de cas
Adaptation aux changements de version de Lean
- Entrée d’une question StackExchange portant sur une erreur liée à un alias de type apparue dans Lean 4.29.0-rc6
- Leanstral a reproduit l’environnement du problème et diagnostiqué avec précision un problème d’égalité définitionnelle (definitional equality)
- Il a proposé d’utiliser
abbrev à la place de def, rétablissant ainsi le bon fonctionnement de la tactique rw
- Il a aussi expliqué clairement à l’utilisateur la cause du problème et la raison de la solution
Raisonnement sur les programmes et traduction
- Conversion d’une définition de programme en Rocq vers Lean, avec implémentation d’une notation personnalisée
- Exemple : démontrer que la commande
plus2 ajoute bien 2 à la variable X
- À partir de la seule spécification Rocq fournie, Leanstral a complété et prouvé le théorème (theorem) dans Lean
Utilisation
- Intégration Mistral Vibe : disponible immédiatement avec la commande
/leanstall
- Labs API : accès gratuit ou à faible coût
- Téléchargement du modèle : exécutable directement sous licence Apache 2.0
Portée
- Leanstral constitue la première tentative open source de combiner génération de code et automatisation des preuves formelles
- Il ouvre des perspectives d’usage en mathématiques de recherche, développement logiciel vérifiable et conception de systèmes à haute fiabilité
- Il est présenté comme une nouvelle infrastructure de vérification de code alliant efficacité économique et ouverture
1 commentaires
Avis sur Hacker News
Il est intéressant de voir que les gens commencent à reconnaître un schéma où l’on peut désormais spécifier à un agent le comportement souhaité, puis lui faire écrire du code conforme à cette spécification
Qu’on utilise le TDD, des outils de vérification ou autre, avec le temps ces suites de validation finissent par s’accumuler comme un dépôt de documentation exécutable montrant « comment cela doit fonctionner »
Cette approche est bien plus puissante qu’une simple spécification en Markdown, car elle capture dans le code non pas l’intention mais le comportement détaillé
Plus le logiciel devient complexe, plus la transmission orale du type « demande à Jim » atteint ses limites
La finesse et le contexte se perdent quand on change de niveau de résolution
Je suis d’accord avec le TDD ou le développement centré sur la vérification, mais les écrire en code n’est pas l’objectif final
Il existe déjà des millions de lignes de tests, donc le plus réaliste est de faire évoluer à partir de cette base
Je me demande quelle aide Lean apporte concrètement.
Par exemple, est-ce qu’on prouve une machine à états en Lean puis on la transpose en Dart ?
Je connais mal Lean, donc j’ai du mal à voir si c’est une approche réaliste
Comme cela a aussi été évoqué récemment dans le podcast de Jack Clark (cofondateur d’Anthropic) et Ezra Klein, il y a beaucoup de discussions sur le fait que l’alignement des modèles (alignment) est relatif et que la diversité est importante
Certains estiment que le modèle de Mistral est en retard par rapport aux autres modèles de pointe, mais expérimenter différentes techniques d’alignement et différentes entreprises reste important pour l’écosystème
Ce cas de réussite concret rappelle le Red Green TDD de Simon Willison
J’ai trouvé impressionnant le processus par lequel Leanstral a produit du code de test pour reproduire un environnement d’échec, puis a identifié un problème de définitional equality
Ce modèle a été entraîné pour une tâche spécifique, mais ses performances restent inférieures à Opus
Opus coûte six fois plus cher, mais cela semble en valoir la peine
On comprend qu’une startup européenne peu capitalisée vise ce type de niche, mais cela semble difficile d’en faire un gros relais de revenus
Ce serait plus intéressant de comparer avec des modèles comme Codex
J’aime bien le concept de code fiable
Mais le point de comparaison me paraît confus. On insiste sur le fait que c’est moins cher que Haiku, alors que Haiku est lui-même faible sur cette tâche et que Leanstral l’est encore davantage
Si l’exactitude est l’objectif, je ne vois pas pourquoi « moins cher mais médiocre » serait important
Cela dit, Opus n’est pas parfait non plus, donc avec un passage à l’échelle on pourrait peut-être obtenir de meilleurs résultats
À 2 essais, c’est meilleur que Haiku et Sonnet, et à 16 essais, cela se rapproche d’Opus tout en restant plus rentable
Ne connaissant pas Lean, je me demande si cela apporte une valeur directe
Est-ce qu’on ajoute automatiquement des preuves à du code dans un langage comme Go, ou faut-il simplement soutenir la diversité des modèles ouverts ?
Mais au final, la spécification Lean4 devient elle-même un artefact logiciel
On retombe alors sur la question de vérifier si cette spécification est correcte — au bout du compte, il faut toujours une revue humaine
J’anticipais cette tendance depuis quelques semaines, et je suis heureux de voir que cela se confirme
À l’ère des LLM, il me semble que la convivialité du code pour les humains comptera moins que sa prouvabilité et son efficacité en tokens
En combinant Lean et Rust, on pourrait peut-être arriver à un monde où « seul le code prouvé se compile »
J’ai résumé des discussions liées dans un commentaire précédent
Il garantit seulement qu’elle est logiquement valide
Comprendre pleinement ce que démontre une preuve est aussi difficile que comprendre un programme, même si cela a l’avantage d’approfondir la réflexion
Je suis content de voir que le terme « open source » ne se limite pas ici aux mots, avec une publication réelle des weights sous licence Apache-2.0
Selon les actualités officielles de Mistral
Claude Opus obtient un score de 39,6 pour un coût de 1 650 dollars,
Leanstral pass@8 obtient 31,0 pour 145 dollars, et pass@16 31,9 pour 290 dollars,
ce qui donne une très bonne efficacité coût/performance