- Cursor a annoncé avoir mené une expérience où des « agents de codage autonomes » fonctionnent pendant plusieurs semaines, afin d’explorer s’il est possible d’automatiser des projets qui demanderaient plusieurs mois à une équipe humaine
- Pour valider ce système, l’entreprise a fixé l’objectif de « construire un navigateur web à partir de zéro », et affirme que les agents ont écrit plus d’un million de lignes de code pendant environ une semaine
- Cependant, le dépôt GitHub publié (
fastrender) présente de nombreuses erreurs de compilation et des échecs de CI, ce qui confirme qu’il ne s’agit pas d’un navigateur exécutable
- Cursor n’a fourni ni preuve de fonctionnement, ni démo reproductible, ni commit pouvant être compilé, et n’apporte pas non plus d’élément concret attestant du succès de l’expérience
- Malgré cela, Cursor affirme que « les agents ont accompli des progrès significatifs sur un grand projet », laissant une impression de réussite sans véritable validation des performances
Aperçu de l’expérience présentée sur le blog de Cursor
- Le 14 janvier 2026, Cursor a publié un billet de blog intitulé « Scaling long-running autonomous coding »
- L’objectif était d’explorer « jusqu’où il est possible d’étendre des agents de codage autonomes sur des projets qui demanderaient plusieurs mois à une équipe humaine »
- Après avoir testé plusieurs approches, Cursor explique être parvenu à un système « capable de résoudre les problèmes de coordination et de passer à de grands projets sans agent unique »
- Pour le valider, l’entreprise a mené une expérience consistant à “construire un navigateur web à partir de zéro”, déclarant que les agents ont écrit plus d’un million de lignes de code réparties sur 1 000 fichiers pendant environ une semaine
L’ambiguïté des résultats de l’expérience
- Cursor affirme qu’un « nouvel agent a compris la base de code et accompli des progrès significatifs », et que « des centaines de workers ont poussé simultanément sur la même branche »
- Cependant, rien n’indique explicitement si le navigateur fonctionne réellement
- Le billet inclut une vidéo de capture d’écran, mais aucune démo exécutable ni description concrète des résultats
- En dehors de la formule « construire un navigateur à partir de zéro est extrêmement difficile », aucune preuve de fonctionnement n’est présentée
Résultats de la vérification de la base de code
- En compilant directement le dépôt, on obtient un échec de compilation de la bibliothèque
fastrender (34 erreurs, 94 avertissements)
- Les exécutions récentes de GitHub Actions montrent également des erreurs de workflow et de nombreux échecs de compilation
- Parmi les 100 commits les plus récents, aucun n’a été compilé avec succès
- Le code lui-même est évalué comme une production de niveau « AI slop » dépourvue d’intention ou de structure
- Il semble même que les commandes
cargo build ou cargo check n’aient pas été exécutées
- L’issue associée #98 est toujours ouverte
Problèmes de reproductibilité et de fiabilité
- Le billet de blog de Cursor ne fournit aucune explication sur la manière d’exécuter le projet, les résultats attendus ou son fonctionnement
- Aucune démo reproductible, aucune instruction de build, aucun commit vérifié (tag/release/commit) n’est fourni
- Malgré cela, la structure et la formulation du billet donnent l’impression d’un « prototype fonctionnel »
- Cursor n’affirme pas explicitement que « cela fonctionne », il ne s’agit donc pas d’une déclaration mensongère, mais le texte laisse l’impression d’une réussite
Conclusion et évaluation
- Cursor n’a pas prétendu avoir un « navigateur de niveau production », mais les formulations « progrès significatifs » et « construction d’un navigateur » donnent l’impression d’une expérience réussie
- Pourtant, il n’existe aucune preuve de fonctionnement, aucun code compilable, aucun résultat reproductible
- L’affirmation selon laquelle « des centaines d’agents ont collaboré et progressé sur un grand projet » est une affirmation sans la moindre preuve
- Elle ne satisfait même pas au critère minimal consistant à être « compilable et capable de rendre un simple fichier HTML »
- En définitive, l’expérience de Cursor illustre moins le potentiel du passage à l’échelle du codage autonome que les limites de la génération de code à grande échelle
Aucun commentaire pour le moment.