5 points par GN⁺ 2026-01-17 | 5 commentaires | Partager sur WhatsApp
  • Cursor a annoncé avoir mené une expérience où des « agents de codage autonomes » fonctionnent pendant plusieurs semaines, afin d’explorer s’il est possible d’automatiser des projets qui demanderaient plusieurs mois à une équipe humaine
  • Pour valider ce système, l’entreprise a fixé l’objectif de « construire un navigateur web à partir de zéro », et affirme que les agents ont écrit plus d’un million de lignes de code pendant environ une semaine
  • Cependant, le dépôt GitHub publié (fastrender) présente de nombreuses erreurs de compilation et des échecs de CI, ce qui confirme qu’il ne s’agit pas d’un navigateur exécutable
  • Cursor n’a fourni ni preuve de fonctionnement, ni démo reproductible, ni commit pouvant être compilé, et n’apporte pas non plus d’élément concret attestant du succès de l’expérience
  • Malgré cela, Cursor affirme que « les agents ont accompli des progrès significatifs sur un grand projet », laissant une impression de réussite sans véritable validation des performances

Aperçu de l’expérience présentée sur le blog de Cursor

  • Le 14 janvier 2026, Cursor a publié un billet de blog intitulé « Scaling long-running autonomous coding »
    • L’objectif était d’explorer « jusqu’où il est possible d’étendre des agents de codage autonomes sur des projets qui demanderaient plusieurs mois à une équipe humaine »
  • Après avoir testé plusieurs approches, Cursor explique être parvenu à un système « capable de résoudre les problèmes de coordination et de passer à de grands projets sans agent unique »
  • Pour le valider, l’entreprise a mené une expérience consistant à “construire un navigateur web à partir de zéro”, déclarant que les agents ont écrit plus d’un million de lignes de code réparties sur 1 000 fichiers pendant environ une semaine

L’ambiguïté des résultats de l’expérience

  • Cursor affirme qu’un « nouvel agent a compris la base de code et accompli des progrès significatifs », et que « des centaines de workers ont poussé simultanément sur la même branche »
    • Cependant, rien n’indique explicitement si le navigateur fonctionne réellement
  • Le billet inclut une vidéo de capture d’écran, mais aucune démo exécutable ni description concrète des résultats
  • En dehors de la formule « construire un navigateur à partir de zéro est extrêmement difficile », aucune preuve de fonctionnement n’est présentée

Résultats de la vérification de la base de code

  • En compilant directement le dépôt, on obtient un échec de compilation de la bibliothèque fastrender (34 erreurs, 94 avertissements)
  • Les exécutions récentes de GitHub Actions montrent également des erreurs de workflow et de nombreux échecs de compilation
    • Parmi les 100 commits les plus récents, aucun n’a été compilé avec succès
  • Le code lui-même est évalué comme une production de niveau « AI slop » dépourvue d’intention ou de structure
    • Il semble même que les commandes cargo build ou cargo check n’aient pas été exécutées
    • L’issue associée #98 est toujours ouverte

Problèmes de reproductibilité et de fiabilité

  • Le billet de blog de Cursor ne fournit aucune explication sur la manière d’exécuter le projet, les résultats attendus ou son fonctionnement
  • Aucune démo reproductible, aucune instruction de build, aucun commit vérifié (tag/release/commit) n’est fourni
  • Malgré cela, la structure et la formulation du billet donnent l’impression d’un « prototype fonctionnel »
  • Cursor n’affirme pas explicitement que « cela fonctionne », il ne s’agit donc pas d’une déclaration mensongère, mais le texte laisse l’impression d’une réussite

Conclusion et évaluation

  • Cursor n’a pas prétendu avoir un « navigateur de niveau production », mais les formulations « progrès significatifs » et « construction d’un navigateur » donnent l’impression d’une expérience réussie
  • Pourtant, il n’existe aucune preuve de fonctionnement, aucun code compilable, aucun résultat reproductible
  • L’affirmation selon laquelle « des centaines d’agents ont collaboré et progressé sur un grand projet » est une affirmation sans la moindre preuve
    • Elle ne satisfait même pas au critère minimal consistant à être « compilable et capable de rendre un simple fichier HTML »
  • En définitive, l’expérience de Cursor illustre moins le potentiel du passage à l’échelle du codage autonome que les limites de la génération de code à grande échelle

5 commentaires

 
sinbumu 2026-01-19

En fait, ça a surtout bien montré qu’on ne peut toujours pas virer les développeurs~

 
jjw9512151 2026-01-18

Résultat concluant = hé, bande de dirigeants, vous ne pouvez toujours pas nous virer

 
kimjoin2 2026-01-18

Mdr

 
laeyoung 2026-01-17
 
GN⁺ 2026-01-17
Réactions sur Hacker News
  • Le commentaire disant que l’expérience de cette semaine n’était au final guère plus qu’un wrapper non fonctionnel autour de Servo (navigateur basé sur Rust) devrait être tout en haut
    Le commentaire en question est ici

    • Je me demande si quelqu’un a déjà essayé de réécrire avec l’IA un projet open source populaire
      Avec les derniers LLM, ça pourrait même être assez efficace pour blanchir des licences ou plagier des dépendances. Ce serait un benchmark intéressant
    • J’ai vu un tweet où quelqu’un disait avoir réussi à compiler
    • Même un résultat négatif a de la valeur. Si c’est publié volontairement, c’est respectable, et si ça fuit par erreur, c’est drôle
      Santé à Cursor pour le divertissement du jour
    • En voyant la capture d’écran au début, j’ai brièvement eu l’impression que mon emploi était menacé
      Mais apprendre qu’il n’y a même pas de moteur et que tout est complètement cassé, c’est vraiment la honte pour Cursor
  • Le billet de blog officiel de Cursor était rédigé sur un ton assez prudent, mais
    sur Twitter, l’impression donnée était plutôt du genre « on a créé un navigateur avec GPT-5.2 »
    En réalité, ils ont séparé des milliers d’agents, les ont fait empiler des commits pendant des semaines, mais le résultat ne fonctionne toujours pas

    • Dire « on a résolu les conflits de merge » ne veut pas dire grand-chose. Avec les stratégies ours ou theirs, on peut toujours les résoudre
    • Dans ce cas, quelqu’un a-t-il vraiment réussi à l’exécuter ? D’où vient la capture d’écran ? Le code contient beaucoup trop d’erreurs
    • Vu le contenu du lien, on dirait bien que le navigateur fonctionnait, donc je me demande en quoi c’est « prudent »
  • J’ai voulu vérifier moi-même, donc j’ai lancé cargo check sur les 100 derniers commits
    Résultat : ils ont tous échoué. Voir le journal des résultats

    • Il y a maintenant un nouveau commentaire disant que ça compile
    • En fait, la capture d’écran pourrait aussi être truquée. Au rasoir d’Occam, c’est l’explication la plus simple
  • Ce genre de communication semble au final faire partie d’une stratégie de levée de fonds
    Ils ont déjà publié plusieurs posts flous auparavant, par exemple sur la quantité de code écrite par leur modèle interne
    Ça ne veut pas dire qu’il n’y a aucun contenu réel, mais c’est dommage de ne pas partager publiquement les résultats

    • Contrairement à d’autres fournisseurs de modèles, j’ai toujours trouvé frustrant le fait qu’ils ne publient pas de benchmarks
      Cursor a eu son moment de gloire, mais aujourd’hui ce sont les agents en terminal qui dominent
      Dans notre entreprise aussi, on est en train d’abandonner notre contrat Cursor pour passer à Claude Code
      Ce projet de navigateur est probablement une tentative pour revenir sous les projecteurs
    • Ce type d’exagération n’est au final qu’un gonflement artificiel de valorisation. Rien ne le justifie
    • En ce moment, toutes les entreprises de LLM misent davantage sur un marketing « vibe-coded » que sur la vérité
      C’était déjà pareil lors de l’annonce de GPT-5. Les progrès réels ralentissent
    • Avant, ce genre d’exagération m’agaçait, mais maintenant je l’accepte comme une réalité du monde
      Au final, mieux vaut vérifier que faire confiance
  • Cursor mène aussi une expérience similaire pour créer un clone d’Excel
    D’après le dépôt GitHub,
    seules 247 exécutions sur 160 000 workflows ont réussi, et la plupart des autres ont échoué pour dépassement de budget
    Les agents, eux, n’ont visiblement aucun souci avec ce genre de contrainte

  • Le dernier commit peut maintenant être compilé et exécuté (au moins sur Mac)
    Mais ça reste toujours un bazar de 3 millions de lignes de code
    La page montrée dans la vidéo promotionnelle de Cursor ne se rend pas. Ils ont sans doute utilisé un autre build

    • cargo check passe, mais quand on regarde git log, il y a quelque chose de suspect
      On voit des traces de corrections faites directement par un humain, pas par un agent
      Voir cette analyse du journal des commits
  • Je pense que l’article d’origine n’était qu’un titre putaclic
    La formule « des milliers d’agents IA ont créé un navigateur » est beaucoup trop sensationnaliste

    • Maintenant, quand quelqu’un dira « l’IA a créé un navigateur », on pourra lui envoyer ce cas en lien
    • Des projets qui ne fonctionnent pas réellement tournent très vite dans le cycle médiatique
      C’est dommage que l’expression « fake news » soit devenue politiquement toxique. Elle convient parfaitement à ce domaine
  • Le CEO de Cursor a affirmé avoir créé de zéro un moteur de rendu et une VM JS en Rust, mais
    quand on regarde la liste des dépendances,
    on voit qu’ils utilisent tels quels des bibliothèques basées sur Servo comme html5ever, cssparser et rquickjs
    Au final, c’est juste une couche autour de Servo, et ça ne compilait même pas

    • Je ne comprends pas pourquoi ils ont tenu à prétendre avoir implémenté eux-mêmes le CSS et le JS
      La plupart des gens s’en rendraient immédiatement compte en regardant le code, mais ils ont sans doute pensé que le grand public n’irait pas vérifier
      C’est comme ça que ce genre de fausse perception se diffuse, et plus tard, même si c’est corrigé, plus personne ne s’en soucie
    • En réalité, c’est assemblé à partir de bibliothèques existantes comme les parseurs HTML/CSS de Servo, QuickJS, resvg, egui et wgpu
      Que ça fasse 3M de lignes est assez risible
    • Il y a aussi selectors et taffy, et certaines dépendances sont même anciennes
    • Le moteur JS n’est qu’une copie d’un projet personnel placée dans un dossier vendor
      Voir ici
    • Je me demande si le code de layout vient de Servo ou s’il a été écrit par Cursor
      C’est la partie la plus difficile d’un navigateur
  • Je pense que cette approche marketing est au contraire contre-productive
    Le design et l’UX de Cursor sont excellents, mais dès qu’on fait un travail un peu profond, il y a trop de bugs
    L’ajout des modèles Claude a un peu amélioré les choses, mais ça reste inférieur à Antigravity
    En plus, la limite de l’abonnement à 20 $ est vite atteinte. Il est peu probable que les modèles deviennent 10 fois meilleurs et 10 fois moins chers

    • En utilisant les applis buggées de plusieurs entreprises d’IA, on sent bien que pour le vrai travail, les compétences humaines restent indispensables
      Quand on voit le modèle économique d’OpenAI glisser vers la publicité,
      on se dit que Google avait une vision plus réaliste de cette technologie
  • Au final, ce genre d’histoire s’adresse surtout à ceux qui vendent des pelles
    Un CEO mal informé pourrait très bien se laisser berner par ce type de news et licencier de vraies personnes