2 points par GN⁺ 2025-11-29 | 1 commentaires | Partager sur WhatsApp
  • Certaines descriptions de quelques œuvres figurant dans la liste de livres recommandés d’A16Z contenaient une formulation erronée affirmant que la plupart des livres s’arrêtent en plein milieu d’une phrase
  • Neal Stephenson a clairement indiqué que, même si ses romans peuvent susciter la controverse, ils ne se sont jamais réellement arrêtés en plein milieu d’une phrase
  • Il estime que cette erreur résulte le plus probablement de la publication d’un texte généré par l’IA sans relecture
  • En consultant l’historique d’un dépôt GitHub, il a été confirmé l’existence d’un brouillon généré par Cursor IDE puis d’un processus de correction humaine négligent
  • Ce cas est important, car il met en évidence le problème de la fiabilité des contenus générés par l’IA et du manque de vérification

Liste de lecture d’A16Z et formulation erronée

  • Plusieurs œuvres de Neal Stephenson figuraient dans la liste de lecture recommandée publiée par A16Z
    • La description de la liste indiquait la phrase selon laquelle “la plupart des livres s’arrêtent au milieu d’une phrase” (c’est-à-dire littéralement “mid-sentence”)
  • Stephenson souligne que cette affirmation est fausse et que, parce que le mot “literally” y figure, il ne s’agit pas d’une simple métaphore mais d’une erreur évidente
  • Il précise que certains lecteurs peuvent être déçus par les fins, mais que « Snow Crash », « The Diamond Age », « Seveneves », entre autres, ont tous une conclusion claire

La nature du problème et les enjeux

  • Cette phrase n’est pas une simple critique littéraire (opinion) : c’est une affirmation factuelle (factual assertion) erronée
  • Stephenson indique que cette erreur porte atteinte à la probité de l’auteur et de l’éditeur
  • Il soulève la question de “comment une affirmation aussi erronée a pu se retrouver sur le site web d’A16Z”

Hypothèse 1 : phrase générée par IA

  • Stephenson présente comme explication la plus probable le fait qu’un texte rédigé par l’IA a été publié sans contrôle humain
    • Des erreurs dans l’orthographe des noms et des singularités stylistiques renforcent cette hypothèse
  • Ce phénomène se produit déjà fréquemment dans divers domaines, notamment le droit, le milieu académique et les médias
  • Il compare ce processus à un “Inhuman Centipede”, soulignant le risque que de fausses informations soient réapprises par les LLM de la génération suivante

Hypothèse 2 : mauvaise utilisation des données humaines

  • La deuxième possibilité envisagée est une erreur humaine basée sur des sources incorrectes
    • Sous-hypothèse A : l’utilisation d’un PDF piraté (bootleg PDF) qui aurait servi une version coupée en plein milieu
    • Sous-hypèse B : une mauvaise qualité de traduction a pu faire croire que la phrase se terminait au milieu

Traçage de la cause réelle

  • En étudiant le site, Stephenson a trouvé des indices dans l’historique des commits d’un dépôt GitHub
    • Lors du commit du 21 juillet 2023, le texte original généré par Cursor IDE a été identifié
    • Le texte original contenait une métaphore de “segfault”, mais quelqu’un l’a ensuite modifiée en “s’arrête au milieu d’une phrase”, ce qui constitue une correction incorrecte
    • Puis une autre personne a ajouté une faute de frappe pendant la synthèse, et l’erreur a été finalisée
  • Il estime qu’il s’agit du résultat d’une combinaison entre la paresse dans l’utilisation de l’IA et la négligence humaine

Confiance sur Internet et contenus IA

  • Stephenson note que les internautes manifestent encore une grande confiance envers l’information en ligne
  • Il évoque des cas antérieurs où des morceaux de phrases de son roman Cryptonomicon avaient été insérés aléatoirement dans des e-mails de spam
    • Ces fragments étaient eux-mêmes interrompus au milieu d’une phrase, et il mentionne la possibilité que des LLM aient appris ce type de données
  • Il insiste sur le risque qu’une IA produise des contenus sans distinguer correctement fait et fiction

Conclusion

  • Si Stephenson remercie A16Z pour les recommandations proposées, il appelle aussi à une vérification rigoureuse des faits pour cette formulation incorrecte
  • Ce cas est évalué comme un exemple révélateur de l’absence de validation des contenus générés par IA et de la responsabilité de la relecture humaine

1 commentaires

 
GN⁺ 2025-11-29
Avis sur Hacker News
  • L’historique des commits est public, donc il est facile de voir que cette liste de lecture a été retouchée par une IA
    Voir ce lien vers le commit concerné

    • Cette version est bien plus naturelle. La phrase générée par Opus disait que « ça s’arrête soudainement comme un segfault au milieu de votre fonction préférée », puis, dans un commit ultérieur, cela a été changé en « la plupart de ses livres s’arrêtent au milieu d’une phrase »
      Le message de commit est simplement « stephenson », donc on ne sait pas clairement pourquoi cela a été modifié
      Lien vers le commit corrigé
    • Il y avait aussi une phrase disant que « Stephenson n’est pas juste un auteur de SF, c’est quelqu’un qui écrit des manuels d’exploitation du futur », ce qui sonnait comme un style généré par IA tout à fait typique. Heureusement, ils l’ont corrigée
    • Dans ce commit, il y avait un commentaire disant « THIS IS AI GENERATED, NEED TO EDIT ». Autrement dit, ils ont admis que le brouillon avait été rédigé par IA dès le départ
    • On ne voit toujours pas de pull request corrigeant cette partie
  • Mon expérience avec les LLM n’est pas aussi positive que celle d’autres personnes
    Pour prendre l’exemple de la promotion de Gemini par Google, il proposait une chronologie pour préparer le dîner de Thanksgiving, mais lorsqu’on lui posait des questions, il produisait trois versions contradictoires
    Un simple « couvrez le pain avec une serviette pour le garder au chaud » aurait suffi, mais il répétait des réponses complètement à côté de la plaque
    La génération de code ne réussit qu’1 fois sur 6, les questions de type StackOverflow réussissent 5 fois sur 6, et les questions générales sont très irrégulières
    Et quand ça échoue, c’est si grave que ça fait peur de voir le monde foncer ainsi vers un usage à grande échelle des LLM

    • C’est étonnant que Google ait branché ce générateur de réponses bancales à l’entrée de ses services principaux et que son action ait malgré tout doublé
      J’ai même demandé « le cours de l’action la veille du lancement d’AI Overview », et il s’est trompé là-dessus aussi
    • La plupart des fans de LLM semblent s’émerveiller de l’apparence du résultat sans examiner de près les erreurs réelles du contenu ou la qualité du code
    • Moi aussi, pour m’amuser, j’ai demandé à Copilot d’écrire un Makefile pour AVR-GCC, et il m’a sorti un monstre de 2 500 lignes
      C’était plus long que le code lui-même, un spaghetti abscons répétant encore et encore des déclarations de variables. Je ne l’utiliserai plus jamais
  • Je pense qu’il ne faut pas prendre A16Z au sérieux. On dirait carrément une bande d’escrocs

    • Si un recruteur se vante d’un investissement d’A16Z, je le prends plutôt comme un signal négatif
    • La formule « Software is eating the world, AI is eating the VCs » tombe parfaitement juste
    • Il y a aussi eu une réaction moqueuse du genre « ...and a conehead »
  • Le billet de blog aurait été vraiment génial s’il s’était arrêté au milieu d’une phrase

    • Le premier roman de David Foster Wallace, The Broom of the System, se termine sur « I am a man of my »
      Ses autres œuvres montrent elles aussi l’intériorité chaotique de l’être humain, mais sans véritable fin ni morale
      Après avoir lu plus de 2 000 pages, j’en suis toujours à la conclusion « je ne recommande pas »
      J’aimerais dire à Neal Stephenson : « merci de finir tes phrases »
    • En lisant, j’ai résisté à l’envie de regarder la fin à l’avance
      J’ai toujours l’impression que ses livres se terminent soit trop tôt, soit trop tard, donc malgré des prémisses intéressantes, j’ai du mal à m’y mettre
    • Il y avait aussi un commentaire qui plaisantait : « moi non plus, je n’ai pas d’idées originales »
    • Quelqu’un a aussi fait remarquer que « ce livre-là s’arrête vraiment au milieu »
    • Et une autre réaction riait en disant : « moi aussi je m’y attendais, dommage »
  • Cela m’a rappelé l’autobiographie de Werner Herzog
    Dans la préface, il dit qu’il pourrait voir sa vie s’interrompre si la balle d’un sniper l’atteignait, et annonce qu’il utilisera cela comme procédé pour terminer le livre abruptement
    Et c’est effectivement ainsi que ça se termine, mais juste après il ajoute « voilà précisément la fin que j’avais annoncée », dans un retournement très typique de Herzog

  • Quand une grande entreprise publie une liste de lecture de fin d’année, le message de RP est : « nous sommes des gens avec des émotions et des goûts »
    Mais avec ce cas, il apparaît que ce n’était qu’une simple mise en scène promotionnelle

  • En voyant une phrase se terminer par « le sens de la vie était un entier (integer) », j’ai tout de suite eu l’impression que c’était clairement une phrase écrite par une IA

  • Toute la liste est remplie de cette voix typique des LLM
    Vu la source, ce n’est même pas surprenant. En réalité, on aurait dû s’arrêter dès la première hypothèse : celle d’un texte écrit par LLM

    • Ils prétendent avoir « lu tous les livres », mais s’ils les aimaient vraiment, on se demande s’ils n’auraient pas écrit eux-mêmes au moins quelques phrases
  • Une remarque satirique présente Stephenson comme un auteur dadaïste qui termine ses phrases au milieu

    • Puis vient une citation auto-parodique du style : « dans cent ans, c’est comme ça qu’on se souviendra de moi »
  • Une autre hypothèse serait simplement une erreur de mémoire
    Quelqu’un aurait pu garder le souvenir d’un roman de Stephenson lu il y a longtemps comme ayant une fin décevante, puis le confondre avec un autre livre « qui s’arrête au milieu d’une phrase »

    • S’il s’agit d’une critique officielle de l’entreprise, on pourrait au moins penser qu’ils auraient rouvert le livre et relu quelques pages
    • Personnellement, je trouve l’hypothèse A (texte rédigé par IA) bien plus convaincante
    • Ou alors il s’agit simplement de marketing à bas coût, consistant à glisser un livre maison dans une liste Top 50 générée par IA
    • Quelqu’un a aussi proposé l’hypothèse D comme Delany : « un humain qui a cru que Stephenson avait écrit Dhalgren ». Il le disait en citant cette phrase qui se termine par « I have come to »