- Certaines descriptions de quelques œuvres figurant dans la liste de livres recommandés d’A16Z contenaient une formulation erronée affirmant que la plupart des livres s’arrêtent en plein milieu d’une phrase
- Neal Stephenson a clairement indiqué que, même si ses romans peuvent susciter la controverse, ils ne se sont jamais réellement arrêtés en plein milieu d’une phrase
- Il estime que cette erreur résulte le plus probablement de la publication d’un texte généré par l’IA sans relecture
- En consultant l’historique d’un dépôt GitHub, il a été confirmé l’existence d’un brouillon généré par Cursor IDE puis d’un processus de correction humaine négligent
- Ce cas est important, car il met en évidence le problème de la fiabilité des contenus générés par l’IA et du manque de vérification
Liste de lecture d’A16Z et formulation erronée
- Plusieurs œuvres de Neal Stephenson figuraient dans la liste de lecture recommandée publiée par A16Z
- La description de la liste indiquait la phrase selon laquelle “la plupart des livres s’arrêtent au milieu d’une phrase” (c’est-à-dire littéralement “mid-sentence”)
- Stephenson souligne que cette affirmation est fausse et que, parce que le mot “literally” y figure, il ne s’agit pas d’une simple métaphore mais d’une erreur évidente
- Il précise que certains lecteurs peuvent être déçus par les fins, mais que « Snow Crash », « The Diamond Age », « Seveneves », entre autres, ont tous une conclusion claire
La nature du problème et les enjeux
- Cette phrase n’est pas une simple critique littéraire (opinion) : c’est une affirmation factuelle (factual assertion) erronée
- Stephenson indique que cette erreur porte atteinte à la probité de l’auteur et de l’éditeur
- Il soulève la question de “comment une affirmation aussi erronée a pu se retrouver sur le site web d’A16Z”
Hypothèse 1 : phrase générée par IA
- Stephenson présente comme explication la plus probable le fait qu’un texte rédigé par l’IA a été publié sans contrôle humain
- Des erreurs dans l’orthographe des noms et des singularités stylistiques renforcent cette hypothèse
- Ce phénomène se produit déjà fréquemment dans divers domaines, notamment le droit, le milieu académique et les médias
- Il compare ce processus à un “Inhuman Centipede”, soulignant le risque que de fausses informations soient réapprises par les LLM de la génération suivante
Hypothèse 2 : mauvaise utilisation des données humaines
- La deuxième possibilité envisagée est une erreur humaine basée sur des sources incorrectes
- Sous-hypothèse A : l’utilisation d’un PDF piraté (bootleg PDF) qui aurait servi une version coupée en plein milieu
- Sous-hypèse B : une mauvaise qualité de traduction a pu faire croire que la phrase se terminait au milieu
Traçage de la cause réelle
- En étudiant le site, Stephenson a trouvé des indices dans l’historique des commits d’un dépôt GitHub
- Lors du commit du 21 juillet 2023, le texte original généré par Cursor IDE a été identifié
- Le texte original contenait une métaphore de “segfault”, mais quelqu’un l’a ensuite modifiée en “s’arrête au milieu d’une phrase”, ce qui constitue une correction incorrecte
- Puis une autre personne a ajouté une faute de frappe pendant la synthèse, et l’erreur a été finalisée
- Il estime qu’il s’agit du résultat d’une combinaison entre la paresse dans l’utilisation de l’IA et la négligence humaine
Confiance sur Internet et contenus IA
- Stephenson note que les internautes manifestent encore une grande confiance envers l’information en ligne
- Il évoque des cas antérieurs où des morceaux de phrases de son roman Cryptonomicon avaient été insérés aléatoirement dans des e-mails de spam
- Ces fragments étaient eux-mêmes interrompus au milieu d’une phrase, et il mentionne la possibilité que des LLM aient appris ce type de données
- Il insiste sur le risque qu’une IA produise des contenus sans distinguer correctement fait et fiction
Conclusion
- Si Stephenson remercie A16Z pour les recommandations proposées, il appelle aussi à une vérification rigoureuse des faits pour cette formulation incorrecte
- Ce cas est évalué comme un exemple révélateur de l’absence de validation des contenus générés par IA et de la responsabilité de la relecture humaine
1 commentaires
Avis sur Hacker News
L’historique des commits est public, donc il est facile de voir que cette liste de lecture a été retouchée par une IA
Voir ce lien vers le commit concerné
Le message de commit est simplement « stephenson », donc on ne sait pas clairement pourquoi cela a été modifié
Lien vers le commit corrigé
Mon expérience avec les LLM n’est pas aussi positive que celle d’autres personnes
Pour prendre l’exemple de la promotion de Gemini par Google, il proposait une chronologie pour préparer le dîner de Thanksgiving, mais lorsqu’on lui posait des questions, il produisait trois versions contradictoires
Un simple « couvrez le pain avec une serviette pour le garder au chaud » aurait suffi, mais il répétait des réponses complètement à côté de la plaque
La génération de code ne réussit qu’1 fois sur 6, les questions de type StackOverflow réussissent 5 fois sur 6, et les questions générales sont très irrégulières
Et quand ça échoue, c’est si grave que ça fait peur de voir le monde foncer ainsi vers un usage à grande échelle des LLM
J’ai même demandé « le cours de l’action la veille du lancement d’AI Overview », et il s’est trompé là-dessus aussi
C’était plus long que le code lui-même, un spaghetti abscons répétant encore et encore des déclarations de variables. Je ne l’utiliserai plus jamais
Je pense qu’il ne faut pas prendre A16Z au sérieux. On dirait carrément une bande d’escrocs
Le billet de blog aurait été vraiment génial s’il s’était arrêté au milieu d’une phrase
Ses autres œuvres montrent elles aussi l’intériorité chaotique de l’être humain, mais sans véritable fin ni morale
Après avoir lu plus de 2 000 pages, j’en suis toujours à la conclusion « je ne recommande pas »
J’aimerais dire à Neal Stephenson : « merci de finir tes phrases »
J’ai toujours l’impression que ses livres se terminent soit trop tôt, soit trop tard, donc malgré des prémisses intéressantes, j’ai du mal à m’y mettre
Cela m’a rappelé l’autobiographie de Werner Herzog
Dans la préface, il dit qu’il pourrait voir sa vie s’interrompre si la balle d’un sniper l’atteignait, et annonce qu’il utilisera cela comme procédé pour terminer le livre abruptement
Et c’est effectivement ainsi que ça se termine, mais juste après il ajoute « voilà précisément la fin que j’avais annoncée », dans un retournement très typique de Herzog
Quand une grande entreprise publie une liste de lecture de fin d’année, le message de RP est : « nous sommes des gens avec des émotions et des goûts »
Mais avec ce cas, il apparaît que ce n’était qu’une simple mise en scène promotionnelle
En voyant une phrase se terminer par « le sens de la vie était un entier (integer) », j’ai tout de suite eu l’impression que c’était clairement une phrase écrite par une IA
Toute la liste est remplie de cette voix typique des LLM
Vu la source, ce n’est même pas surprenant. En réalité, on aurait dû s’arrêter dès la première hypothèse : celle d’un texte écrit par LLM
Une remarque satirique présente Stephenson comme un auteur dadaïste qui termine ses phrases au milieu
Une autre hypothèse serait simplement une erreur de mémoire
Quelqu’un aurait pu garder le souvenir d’un roman de Stephenson lu il y a longtemps comme ayant une fin décevante, puis le confondre avec un autre livre « qui s’arrête au milieu d’une phrase »