1 points par GN⁺ 4 시간 전 | 1 commentaires | Partager sur WhatsApp
  • L’écriture avec les LLM s’est répandue dans les blogs, les réseaux sociaux, les journaux, les livres, ainsi que dans la correction orthographique et la rédaction de brouillons, et son style répétitif finit par donner aux textes un aspect de bouillie uniformisée
  • Le lecteur s’attend à ce que, puisqu’il consacre du temps à lire, l’auteur ait lui aussi fourni un effort intellectuel, et l’usage des LLM ébranle cette attente indépendamment de la qualité du résultat
  • L’Oxide RFD 576 estime que la conviction que l’auteur a lui-même compris et rédigé son texte justifie l’effort de compréhension du lecteur, et que la prose produite par des LLM porte atteinte à ce contrat social
  • Depuis ChatGPT, les textes générés influencent les mots et les styles humains même sans être directement utilisés, comme le montre l’augmentation de termes tels que “delve”, “realm” ou “meticulous”
  • Le critère d’un bon texte se déplace de la correction grammaticale et lexicale vers l’expression originale et les traces humaines, au point que les coquilles peuvent elles aussi devenir un signal distinctif face aux textes d’IA

L’écriture avec les LLM et le contrat social

  • Les LLM se sont diffusés dans de nombreux secteurs, mais c’est surtout dans l’écriture qu’ils sont largement utilisés : blogs, réseaux sociaux, journaux, livres, correction orthographique, grammaire, vérification des faits et rédaction intégrale de brouillons
  • Ils excellent à produire de gros volumes de contenu, mais dès qu’on commence à reconnaître les tournures et schémas stylistiques typiques des LLM, on retrouve partout la même impression répétitive
  • Des formulations comme “it’s not x, it’s why”, le tiret cadratin, ou “you’re not imagining it, the problem is real” reviennent sans cesse, uniformisant progressivement les textes en un même slop
  • Le lecteur ressent une forte aversion au moment où il comprend qu’il a investi du temps dans sa lecture alors que l’auteur n’y a pas consacré un effort équivalent
  • Cette réaction négative ne disparaît pas, même lorsque le contenu est exact, bien documenté et que le texte lui-même est correct

Le problème soulevé par l’Oxide RFD 576

  • La section 2.4, “LLMs as writers”, de Oxide RFD 576 considère que la prose générée par les LLM porte atteinte au contrat social de l’écriture
  • En l’absence de LLM, on part du principe que c’est l’auteur qui a fourni l’effort intellectuel le plus important entre lui et le lecteur
  • Le lecteur n’a une raison de faire l’effort de comprendre des phrases et des idées difficiles que s’il peut croire que l’auteur les a lui-même comprises et formulées
  • Quand un texte est écrit avec un LLM, l’effort fourni par l’auteur pour produire le contenu diminue, indépendamment de la qualité du texte ou de l’exactitude des informations
  • Le cœur du problème n’est pas seulement la qualité du résultat, mais le fait même de recourir à un LLM sans écrire soi-même, ce qui constitue une rupture du contrat social

Une influence du texte généré difficile à éviter

  • Même sans utiliser directement de LLM, le déluge de textes générés influence déjà la parole et l’écriture humaines
  • Des expressions comme “you’re absolutely right” servent à se moquer des LLM, mais l’outil modifie aussi subtilement les habitudes linguistiques humaines
  • Une étude du Max-Planck Institute for Human Development analyse que les mots privilégiés par ChatGPT sont devenus plus fréquents même dans la langue parlée humaine
  • Parmi les mots en hausse figurent delve, realm, meticulous, adept, boast, swift, comprehend
  • Les productions de l’IA générative se sont déjà diffusées dans l’environnement linguistique, qu’on les utilise directement ou non

La métaphore de l’acier à faible bruit de fond

  • Le low-background steel désigne l’acier produit avant les premières explosions de bombes atomiques, un matériau qui fut un temps davantage recherché pour certains usages
  • Les nombreux essais nucléaires des années 1940 et 1950 ont accru la quantité de substances radioactives dans l’atmosphère, et l’acier produit ensuite a été considéré comme insuffisamment « propre » pour certaines applications comme les détecteurs de particules
  • Cela dit, aujourd’hui, le bruit de fond radiologique d’origine humaine a diminué à l’échelle mondiale, si bien que l’acier produit récemment semble utilisable pour la plupart des usages
  • Dans cette métaphore, les textes écrits après le 30 novembre 2022 sont considérés comme influencés, au moins dans une certaine mesure, par les LLM du fait de la diffusion de ChatGPT
  • Sauf à ne lire que des contenus anciens, il est difficile d’échapper complètement à l’environnement linguistique de l’après-LLM

Les critères de l’écriture après les LLM

  • Plus les contenus générés occupent de place sur Internet, plus la demande d’idées et d’expressions originales augmentera, aussi bien pour les individus que pour les entreprises de modèles
  • La capacité à produire un contenu original sans LLM pourrait donc prendre davantage de valeur
  • Mais dans un environnement saturé de textes de thought leadership façon LinkedIn et d’images de chats générées par IA, il devient plus difficile de repérer ce type d’écrit
  • Pendant longtemps, les humains ont considéré qu’une bonne écriture reposait sur une grammaire solide, un vocabulaire riche, des formulations et métaphores appropriées, ainsi qu’une construction robuste
  • Les LLM répondent globalement à ces critères traditionnels, mais reproduisent sans cesse les mêmes schémas, leurs formulations paraissent datées, leurs métaphores sont parfois maladroites, et le tiret cadratin laisse une mauvaise impression

L’évolution des critères du bon texte

  • Aujourd’hui, un étudiant peut choisir entre travailler dur pour obtenir une note moyenne, ou ne rien faire et rendre un devoir écrit par ChatGPT susceptible d’obtenir une excellente note
  • On peut estimer que si l’on montrait aujourd’hui un texte écrit par Claude à une personne d’il y a dix ans, elle n’aurait sans doute pas grand-chose à redire
  • À la longue, l’écriture des LLM révèle sa répétitivité, mais elle correspond tout de même assez bien aux critères traditionnels d’une écriture “correcte”
  • La valeur la plus importante se déplace désormais vers l’expression originale
  • Même avec une grammaire imparfaite, un texte peut avoir de la valeur s’il est différent ; même avec un vocabulaire limité, il paraît plus humain s’il évite les mots répétitifs typiques des LLM
  • Les coquilles ne sont plus seulement des défauts : elles peuvent être perçues comme des traces humaines qui distinguent un texte d’une prose d’IA fade et générique

La promesse d’écrire sans LLM

  • Le contrat social n’existe que si, en contrepartie du temps que le lecteur consacre à lire, l’auteur consacre lui aussi du temps à écrire
  • Un texte rédigé en passant une grande partie de la journée dessus, avec un vieux film en fond, contient un effort à la hauteur du temps investi par son lecteur
  • Écrire est une activité plaisante, pratiquée toute une vie, même si l’assiduité a varié selon les périodes
  • Il y a la volonté de faire de l’écriture une routine plus quotidienne à l’avenir, car cela apparaît comme une activité porteuse de sens et qui mérite d’être poursuivie

1 commentaires

 
GN⁺ 4 시간 전
Avis sur Lobste.rs
  • Cette phrase du RFD d’Oxide ressemble à une reformulation moins mordante et moins facile à citer, mais bien plus explicite, du mème ai;dr courant
    Dire que « en l’absence de LLM, on part du principe que c’est l’auteur qui a fourni le plus gros effort intellectuel entre le lecteur et l’auteur » revient au fond à dire : « si tu n’as pas fait l’effort d’écrire, moi non plus je ne ferai pas l’effort de lire »

  • Je ne ressens aucune expertise chez les auteurs qui insèrent des LLM dans leur travail
    Toute cette odeur de LLM donne surtout l’impression de crier bien fort : « je suis un incapable qui n’a pas l’intention de faire son travail ». En logiciel, on peut défendre l’idée que des résultats cohérents, prévisibles, ennuyeux et à faible variance sont souhaitables, mais pour l’écriture, c’est généralement l’inverse selon moi

    • Je me demande quelle part relève de la détresse de ne pas vouloir se laisser distancer dans un monde où tout le monde produit du contenu à la chaîne, et quelle part relève de la tentation de se décharger de tout travail et de toute responsabilité
    • Je ne suis pas du tout d’accord avec l’idée que « des résultats cohérents, prévisibles, ennuyeux et à faible variance peuvent être bons en logiciel mais que l’écriture, c’est l’inverse »
      Au contraire, je pense qu’il nous faut davantage de textes cohérents, prévisibles et ennuyeux. La plupart des conseils d’écriture privilégient le style à la clarté et à la vérité. Je ne cherche pas à défendre l’écriture par IA, je n’utilise pas non plus d’IA pour écrire directement, et je déteste aussi cette odeur, mais j’aimerais que davantage d’auteurs humains aient le courage d’être ennuyeux
    • Et si le lecteur le plus probable était en fait les LLM eux-mêmes ?
  • C’est pareil pour les pull requests. Avant, l’essentiel de l’effort allait à réfléchir sérieusement au problème et à écrire le code
    La revue pouvait aussi demander beaucoup de travail, mais il y avait au moins un équilibre, et quand déséquilibre il y avait, c’était parce que la revue servait aussi à l’onboarding ou à la formation. Si on se soucie de la qualité d’un projet, l’équation a complètement changé aujourd’hui. Des gens qui n’ont aucun intérêt réel pour le projet peuvent désormais déverser des PR à une vitesse de plusieurs ordres de grandeur supérieure à ce qu’on peut relire
    C’est vraiment la galère. Pour la revue de code, il y a malgré tout l’avantage de pouvoir bloquer les PR des nouveaux contributeurs avec un système du type vouch. Mais pour quelque chose comme un billet de blog, on se demande sans cesse si l’auteur est quelqu’un qui comprend vraiment son sujet et s’en soucie, ou si l’on vient encore de se cogner à un autre mur de slop. Pour l’instant, le slop se repère facilement, mais cela risque de changer dès que les producteurs demanderont aux modèles d’éviter les schémas typiques. Le seul slop que j’accueille favorablement, c’est celui qui envahit les commentaires sur LinkedIn

    • En réalité, cela n’a eu absolument aucun effet sur la qualité moyenne des publications LinkedIn
      C’était déjà de l’auto-promo poubelle avant, et ça l’est resté après. Simplement, il y a maintenant en plus des images IA au style cartoon
    • Pour les billets de blog, j’ai commencé à mettre les URL dans la Wayback Machine pour vérifier à quel moment ils ont été créés
      En gros, tout ce qui a été créé avant 2022 m’inspire nettement moins de soupçons. Les gens qui s’y connaissent utilisent before:2022 dans la recherche d’images
  • Le contrat social le plus important quand on lit un billet de blog, c’est l’idée que l’auteur va améliorer son écriture à travers cette expérience
    L’usage des LLM casse aussi cela. On peut débattre de l’usage des LLM pour écrire du code, mais les utiliser pour écrire des billets de blog, en particulier, c’est tout simplement répugnant

  • Cela a très bien mis en mots des pensées et des sentiments que je traîne depuis un moment. En particulier ce désir d’imperfection de la main humaine
    Je veux cela chez les autres, et je veux aussi que mon humanité transparaisse dans ce que je produis. Je suis très mauvais en orthographe, au point que mes amis et collègues s’en moquent souvent, et il m’est déjà arrivé de me demander sérieusement si je ne devrais pas laisser volontairement quelques erreurs dans mes billets de blog pour montrer que je suis encore humain. Bon, c’est peut-être un peu excessif

  • Je me reconnais complètement dans l’idée de « j’aime écrire, je l’ai fait toute ma vie, et maintenant j’essaie d’en faire quelque chose de plus régulier. Cela me paraît utile et porteur de sens », mais j’ai deux craintes
    D’abord, quand je vois quelqu’un qui a commencé un blog par hasard vers 2024/2025, ou qui s’est mis à publier davantage à cette période, j’ai tendance à classer cela par défaut comme de l’IA et à le ranger dans cette catégorie. Mon propre blog donnerait aussi cette impression vu de l’extérieur. Ensuite, l’idée que mes textes puissent aider les entreprises de l’IA à fabriquer de meilleurs modèles ne me plaît pas. Cela dit, de façon hypocrite, moi aussi j’utilise l’IA tous les jours
    Pour le deuxième problème, je vois mal comment tuer tous ces Goliath. Pour le premier, j’aimerais qu’il existe une sorte de preuve de travail humain permettant d’attester qu’une quantité suffisante d’attention humaine a réellement été investie derrière un contenu. J’ai pensé à streamer l’écriture sur Twitch, mais c’est trop irréaliste, et exposer le processus d’écriture — y compris les idées idiotes, les moments où l’on réalise que « ce que je suis en train d’écrire est complètement faux », et les reformulations infinies pour trouver le ton juste — serait en réalité assez embarrassant. Je ne vois pas d’autre moyen de preuve

  • Je suis en train d’écrire un billet de blog technique assez complexe en ce moment, et toutes les phrases du corps du texte sont écrites entièrement à la main
    Il m’a fallu plusieurs tentatives pour arriver à formuler ce que je voulais dire, mais maintenant la structure me paraît plutôt bonne. La partie où j’ai utilisé Claude comme outil, c’était pour transformer des explications textuelles en diagrammes Mermaid. Je lui suis reconnaissant pour l’effort sur Mermaid, mais je trouve qu’une partie de la syntaxe devient beaucoup trop ésotérique, surtout dès qu’on sort des structures standard comme les organigrammes ou les diagrammes de séquence. Je travaille chez Oxide et j’ai aussi donné mon avis, dans une certaine mesure, sur le RFD 576