Comment les LLM déforment notre langage écrit
(sites.google.com)- Les LLM améliorent l’efficacité de l’assistance à l’écriture, mais lorsqu’ils révisent un texte humain, ils modifient la conclusion, la position et le type d’argumentation, en produisant des glissements de sens différents de ceux d’une révision humaine
- Dans une étude utilisateur, les personnes qui utilisaient beaucoup les LLM se déclaraient satisfaites du résultat, tout en indiquant que leur voix et leur créativité avaient diminué de manière statistiquement significative, révélant un paradoxe des préférences
- En faisant réviser 86 essais rédigés par des humains d’ArgRewrite-v2 par trois LLM (gpt-5-mini, gemini-2.5-flash, claude-haiku), même avec des consignes de retouches minimales ou de simple correction grammaticale, le vocabulaire et le sens changent fortement
- Les textes rédigés ou révisés par des LLM évoluent vers un style plus formel et impersonnel, avec davantage de noms, d’adjectifs et de langage émotionnel, logique et statistique, et moins de pronoms ainsi que d’arguments fondés sur l’expérience personnelle
- L’analyse de 18 000 reviews d’évaluation par les pairs pour ICLR 2026 montre que 21 % ont été jugées générées par IA, qu’elles attribuent des notes 10 % plus élevées que les reviews humaines, et qu’elles mettent davantage l’accent sur la reproductibilité et la scalabilité
Aperçu de l’étude
- Les LLM sont utilisés par plus d’un milliard de personnes dans le monde, et leur usage le plus courant est l’assistance à l’écriture
- Les LLM peuvent offrir des gains d’efficacité importants, mais la question demeure de savoir s’ils aident réellement les utilisateurs à écrire ce qu’ils veulent dire
- Beaucoup d’utilisateurs reconnaissent le « ressenti » du style LLM, mais perçoivent mal à quel point les LLM peuvent déformer le sens d’un texte
- L’analyse porte sur trois types de matériaux
- une étude utilisateur humaine
- un jeu de données d’essais argumentatifs écrits par des humains
- des reviews d’une grande conférence de machine learning
- Les matériaux de recherche sont disponibles via le Paper et le Code
Principales découvertes
- Les LLM changent la conclusion d’un texte, ainsi que sa position et son type d’argumentation
- Les utilisateurs disent être satisfaits du résultat tout en signalant une baisse statistiquement significative de leur voix et de leur créativité, ce qui révèle un paradoxe des préférences
- Même lorsqu’on leur demande uniquement une correction grammaticale, les LLM produisent des glissements de sens plus importants que les éditeurs humains
- L’effet apparaît aussi dans les reviews de l’International Conference of Learning Representations (ICLR) 2026
- 21 % des reviews d’évaluation par les pairs ont été jugées générées par IA
- ces reviews se concentrent sur des critères scientifiques significativement différents de ceux des reviews humaines pour expliquer l’acceptation ou le rejet d’un article
- À mesure que les LLM s’intègrent dans la société, ces glissements de sens subtils peuvent transformer la politique, la culture, la science, mais aussi la communication entre amis et au sein des familles
- L’étude porte sur l’écriture argumentative, mais ses résultats peuvent se généraliser à d’autres formes d’écriture et de communication
Les révisions par LLM déplacent les textes dans une direction différente de celle des révisions humaines
- Quand un LLM modifie un texte humain, il produit des changements homogénéisés très différents de ceux observés lorsqu’un humain révise le même essai
- L’analyse contrefactuelle compare le résultat d’une révision par LLM avec ce qu’aurait donné une révision humaine du même texte
- Dans le cas des révisions humaines
- le premier brouillon est représenté par des points gris clair
- le deuxième brouillon, après retour d’expert, est représenté par des points gris foncé
- les changements sont visualisés en projetant l’espace d’embedding sémantique MiniLM-L6 via une PCA
- Dans le cas des révisions par LLM
- l’essai humain original reçoit un retour d’expert et plusieurs prompts
- même avec la seule consigne de retouches minimales, tous les essais changent fortement
- la direction du changement est cohérente et s’éloigne de la manière d’écrire humaine
- Les exemples du jeu de données ArgRewrite-v2 montrent comment l’écriture assistée par LLM modifie la conclusion des essais et efface la voix humaine
Méthodologie et jeux de données
-
Étude utilisateur humaine
- une étude utilisateur a été menée pour comprendre l’impact de l’usage des LLM sur le processus d’écriture
- 55 personnes pouvaient utiliser un LLM, tandis que 45 personnes n’y avaient pas accès
- comme beaucoup de participants ont volontairement évité d’utiliser le LLM pendant la session, les résultats ont été conditionnés au choix réel d’usage
- les participants ont été répartis en deux groupes
- LLM-Influenced : personnes n’ayant pas utilisé de LLM ou ne l’ayant utilisé que pour chercher des informations
- LLM : personnes ayant largement utilisé un LLM
- cette répartition a été définie a priori avant l’évaluation et l’analyse
- elle s’appuie sur les journaux de conversation, les essais finaux et les scores d’usage auto-déclarés
-
ArgRewrite-v2
- 86 essais rédigés par des humains et collectés en 2021 ont été utilisés
- ces textes ont été écrits avant la diffusion large des LLM
- trois LLM en production ont été sollicités pour réviser les essais
- gpt-5-mini
- gemini-2.5-flash
- claude-haiku
- cinq types de révision ont été appliqués
- révision générale
- révision minimale
- correction grammaticale
- complétion
- expansion
- les brouillons générés par LLM et les versions révisées par des humains ont été comparés selon plusieurs dimensions
- sens
- usage du vocabulaire
- distribution des catégories grammaticales
- tonalité émotionnelle
- caractéristiques stylistiques
-
Analyse des reviews ICLR 2026
- 18 000 reviews d’évaluation par les pairs d’ICLR 2026 ont été analysées
- les auteurs ont sélectionné des articles disposant d’une review entièrement humaine et d’une review entièrement générée par LLM
- un classifieur LLM-as-a-Judge a été utilisé pour identifier les forces et faiblesses citées par chaque review
- les notes attribuées par les humains et les LLM ont été comparées
Le paradoxe entre satisfaction utilisateur et perte de voix
- Les utilisateurs qui ont beaucoup utilisé les LLM ont indiqué que leurs essais ne reflétaient pas leur propre voix
- En même temps, ils se déclaraient satisfaits du résultat, ce qui fait apparaître un paradoxe des préférences
- Les utilisateurs expriment leur satisfaction tout en signalant aussi une baisse significative de la créativité et de la voix
- Le RLHF optimise les préférences, mais cela ne suffit pas à préserver la créativité et le sens
Un déplacement dans une direction commune dans l’espace sémantique
- Les essais humains du groupe de contrôle sont largement dispersés dans l’espace d’embedding
- Cette distribution reflète la diversité des points de vue individuels, des styles d’écriture et des modes d’argumentation
- Les essais produits par LLM se regroupent densément dans des zones non occupées par les essais humains
- Les révisions par LLM provoquent de grands changements de sens, avec une direction de transformation fortement commune
- Les textes révisés par LLM se déplacent vers des régions de l’espace qu’aucun essai humain antérieur n’occupait
- Cela constitue un indice que les LLM déplacent le sens d’une manière différente des éditeurs humains
Changement de conclusion et de position
- Les utilisateurs de LLM écrivent des essais plus neutres à la question « L’argent mène-t-il au bonheur ? »
- Ces essais ont tendance à éviter une position claire
- Cela apparaît comme un changement fondamental de la position même de l’argumentation
Évolution du vocabulaire et de la grammaire
- Les révisions par LLM modifient les mots employés bien plus fortement que les révisions humaines
- L’empreinte lexicale propre à chaque auteur est recouverte par le vocabulaire préféré des LLM
- Les LLM adoptent un style plus formel
- Des changements apparaissent aussi dans la distribution des catégories grammaticales
- l’usage des noms et des adjectifs augmente
- l’usage des pronoms diminue
- La baisse des pronoms est interprétée comme un signal de recul du point de vue à la première personne et des arguments fondés sur l’expérience, au profit d’un langage impersonnel
Hausse du langage émotionnel, analytique, logique et statistique
- L’écriture assistée par LLM augmente le langage émotionnel
- En comparant révisions humaines et révisions par LLM, on observe une hausse importante des émotions positives comme négatives
- Cette hausse apparaît même dans les cas où seules des retouches minimales et un retour d’expert étaient demandés
- Dans l’analyse LIWC, les versions ArgRewrite-v2 révisées par LLM montrent une augmentation du langage associé à des schémas de pensée plus formels, logiques et hiérarchiques
- Dans l’étude utilisateur, les humains utilisent davantage d’arguments liés à l’expérience personnelle
- Les essais rédigés par LLM recourent davantage à des arguments statistiques et logiques
- Les essais influencés par LLM citent aussi des avis d’experts, ce qui est rare dans les essais entièrement humains
Distorsion des critères d’évaluation dans les institutions scientifiques
- Quand les LLM sont utilisés dans le processus de review scientifique, ils attribuent des notes 10 % plus élevées que les humains
- Les reviews humaines et celles des LLM n’emploient pas les mêmes critères pour juger les forces et les faiblesses
- Les reviews humaines traitent plus souvent des points suivants
- elles ont 32 % plus de chances de considérer la clarté comme une force
- elles ont 58 % plus de chances de considérer la clarté comme une faiblesse
- elles ont 32 % plus de chances d’aborder la pertinence de la recherche
- Les reviews par LLM traitent plus souvent des points suivants
- elles ont 136 % plus de chances d’aborder la reproductibilité
- elles ont 84 % plus de chances d’aborder la scalabilité
- L’écart entre critères d’évaluation humains et critères des LLM peut influencer le type de travail scientifique jugé valable et encouragé
Conclusion
- Les résultats mettent en évidence une tendance problématique par laquelle l’IA déforme subtilement le langage de l’écriture et les institutions culturelles
- Les contenus générés par IA ont déjà pénétré de nombreux domaines
- discours parlementaires
- paroles de chansons
- scénarios de films
- langue parlée
- messages envoyés à des collègues et à des proches
- Les personnes qui dépendent fortement de l’IA reconnaissent que celle-ci réduit leur voix et leur créativité, tout en restant tout aussi satisfaites du résultat
- La facilité d’usage et la possibilité d’accélérer une carrière personnelle inciteront probablement les gens à continuer de produire des textes générés par IA
- Comme le montrent les données d’ICLR, l’incitation à soumettre dans des contextes professionnels des textes générés par IA comme s’il s’agissait de ses propres écrits devrait elle aussi persister
1 commentaires
Avis sur Lobste.rs
C’est vraiment dérangeant au point d’être disturbing. L’exemple où le LLM modifie un argumentaire sur les voitures autonomes est particulièrement choquant
Que les LLM adoptent une posture neutre n’a rien de surprenant. Je comprends que l’objectif central des principaux produits LLM est essentiellement d’énoncer des vérités « reconnues », d’aider l’utilisateur, et sinon de rester dans une position intermédiaire assez floue
Je n’arrive absolument pas à comprendre que des gens se tournent vers des LLM pour écrire ou éditer des textes de valeur
« Dérangeant » est vraiment le mot juste
Je ne vois pas pourquoi entraîner les LLM dans cette direction serait une mauvaise chose
La page ne se charge pas correctement de façon constante dans mon environnement. Il y a une prépublication
Le graphique de fréquence est sidérant et, honnêtement, correspond presque exactement à ce à quoi je m’attendais
Il faut le prendre comme un cadeau. Les éléments à gauche sont désormais des mots forts, et ceux à droite deviennent progressivement des mots vides de sens
J’ai souvent constaté cela en essayant d’utiliser Claude comme correcteur-réviseur. Il a fallu retravailler le prompt plusieurs fois pour le forcer à se concentrer uniquement sur l’orthographe, la grammaire et la ponctuation
La tendance à modifier le sens semble probablement liée à la manière dont fonctionnent les embeddings
L’agentivité et la responsabilité des utilisateurs sont étrangement absentes de beaucoup de discussions autour de l’IA et des LLM
Si l’on part du principe que l’utilisateur est un adulte, utiliser un LLM est un choix actif. Il peut décider d’utiliser ou non la sortie produite, et de la manière de l’utiliser
Si l’IA « change fondamentalement » la politique, la culture, la science, voire la façon de communiquer avec ses amis et sa famille, c’est parce que les gens ont choisi de le faire, et que l’IA a rendu ce choix plus facile
Le fait que les utilisateurs n’aient pas eu d’opinion ou de préférence arrêtée n’efface pas le fait qu’un choix a bien eu lieu