Comment les LLM déforment notre langage écrit

(sites.google.com)

1 points par GN⁺ 1 시간 전 | 1 commentaires | Partager sur WhatsApp

Les LLM améliorent l’efficacité de l’assistance à l’écriture, mais lorsqu’ils révisent un texte humain, ils modifient la conclusion, la position et le type d’argumentation, en produisant des glissements de sens différents de ceux d’une révision humaine
Dans une étude utilisateur, les personnes qui utilisaient beaucoup les LLM se déclaraient satisfaites du résultat, tout en indiquant que leur voix et leur créativité avaient diminué de manière statistiquement significative, révélant un paradoxe des préférences
En faisant réviser 86 essais rédigés par des humains d’ArgRewrite-v2 par trois LLM (gpt-5-mini, gemini-2.5-flash, claude-haiku), même avec des consignes de retouches minimales ou de simple correction grammaticale, le vocabulaire et le sens changent fortement
Les textes rédigés ou révisés par des LLM évoluent vers un style plus formel et impersonnel, avec davantage de noms, d’adjectifs et de langage émotionnel, logique et statistique, et moins de pronoms ainsi que d’arguments fondés sur l’expérience personnelle
L’analyse de 18 000 reviews d’évaluation par les pairs pour ICLR 2026 montre que 21 % ont été jugées générées par IA, qu’elles attribuent des notes 10 % plus élevées que les reviews humaines, et qu’elles mettent davantage l’accent sur la reproductibilité et la scalabilité

Aperçu de l’étude

Les LLM sont utilisés par plus d’un milliard de personnes dans le monde, et leur usage le plus courant est l’assistance à l’écriture
Les LLM peuvent offrir des gains d’efficacité importants, mais la question demeure de savoir s’ils aident réellement les utilisateurs à écrire ce qu’ils veulent dire
Beaucoup d’utilisateurs reconnaissent le « ressenti » du style LLM, mais perçoivent mal à quel point les LLM peuvent déformer le sens d’un texte
L’analyse porte sur trois types de matériaux
- une étude utilisateur humaine
- un jeu de données d’essais argumentatifs écrits par des humains
- des reviews d’une grande conférence de machine learning
Les matériaux de recherche sont disponibles via le Paper et le Code

Principales découvertes

Les LLM changent la conclusion d’un texte, ainsi que sa position et son type d’argumentation
Les utilisateurs disent être satisfaits du résultat tout en signalant une baisse statistiquement significative de leur voix et de leur créativité, ce qui révèle un paradoxe des préférences
Même lorsqu’on leur demande uniquement une correction grammaticale, les LLM produisent des glissements de sens plus importants que les éditeurs humains
L’effet apparaît aussi dans les reviews de l’International Conference of Learning Representations (ICLR) 2026
- 21 % des reviews d’évaluation par les pairs ont été jugées générées par IA
- ces reviews se concentrent sur des critères scientifiques significativement différents de ceux des reviews humaines pour expliquer l’acceptation ou le rejet d’un article
À mesure que les LLM s’intègrent dans la société, ces glissements de sens subtils peuvent transformer la politique, la culture, la science, mais aussi la communication entre amis et au sein des familles
L’étude porte sur l’écriture argumentative, mais ses résultats peuvent se généraliser à d’autres formes d’écriture et de communication

Les révisions par LLM déplacent les textes dans une direction différente de celle des révisions humaines

Quand un LLM modifie un texte humain, il produit des changements homogénéisés très différents de ceux observés lorsqu’un humain révise le même essai
L’analyse contrefactuelle compare le résultat d’une révision par LLM avec ce qu’aurait donné une révision humaine du même texte
Dans le cas des révisions humaines
- le premier brouillon est représenté par des points gris clair
- le deuxième brouillon, après retour d’expert, est représenté par des points gris foncé
- les changements sont visualisés en projetant l’espace d’embedding sémantique MiniLM-L6 via une PCA
Dans le cas des révisions par LLM
- l’essai humain original reçoit un retour d’expert et plusieurs prompts
- même avec la seule consigne de retouches minimales, tous les essais changent fortement
- la direction du changement est cohérente et s’éloigne de la manière d’écrire humaine
Les exemples du jeu de données ArgRewrite-v2 montrent comment l’écriture assistée par LLM modifie la conclusion des essais et efface la voix humaine

Méthodologie et jeux de données

Étude utilisateur humaine
- une étude utilisateur a été menée pour comprendre l’impact de l’usage des LLM sur le processus d’écriture
- 55 personnes pouvaient utiliser un LLM, tandis que 45 personnes n’y avaient pas accès
- comme beaucoup de participants ont volontairement évité d’utiliser le LLM pendant la session, les résultats ont été conditionnés au choix réel d’usage
- les participants ont été répartis en deux groupes
  - LLM-Influenced : personnes n’ayant pas utilisé de LLM ou ne l’ayant utilisé que pour chercher des informations
  - LLM : personnes ayant largement utilisé un LLM
- cette répartition a été définie a priori avant l’évaluation et l’analyse
- elle s’appuie sur les journaux de conversation, les essais finaux et les scores d’usage auto-déclarés
ArgRewrite-v2
- 86 essais rédigés par des humains et collectés en 2021 ont été utilisés
- ces textes ont été écrits avant la diffusion large des LLM
- trois LLM en production ont été sollicités pour réviser les essais
  - gpt-5-mini
  - gemini-2.5-flash
  - claude-haiku
- cinq types de révision ont été appliqués
  - révision générale
  - révision minimale
  - correction grammaticale
  - complétion
  - expansion
- les brouillons générés par LLM et les versions révisées par des humains ont été comparés selon plusieurs dimensions
  - sens
  - usage du vocabulaire
  - distribution des catégories grammaticales
  - tonalité émotionnelle
  - caractéristiques stylistiques
Analyse des reviews ICLR 2026
- 18 000 reviews d’évaluation par les pairs d’ICLR 2026 ont été analysées
- les auteurs ont sélectionné des articles disposant d’une review entièrement humaine et d’une review entièrement générée par LLM
- un classifieur LLM-as-a-Judge a été utilisé pour identifier les forces et faiblesses citées par chaque review
- les notes attribuées par les humains et les LLM ont été comparées

Le paradoxe entre satisfaction utilisateur et perte de voix

Les utilisateurs qui ont beaucoup utilisé les LLM ont indiqué que leurs essais ne reflétaient pas leur propre voix
En même temps, ils se déclaraient satisfaits du résultat, ce qui fait apparaître un paradoxe des préférences
Les utilisateurs expriment leur satisfaction tout en signalant aussi une baisse significative de la créativité et de la voix
Le RLHF optimise les préférences, mais cela ne suffit pas à préserver la créativité et le sens

Un déplacement dans une direction commune dans l’espace sémantique

Les essais humains du groupe de contrôle sont largement dispersés dans l’espace d’embedding
Cette distribution reflète la diversité des points de vue individuels, des styles d’écriture et des modes d’argumentation
Les essais produits par LLM se regroupent densément dans des zones non occupées par les essais humains
Les révisions par LLM provoquent de grands changements de sens, avec une direction de transformation fortement commune
Les textes révisés par LLM se déplacent vers des régions de l’espace qu’aucun essai humain antérieur n’occupait
Cela constitue un indice que les LLM déplacent le sens d’une manière différente des éditeurs humains

Changement de conclusion et de position

Les utilisateurs de LLM écrivent des essais plus neutres à la question « L’argent mène-t-il au bonheur ? »
Ces essais ont tendance à éviter une position claire
Cela apparaît comme un changement fondamental de la position même de l’argumentation

Évolution du vocabulaire et de la grammaire

Les révisions par LLM modifient les mots employés bien plus fortement que les révisions humaines
L’empreinte lexicale propre à chaque auteur est recouverte par le vocabulaire préféré des LLM
Les LLM adoptent un style plus formel
Des changements apparaissent aussi dans la distribution des catégories grammaticales
- l’usage des noms et des adjectifs augmente
- l’usage des pronoms diminue
La baisse des pronoms est interprétée comme un signal de recul du point de vue à la première personne et des arguments fondés sur l’expérience, au profit d’un langage impersonnel

Hausse du langage émotionnel, analytique, logique et statistique

L’écriture assistée par LLM augmente le langage émotionnel
En comparant révisions humaines et révisions par LLM, on observe une hausse importante des émotions positives comme négatives
Cette hausse apparaît même dans les cas où seules des retouches minimales et un retour d’expert étaient demandés
Dans l’analyse LIWC, les versions ArgRewrite-v2 révisées par LLM montrent une augmentation du langage associé à des schémas de pensée plus formels, logiques et hiérarchiques
Dans l’étude utilisateur, les humains utilisent davantage d’arguments liés à l’expérience personnelle
Les essais rédigés par LLM recourent davantage à des arguments statistiques et logiques
Les essais influencés par LLM citent aussi des avis d’experts, ce qui est rare dans les essais entièrement humains

Distorsion des critères d’évaluation dans les institutions scientifiques

Quand les LLM sont utilisés dans le processus de review scientifique, ils attribuent des notes 10 % plus élevées que les humains
Les reviews humaines et celles des LLM n’emploient pas les mêmes critères pour juger les forces et les faiblesses
Les reviews humaines traitent plus souvent des points suivants
- elles ont 32 % plus de chances de considérer la clarté comme une force
- elles ont 58 % plus de chances de considérer la clarté comme une faiblesse
- elles ont 32 % plus de chances d’aborder la pertinence de la recherche
Les reviews par LLM traitent plus souvent des points suivants
- elles ont 136 % plus de chances d’aborder la reproductibilité
- elles ont 84 % plus de chances d’aborder la scalabilité
L’écart entre critères d’évaluation humains et critères des LLM peut influencer le type de travail scientifique jugé valable et encouragé

Conclusion

Les résultats mettent en évidence une tendance problématique par laquelle l’IA déforme subtilement le langage de l’écriture et les institutions culturelles
Les contenus générés par IA ont déjà pénétré de nombreux domaines
- discours parlementaires
- paroles de chansons
- scénarios de films
- langue parlée
- messages envoyés à des collègues et à des proches
Les personnes qui dépendent fortement de l’IA reconnaissent que celle-ci réduit leur voix et leur créativité, tout en restant tout aussi satisfaites du résultat
La facilité d’usage et la possibilité d’accélérer une carrière personnelle inciteront probablement les gens à continuer de produire des textes générés par IA
Comme le montrent les données d’ICLR, l’incitation à soumettre dans des contextes professionnels des textes générés par IA comme s’il s’agissait de ses propres écrits devrait elle aussi persister

1 commentaires

GN⁺ 1 시간 전

Avis sur Lobste.rs

C’est vraiment dérangeant au point d’être disturbing. L’exemple où le LLM modifie un argumentaire sur les voitures autonomes est particulièrement choquant
Que les LLM adoptent une posture neutre n’a rien de surprenant. Je comprends que l’objectif central des principaux produits LLM est essentiellement d’énoncer des vérités « reconnues », d’aider l’utilisateur, et sinon de rester dans une position intermédiaire assez floue
Je n’arrive absolument pas à comprendre que des gens se tournent vers des LLM pour écrire ou éditer des textes de valeur
- Même en adoptant l’interprétation la plus charitable, où une personne rédige entièrement son brouillon elle-même puis demande seulement au LLM de « vérifier s’il y a un problème », je ne comprends pas comment on peut relire les modifications ensuite sans voir que le résultat a pris un sens différent de celui du texte soumis
  « Dérangeant » est vraiment le mot juste
- Si j’ai bien compris, Grok de Musk semble avoir été, ou être, conçu de façon délibérément biaisée
- C’est une bonne pratique professionnelle pour un assistant ou un correcteur-réviseur
  Je ne vois pas pourquoi entraîner les LLM dans cette direction serait une mauvaise chose
La page ne se charge pas correctement de façon constante dans mon environnement. Il y a une prépublication
Le graphique de fréquence est sidérant et, honnêtement, correspond presque exactement à ce à quoi je m’attendais
Il faut le prendre comme un cadeau. Les éléments à gauche sont désormais des mots forts, et ceux à droite deviennent progressivement des mots vides de sens
- Je ne vois pas de quel graphique il s’agit. Je n’en ai pas vu sur la page
J’ai souvent constaté cela en essayant d’utiliser Claude comme correcteur-réviseur. Il a fallu retravailler le prompt plusieurs fois pour le forcer à se concentrer uniquement sur l’orthographe, la grammaire et la ponctuation
La tendance à modifier le sens semble probablement liée à la manière dont fonctionnent les embeddings
L’agentivité et la responsabilité des utilisateurs sont étrangement absentes de beaucoup de discussions autour de l’IA et des LLM
Si l’on part du principe que l’utilisateur est un adulte, utiliser un LLM est un choix actif. Il peut décider d’utiliser ou non la sortie produite, et de la manière de l’utiliser
Si l’IA « change fondamentalement » la politique, la culture, la science, voire la façon de communiquer avec ses amis et sa famille, c’est parce que les gens ont choisi de le faire, et que l’IA a rendu ce choix plus facile
Le fait que les utilisateurs n’aient pas eu d’opinion ou de préférence arrêtée n’efface pas le fait qu’un choix a bien eu lieu

Comment les LLM déforment notre langage écrit

Aperçu de l’étude

Principales découvertes

Les révisions par LLM déplacent les textes dans une direction différente de celle des révisions humaines

Méthodologie et jeux de données

Étude utilisateur humaine

ArgRewrite-v2

Analyse des reviews ICLR 2026

Le paradoxe entre satisfaction utilisateur et perte de voix

Un déplacement dans une direction commune dans l’espace sémantique

Changement de conclusion et de position

Évolution du vocabulaire et de la grammaire

Hausse du langage émotionnel, analytique, logique et statistique

Distorsion des critères d’évaluation dans les institutions scientifiques

Conclusion

À lire aussi

1 commentaires

Avis sur Lobste.rs