3 points par GN⁺ 2026-02-19 | 2 commentaires | Partager sur WhatsApp
  • L’ablation sémantique (Semantic ablation) désigne le phénomène d’érosion algorithmique par lequel l’IA retire progressivement la densité sémantique propre d’un texte
  • Il s’agit d’un sous-produit structurel du greedy decoding et de l’apprentissage par renforcement à partir du feedback humain (RLHF), qui abandonne les formulations rares et précises pour converger vers une langue moyenne
  • Le réglage de l’IA pour la « sécurité » et l’« utilité » renforce cette tendance, en réprimant délibérément les frictions langagières atypiques et en provoquant une amputation de l’intention et de la singularité
  • Plus un texte est retravaillé de façon répétée par l’IA, plus la diversité lexicale (type-token ratio) chute fortement, tandis que les métaphores, les termes spécialisés et la structure logique s’aplanissent par étapes
  • En conséquence, la complexité de la pensée humaine est sacrifiée à une esthétique algorithmique de la « fluidité », et la société entière sombre dans une « course vers le milieu »

Le concept d’ablation sémantique (Semantic ablation)

  • L’ablation sémantique désigne une érosion algorithmique de l’information à haute entropie
    • Elle est définie non comme une erreur, mais comme un produit structurel du greedy decoding et du processus de RLHF
    • Pour maximiser la probabilité, le modèle converge vers le centre de la distribution gaussienne, en abandonnant les tokens rares, précis et complexes
  • Le phénomène s’aggrave à mesure que les développeurs renforcent les réglages de « sécurité » et d’« utilité »
    • En considérant les frictions langagières atypiques comme un « risque », cela entraîne une coupe sémantique non autorisée
    • En conséquence, la recherche d’une faible perplexité (perplexity) provoque une destruction des signaux distinctifs

Le processus d’érosion de l’écriture par IA

  • Le processus par lequel l’IA « affine » un brouillon est en réalité décrit comme l’exécution même de l’ablation sémantique
    • L’IA repère les zones à haute entropie, c’est-à-dire les passages porteurs d’intuitions originales, puis les remplace par les tokens génériques les plus probables
    • La précision rugueuse du texte d’origine disparaît et laisse place à une enveloppe lisse mais creuse
  • Ce phénomène peut être mesuré comme une décroissance de l’entropie (Entropy Decay)
    • Plus un texte est raffiné de manière répétée par l’IA, plus la diversité lexicale (type-token ratio) s’effondre
    • Il en résulte un processus en trois étapes de l’ablation sémantique

Les trois étapes de l’ablation sémantique

  • Étape 1 : purification métaphorique (Metaphoric cleansing)
    • L’IA considère les métaphores atypiques ou les images sensorielles comme du « bruit » et les remplace par des expressions banales et sûres
    • Les frictions émotionnelles et sensorielles sont supprimées
  • Étape 2 : aplatissement lexical (Lexical flattening)
    • Les termes spécialisés et le vocabulaire technique précis sont sacrifiés au nom de l’« accessibilité »
    • Les tokens rares (1/10,000) sont remplacés par des synonymes courants (1/100), ce qui dilue la densité sémantique et la gravité logique
  • Étape 3 : effondrement structurel (Structural collapse)
    • Les logiques complexes et non linéaires sont forcées à entrer dans des structures prévisibles à faible perplexité
    • L’implicite et la nuance sont éliminés, ne laissant qu’une coquille grammaticalement parfaite mais intellectuellement vide

Résultats et métaphore

  • Le résultat est décrit comme un « JPEG de la pensée »
    • En apparence, tout semble cohérent et fluide, mais la densité des données d’origine et le sens ont été perdus
  • Si l’« hallucination » est l’erreur qui fabrique ce qui n’existe pas, l’ablation sémantique est le processus qui détruit ce qui existe
    • La complexité de la pensée humaine est sacrifiée sur l’autel de la fluidité algorithmique
    • La société s’enfonce peu à peu dans une « race to the middle », en construisant un monde grammaticalement correct mais creux

Avertissement et conclusion

  • Accepter des contenus produits par l’IA sans reconnaître l’ablation sémantique revient à normaliser la corruption du sens
  • Si cette érosion se poursuit, nous risquons même d’oublier ce qu’est la substance
  • Il est donc important de nommer et de prendre conscience du concept d’ablation sémantique

2 commentaires

 
mammal 2026-02-19

On peut donc considérer que laisser volontairement des fautes de frappe ou écrire en minuscules pour éviter qu’un texte ait l’air écrit par une IA revient à augmenter intentionnellement l’entropie.

 
GN⁺ 2026-02-19
Réactions sur Hacker News
  • Ça met bien le doigt sur ce que beaucoup ressentent quand ils rejettent les conseils de reformulation de l’IA
    Plus l’IA polit une phrase, plus son tranchant disparaît, jusqu’à ce qu’elle ne dise finalement plus rien
    La personnalité humaine s’efface au profit d’un style lisse mais fade
    Or ce sont justement ces aspérités, ces formulations inattendues, qui réveillent l’attention du lecteur et s’insinuent dans sa réflexion

    • Je pense que ça dépend aussi du niveau en écriture
      Beaucoup de gens écrivent mal, donc l’IA leur produit des phrases plus claires et sans fautes
      Mais ce genre de texte n’est jamais grand
      Même quand on essaie d’imiter le style d’un auteur célèbre, il y a toujours quelque chose qui sonne faux
    • À mes yeux, l’IA reste fondamentalement un outil pour les tâches ordinaires
      Elle peut fluidifier les parties ennuyeuses, comme les e-mails, mais l’intérêt réel se joue dans les « marges »
      L’écriture banale peut s’automatiser, mais l’expression créative reste encore du domaine humain
    • J’ai l’impression que le style produit par l’IA ressemble à la façon de parler d’un manager
      Quand la maîtrise technique diminue, le discours se remplit peu à peu de termes vagues, de buzzwords et de métaphores
      C’est peut-être aussi pour ça que les dirigeants et les politiques aiment les contenus générés par IA
    • Si les textes d’IA sont fades, ce n’est pas parce qu’ils sont « trop parfaits », mais à cause de leur lourdeur artificielle
      Il y a beaucoup de répétitions, beaucoup de phrases inutiles, et une difficulté à être concret
    • En une ligne, c’est Mediocrity as a Service
  • En construisant plusieurs pipelines multi-agents, j’ai observé un phénomène intéressant
    Quand on passe par quatre étapes — « résumé → expansion → relecture → polissage » —, à partir de la troisième, toutes les phrases finissent par avoir le même rythme et le même vocabulaire
    Même en forçant des retours constants au texte source, il y avait des limites
    La cause vient de la structure même du RLHF (apprentissage par renforcement à partir de feedback humain)
    Comme les formulations « claires, sûres et consensuelles » sont favorisées, les phrases surprenantes se retrouvent au contraire pénalisées
    Au final, le modèle converge vers un résultat moyen
    Les modèles de base sont bien plus étranges et créatifs, mais les modèles affinés retirent délibérément la personnalité
    Du coup, quand un modèle a déjà subi un RLHF très poussé, c’est difficile à corriger par simple prompt
    À la place, je sépare les usages : les tâches où il faut préserver une voix vont à des modèles moins tunés, tandis que l’extraction structurée ou la classification vont aux modèles RLHF

    • Honnêtement, j’ai envie de demander si ce commentaire aussi a été écrit avec un LLM
      Cela dit, je suis d’accord avec l’analyse
    • Je me demande si on pourrait raviver la personnalité en injectant du bruit à chaque étape intermédiaire
      Même si, bien sûr, préserver la singularité propre du texte source resterait difficile
    • Je doute qu’en retirant le RLHF on puisse conserver de manière utile des résultats qui s’écartent de la moyenne
      Au fond, c’est peut-être un problème difficile à résoudre avec les seuls LLM
  • En ce moment, on entend partout sur Internet la voix de l’IA
    Blogs, actualités, avis de décès, YouTube : tout a le même ton
    Il arrive même qu’on imite la voix de physiciens célèbres
    Personnellement, ça me déprime, comme si quelque chose de vivant s’en échappait

    • Même dans cet article lui-même, j’ai l’impression de sentir cette odeur d’IA
    • Je ressens de plus en plus un rejet instinctif
      Un peu comme les artefacts de compression JPEG en 1993 : maintenant, on commence à les voir immédiatement
    • Je pense que c’est la pire évolution qu’Internet ait connue depuis les feeds addictifs et la pub
      Et avec l’effet fondateur, on n’aura probablement même pas droit à un nouvel Internet
    • Dès que je reconnais les motifs stylistiques de l’IA, toute ma concentration s’effondre
      Je ne sais pas si je suis juste trop sensible, ou si le texte est réellement mauvais
    • Désormais, les activités hors ligne me procurent plus de plaisir
      Internet est tellement recouvert de déchets synthétiques que je n’ai même plus envie de le regarder
  • Je pense que l’expression même de « Generative AI » est trompeuse
    Plus je comprends les principes mathématiques du machine learning, plus j’ai le sentiment qu’on ne devrait pas l’utiliser pour produire des contenus destinés à des humains
    Il arrive, par chance, qu’on obtienne un résultat correct, mais la plupart du temps, c’est au niveau de quelqu’un qui fait semblant d’être créatif à une soirée ennuyeuse
    C’est utile comme outil d’assistance à la création, mais incapable de produire par lui-même quelque chose de réellement créatif

    • Les gens veulent du vrai
      J’ai parfois l’impression qu’il vaudrait mieux lire le prompt brut plutôt qu’une suite artificielle de tokens
    • En un mot, c’est de la Regurgitative AI, autrement dit une IA de régurgitation
    • J’aurais préféré que les entreprises se concentrent sur les domaines où l’IA peut vraiment être utile, par exemple l’assistance à la recherche ou l’automatisation du code
      Mais dans la réalité, on fabrique surtout des agents spaghetti pour soutenir le cours de l’action
    • La formule « le discours de la personne la plus ennuyeuse » est tellement juste qu’elle m’a fait rire
      En somme, c’est du Median AI à la mode
  • J’ai trouvé l’expression « high entropy » de l’exégète Dan McClellan vraiment marquante
    Dans cette vidéo YouTube,
    il cite la phrase : « they rang the tuning fork resonating in the loins of their dogmatism »,
    et j’ai le sentiment que l’IA ne pourra jamais produire ce genre de formulation

    • Mais cette phrase sonne quand même un peu comme une salade de mots
      Avec un style de niveau GPT-2, elle aurait peut-être même paru plus naturelle
    • L’IA n’emploiera jamais des mots comme « loins » ou « dogmatism »
      Parce qu’ils sont trop sexuels ou défavorables au marketing
    • Cette métaphore me donne quand même l’impression d’une métaphore brouillée
    • En réalité, un modèle comme Claude peut produire des métaphores flamboyantes si on le prompt correctement
      Par exemple avec un prompt du type : « mélange le style de Jim Thompson et Thomas Harris, et écris avec la sensibilité pulp d’une librairie de relais routier en 1967 »
      Claude est meilleur que ChatGPT sur ce type de style outrancier
      Au fond, si les textes du web finissent tous par se ressembler, ce n’est pas à cause du HTML, mais parce que les gens ne l’ont pas vraiment exploité comme il fallait
  • J’ai vécu quelque chose de similaire moi aussi
    J’avais rédigé avec beaucoup d’émotion la landing page de mon nouveau studio, puis je l’ai passée dans Grok : toute sa personnalité avait disparu
    Or ce sont justement les formulations rugueuses qui transmettent l’âme du concept
    Depuis, je n’utilise l’IA que pour tester mes idées

    • J’ai moi aussi essayé d’utiliser un LLM pour générer des idées, et le résultat était catastrophique
      Je lui ai demandé d’inventer l’intrigue d’une campagne Dungeon World, et il n’a produit que des éléments de décor trop ordinaires et vides de sens
      En revanche, c’était utile pour résumer les comptes rendus de session et les transformer en récit intéressant
      ChatGPT aime bien adopter un ton légèrement humoristique, mais après retouche on obtient un résultat tout à fait lisible
      Au final, une intrigue créative doit toujours être inventée par un humain
    • Si on accepte les idées de l’IA telles quelles, on tombe dans une simplification métaphorique et un aplatissement du vocabulaire
      On risque alors de comprendre les concepts sous une forme déformée
      C’est utile pour trouver de nouveaux termes, mais pour comprendre un concept en profondeur, il vaut bien mieux aller directement vers des sources écrites par des humains
  • Le concept de « Semantic ablation » me parle énormément
    Je compte m’en resservir pour expliquer à l’avenir pourquoi les e-mails à la sauce ChatGPT de certaines personnes sonnent si mal
    C’est aussi pour ça que je reste sceptique quand on affirme que des modèles comme Opus 4 vont devenir une AGI
    Même en déployant plusieurs agents, on finira par converger vers une bouillie homogène dénuée de sens

    • Merci d’avoir mis des mots sur cette intuition
  • La génération d’images ressemble un peu à un processus de contre-effacement sémantique (anti semantic ablation)
    On part d’une toile blanche pour converger progressivement vers des pixels porteurs de sens
    Je me demande s’il serait possible de faire quelque chose de similaire en génération de texte, en avançant peu à peu vers des phrases de plus en plus affirmées

  • Si on pouvait mesurer le degré d’effacement sémantique d’une phrase générée, on pourrait peut-être construire un agent en boucle chargé de le réduire
    Cela permettrait peut-être de découvrir, dans les données d’entraînement, des connexions nouvelles qu’on n’avait pas encore repérées
    Bien sûr, il est aussi possible que le résultat ne soit qu’une autre manière de crier dans le vide

  • Pour ceux qui ne l’ont pas encore vue, je recommande la page Wikipédia sur les signes d’une écriture produite par IA
    À l’origine, c’est un guide pour détecter les contributions de l’IA, mais
    c’est aussi une très bonne ressource pour reconnaître qu’on commet soi-même les mêmes erreurs quand on écrit, et les corriger