1 points par GN⁺ 2025-06-11 | 1 commentaires | Partager sur WhatsApp
  • Le site Low-background Steel sert à rassembler des ressources non contaminées par des contenus générés par l’IA
  • Ce projet se concentre sur des textes, images et vidéos créés avant la diffusion massive des contenus IA en 2022
  • Il oriente vers des sources de référence majeures comme Wikipedia, l’Arctic Code Vault et Project Gutenberg
  • Les visiteurs du site peuvent aussi proposer de nouvelles ressources non contaminées
  • Inspirée du concept de métal propre d’avant les essais nucléaires, cette idée met l’accent sur la fiabilité et la préservation de l’originalité

Introduction

  • Low-background Steel est un site web qui rassemble des ressources en ligne non contaminées par des contenus créés par l’IA
  • Le nom du site s’inspire du Low-background Steel (et du plomb), un métal fabriqué avant les essais nucléaires et non contaminé par la radioactivité
  • Les métaux extraits d’épaves coulées avant les essais nucléaires (Trinity Test) sont considérés comme précieux car ils présentent très peu de contamination radioactive
  • Par analogie, l’idée est de préserver et de référencer des contenus numériques purs produits avant l’explosion des contenus générés par l’IA

Objectif et contexte

  • L’accent est mis sur la collecte de matériaux originaux — textes, images, vidéos et autres — datant d’avant l’arrivée massive des contenus générés par l’IA en 2022
  • Ces ressources incluent des bases de données open source de référence comme le dump complet de Wikipedia, l’Arctic Code Vault et Project Gutenberg
  • Les utilisateurs du site peuvent ajouter directement de nouvelles ressources non contaminées via un formulaire de soumission

Importance du site

  • À une époque marquée par la prolifération des contenus générés par l’IA, préserver l’originalité et disposer d’informations fiables devient essentiel
  • Low-background Steel vise à fournir une référence de données propres, utilisables sans crainte de pollution informationnelle

Comment contribuer

  • Tout le monde peut proposer de nouvelles sources de contenus non contaminés via la fonction de soumission du site

Référence

  • Le site renvoie vers l’explication Wikipedia consacrée au Low-background Steel, qui reflète bien l’esprit du projet
  • Le projet, lancé en mars 2023, joue concrètement le rôle d’un hub expérimental pour la préservation des contenus en ligne

1 commentaires

 
GN⁺ 2025-06-11
Commentaire Hacker News
  • L’idée d’ajouter un nouveau « plane » à Unicode pour dupliquer en miroir tous les caractères utiles, puis d’y attacher des bits d’état supplémentaires pour les distinguer, me semble intéressante

    • Par exemple, on pourrait imaginer qu’utiliser du texte généré par IA dans une zone « production écrite directement par un humain » soit immédiatement sanctionné, que dans un espace « accessible uniquement aux humains » l’entraînement ou même l’accès par une IA soit interdit, et que dans une zone « reconnaît être généré par IA » toute production IA doive obligatoirement être encodée dans cette plage de caractères

    • Bien sûr, ces caractères seraient difficiles à distinguer visuellement et ne pourraient être différenciés qu’en passant par un logiciel, ce qui en ferait une sorte de canal subtil

    • Même en copiant-collant un texte, l’information d’origine se déplacerait avec lui via de petites différences d’encodage des caractères

    • C’est presque une blague, mais je trouve ce genre de système intrigant

    • Un peu comme pour le bio dans l’alimentaire, je pense qu’un contenu « organique » 100 % écrit par un humain pourrait acquérir une valeur premium

      • Mais comme dans l’industrie alimentaire, décider de ce qui est réellement autorisé et jusqu’où va le « bio » serait un cauchemar
      • La certification dépendrait d’un réseau de confiance et, au final, des productions IA contaminées pourraient quand même se vendre plus cher
    • Je trouve que le critère de « texte généré par IA » manque de clarté, donc voici des exemples concrets

        1. Un étudiant écrit lui-même à la main
        1. Il consulte une encyclopédie en ligne, mais celle-ci utilise de l’IA en interne
        1. Il demande à une IA de structurer un mémoire, d’en extraire les points clés et d’en proposer la conclusion, puis il rédige lui-même
        1. Il fait seulement corriger l’orthographe, les phrases ou le style de son propre texte par une IA
        1. L’IA rédige l’intégralité du texte à sa place
        1. Il écrit lui-même plusieurs versions puis demande à l’IA de choisir la meilleure
      • Le premier et le dernier cas sont clairs, mais pour les autres il est difficile de savoir à partir d’où cela devient réellement un produit de l’IA
    • Unicode contient déjà des caractères de balise conçus à l’origine pour marquer des zones linguistiques, mais ils ont été abandonnés au profit d’un balisage de plus haut niveau (HTML, etc.)

      • Ces caractères sont invisibles et, lors du déplacement du curseur, plusieurs d’entre eux sont traités comme un seul caractère
      • Ils correspondent à l’ASCII, ce qui permet d’y insérer arbitrairement du JSON ou d’autres données
      • On pourrait s’en servir pour marquer les zones générées par un LLM, mais comme cela relèverait de données cachées ou d’un usage non recommandé, cela peut être gênant
      • Lien connexe : https://en.m.wikipedia.org/wiki/Tags_(Unicode_block)
    • Si cette loi entrait en vigueur, des « usines à frappe » apparaîtraient en Inde en 12 millisecondes, où des humains recopieraient des résultats d’IA pour blanchir les données

    • Par exemple, si j’écris un texte dans une langue étrangère puis demande à ChatGPT de le traduire en anglais, est-ce qu’il faut considérer cela comme un contenu généré par IA ?

      • Et si j’écris à la main puis passe le texte dans un LLM pour l’OCR, ou si je donne à l’IA un plan extrêmement détaillé tout en vérifiant strictement les faits ?
      • Si l’IA ne sert qu’à la vérification grammaticale ou à l’ajustement de formulations scientifiques, est-ce aussi de la génération IA ?
      • Pour moi, dans tous ces cas, la réponse est « non »
  • Les productions d’IA auraient intrinsèquement tendance à revenir vers la moyenne

    • L’idée est que ce genre de contenu correspond à des informations qu’un humain peut obtenir simplement en les demandant

    • Il suffirait donc d’ajouter une balise <AI generated content> à tout contenu produit par IA, et le reste relèverait davantage de la pollution que de l’intérêt public

    • En suivant cette logique, on en arriverait à la conclusion qu’il n’y a même plus besoin d’écrire quoi que ce soit

      • Shakespeare, les démonstrations mathématiques, tous les romans et tous les reportages ne sont eux aussi que des combinaisons possibles de mots
      • La valeur ne vient pas seulement du fait qu’une chose soit « produisible », mais du fait qu’elle soit créée pour un objectif, un contexte et un lectorat particuliers
    • Cette intuition a peut-être un jour eu quelques appuis expérimentaux

      • Mais les percées innovantes obtenues récemment à partir de résultats d’IA bien sélectionnés montrent que cette affirmation n’est plus vraie
    • Le processus même de validation et de curation sous le nom d’un expert humain a une grande valeur

      • En réalité, la plupart des contenus sur internet étaient déjà produits par des non-experts, mal payés et de mauvaise qualité, et je ne pense pas que l’IA aggrave fondamentalement cela
    • Je me demande aussi si un texte édité ou restylé par IA peut encore être considéré comme écrit par un humain

      • Dans mon cas, je dicte des billets de blog dans des notes vocales, puis j’utilise CGPT ou Claude pour retravailler le ton et le rythme
    • Je trouve cela absurde

      • Si vous avez déjà utilisé des outils de deep research, vous comprenez vite que les humains produisent eux aussi énormément de contenu sans valeur
      • Il ne faut pas tomber dans des malentendus utopiques
  • Je pense que les termes employés dans cet article ont été choisis très habilement pour minimiser l’inquiétude

    • Depuis l’arrêt des essais nucléaires, les niveaux de radiation sont redevenus proches du niveau naturel, ce qui réduit le besoin d’un nouvel acier à très faible bruit de fond, et même les nouveaux aciers ont désormais un signal radioactif suffisamment faible pour la plupart des usages

    • D’une part, je ne pense pas qu’on ait absolument besoin de données « non contaminées »

      • J’ai l’impression que les données de LLM sont bien meilleures que les commentaires Reddit ordinaires
      • Il reste facile de trouver des données « pures » via archive.org, Gutenberg, etc.
      • Et de toute façon, les productions de LLM finiront par s’infiltrer partout, c’est inévitable
    • Il est exact que c’est parce que nous avons cessé les essais nucléaires que le bruit de fond radioactif a diminué

  • Je pense que cette question n’est pas aussi grave que le grand public l’imagine

    • À long terme, l’IA apprendra à partir de l’expérience réelle, ce qui rendra possible une quantité infinie de données d’apprentissage non textuelles et permettra d’éviter le problème de contamination par l’IA

    • En pratique, les hallucinations de l’IA, c’est-à-dire ses distorsions factuelles, tendent à être citées puis à se figer comme des vérités

      • Exemple : j’ai demandé plusieurs fois à une IA « quel était le programme de productivité intégré de connect four pour MS-DOS ? », et à chaque fois elle a donné une réponse différente, mais toujours fausse
      • Ces erreurs sont ensuite recitées sur le web, puis réapprises par d’autres IA, créant une boucle fermée
      • Dans ce genre de situation, il devient difficile de savoir ce qui est vrai
    • Les données issues de l’expérience réelle, par exemple la réparation automobile, sont coûteuses et risquées à produire

      • Comme un mécanicien humain, une IA doit partir d’un manuel et d’un cursus explicite
      • Si elle n’apprenait qu’à partir de données issues d’interventions réelles, elle finirait par casser des voitures au fil des essais, et des humains devraient intervenir
      • Même avec du RL off-policy, ces données peuvent venir d’une génération précédente de modèles, donc de productions déjà issues d’IA
      • L’expérience réelle seule ne résout donc ni les limites d’approvisionnement, ni les coûts, ni totalement le problème de contamination par l’IA
    • YouTube regorge de données issues de vraies expériences de réparation automobile, mais il y a un problème de droit d’auteur

      • On débat déjà de savoir si les entreprises d’IA doivent obtenir une licence avant d’utiliser ce type de contenu
    • Je me demande aussi si l’AGI sera réellement nécessaire à long terme

      • Je suis sceptique face à l’idée qu’une fois l’AGI arrivée, même le spam deviendra de meilleure qualité
      • xkcd pertinent : https://xkcd.com/810/
    • À mon avis, avant l’arrivée de robots humanoïdes dotés d’une intelligence générale, on ne verra pas de système d’IA capable de réparer des voitures dans le monde réel

      • Il en va de même pour une femme de chambre IA dans un hôtel cinq étoiles
      • C’est pourquoi l’idée que la contamination des bases de données textuelles se résoudra simplement avec le temps me paraît un peu irréaliste
  • À ce stade, rien ne prouve que la « contamination IA » pose réellement problème pour l’entraînement des modèles

    • Les IA entraînées sur des données publiques d’avant 2022 ne montrent pas d’avantage de performance évident par rapport à celles entraînées sur des données postérieures à 2022

    • Parfois, les données plus récentes donnent même de meilleurs résultats

    • L’idée contenue dans l’analogie du « low background steel », c’est qu’en réentraînant encore et encore sur des données synthétiques, on finirait par provoquer un « model collapse », c’est-à-dire rendre les modèles complètement insignifiants

      • En réalité, on n’a pas observé ce phénomène, et il ne semble pas non plus que les entreprises d’IA utilisent en interne des filtres séparant rigoureusement les données produites par IA
      • En revanche, je pense qu’une surexposition des humains aux données d’IA pourrait produire une forme de model collapse chez les humains eux-mêmes
      • Ce n’est là que mon expérience et mon intuition
    • Cette affirmation n’est pas raisonnable pour plusieurs raisons

        1. Depuis 2022, les méthodes d’entraînement des LLM se sont tellement améliorées que l’effet négatif des « résidus » d’IA dans les données n’est peut-être tout simplement pas assez fort pour devenir visible
        1. L’évaluation des performances reste floue, et les différences ne se manifestent parfois qu’à travers de très faibles écarts entre modèles d’une même génération, comme Gemini 2.5 et Claude 4
      • Ces effets minimes sont difficiles à démontrer par les données, ce qui rend une approche de principe d’autant plus importante
      • En principe, il vaut mieux éviter d’entraîner sur des productions générées par IA
    • Le véritable déluge de « résidus » de contamination IA n’a pas encore commencé, mais je m’attends à ce qu’il augmente brutalement à l’avenir

  • Certains n’ont pas tant d’aversion que cela pour les contenus IA et jugent l’analogie avec le low-background steel très bien trouvée

    • Je n’ai pas non plus une grande aversion pour les contenus IA, et j’ai même créé un site à ce sujet

      • Le but est d’archiver des matériaux dont on sait avec certitude qu’ils ont été produits par des humains
    • Personnellement, ce n’est pas tant une phobie de l’IA qu’une volonté d’empêcher l’IA de réapprendre ses propres résultats

      • Les contenus de l’ère « pré-IA » sont désormais une ressource rare qui ne peut plus être produite à nouveau et dont la rareté ne fera qu’augmenter
      • Il aurait été préférable d’apposer un horodatage cryptographique sur toutes les données vers 2015, mais à défaut, il faut désormais préserver ce qui reste
  • J’ai l’impression que ma réflexion du jour était étonnamment prémonitoire

    • Mon ancien commentaire

    • J’ai déjà vu cet exemple sur Hacker News il y a au moins un an, voire plus

    • C’était déjà une analogie courante après la sortie de ChatGPT

    • J’avais déjà rencontré ce cadrage en termes de contenu « non contaminé » par l’IA, mais l’associer au « low background steel » est une image assez originale

    • Je ne suis pas d’accord

      • Je pense que nous allons annoter contenus et données synthétiques, et que les machines s’en serviront pour améliorer progressivement leurs productions futures
      • Même si l’effet n’est pas très visible avec les seuls LLM, il l’est clairement pour les modèles d’image et de vidéo
      • En sélectionnant seulement les meilleures productions visuelles, les résultats s’améliorent petit à petit, et la curation selon les goûts joue aussi un rôle majeur
      • Comme en génétique et en biologie, où cela s’applique à divers niches écologiques, nous faisons évoluer très rapidement les règles du jeu à l’aide de machines synthétiques
  • Je partage l’intérêt pour cette analogie avec le low-background steel

  • Je doute que cette analogie soit vraiment convaincante

    • Le low-background steel est en pratique presque impossible à produire de nouveau, alors qu’un contenu sans IA, il suffit simplement de ne pas utiliser d’IA, donc la difficulté n’a rien à voir

    • En réalité, il est presque impossible de prouver objectivement qu’un contenu est AI-free ; en dehors de son auteur, personne ne peut en être certain

    • Qui produirait du contenu AI-free, pour quelle raison, et avec quel argent ?

    • Cela ressemble surtout à un titre accrocheur

  • En partant du fait que le nom de ce site vient de Y combinator, quelqu’un évoque la recherche d’un point fixe d’une fonction comme exigence pour les modèles d’inférence

    • Une attitude optimiste selon laquelle un contenu pourrait se transformer lui-même, reprendre le résultat comme nouvelle entrée, et continuer à en extraire les motifs essentiels
  • Même si la production de données biaisées par l’IA augmente, on peut espérer que les caractéristiques essentielles resteront extractibles, même si l’entraînement mélange le contenu humain original, les contenus dérivés, puis les dérivés de ces dérivés sur plusieurs générations