Le low-background steel pour des contenus non contaminés par l’IA

(blog.jgc.org)

1 points par GN⁺ 2025-06-11 | 1 commentaires | Partager sur WhatsApp

lowbackgroundsteel.ai a été créé en mars 2023 pour retrouver des ressources datant d’avant le mélange massif de contenus générés par l’IA sur le web
Son nom est une métaphore inspirée de l’acier et du plomb à faible radioactivité, non contaminés par les isotopes radioactifs issus des essais nucléaires
En pratique, le low-background steel et le plomb désignent généralement des métaux récupérés sur des navires coulés avant le Trinity Test de 1945
Le site se concentre sur la collecte de sources de textes, images et vidéos créées avant l’explosion des contenus générés par l’IA en 2022
Il renvoie vers des ressources comme des dumps de Wikipédia antérieurs à la sortie de ChatGPT, l’Arctic Code Vault ou Project Gutenberg, et accepte aussi d’autres sources non contaminées

Un hub pour rassembler des ressources d’avant l’IA

lowbackgroundsteel.ai a été créé comme hub de ressources pour rassembler des documents en ligne non mélangés à des contenus générés par l’IA
Lancé en mars 2023, il sert à organiser des ressources en ligne datant d’avant la diffusion massive des productions générées par l’IA

La métaphore derrière le nom

Le Low-background Steel désigne un métal non contaminé par les isotopes radioactifs issus des essais nucléaires
Cet acier et ce plomb sont généralement récupérés sur des navires coulés avant le Trinity Test de 1945
Le site applique ce concept au contenu numérique et qualifie de Low-background Steel les ressources non contaminées par les contenus générés par l’IA

Ce qui est collecté, avec des exemples

Les sources recherchées sont des textes, images et vidéos créés avant la forte hausse des contenus générés par l’IA en 2022
Exemples actuellement référencés :
- des dumps de Wikipédia antérieurs à la sortie de ChatGPT
- Arctic Code Vault
- Project Gutenberg
  - ainsi que d’autres sources supplémentaires

Soumettre des ressources

Si vous connaissez d’autres sources non contaminées par des contenus générés par l’IA, vous pouvez les envoyer via la page de soumission

1 commentaires

GN⁺ 2025-06-11

Avis sur Hacker News

Je pense qu’il suffirait d’ajouter un nouveau plan à Unicode, de dupliquer tous les caractères nécessaires à la communication, mais en y ajoutant un bit d’état supplémentaire
On aurait des plages comme assurément écrit par un humain, réservé aux yeux humains, reconnu comme généré par IA, et quiconque les enfreindrait irait en prison
Bien sûr, toutes ces plages seraient des caractères homoglyphes visuellement indiscernables, devenant ainsi un canal quasi caché médié par logiciel pour une divulgation loyale
Même en copiant-collant depuis plusieurs sources, les informations d’origine suivraient grâce à de subtiles différences d’encodage des caractères, et je ne plaisante qu’à un taux presque égal à 1
- Comme pour la nourriture, un marché apparaîtra aussi pour du contenu entièrement biologique
  C’est-à-dire du contenu écrit, dessiné, composé, édité et sélectionné par des humains
  Mais, comme pour la nourriture, définir ce qui est acceptable est un cauchemar, prouver que c’est biologique est difficile, la certification dépend d’un réseau de confiance, le produit est en pratique contaminé par ce qu’on voulait éviter, et il peut se vendre plus cher même s’il existe des preuves qu’il est pire
- Unicode possède à l’origine une plage de caractères d’étiquette conçue pour indiquer qu’une partie d’un texte provient d’une autre langue
  Cet usage a été abandonné, remplacé par des annotations de plus haut niveau comme les balises HTML, mais les caractères existent toujours
  Ils ont la particularité d’être invisibles, et une suite de caractères d’étiquette se comporte comme un seul caractère lors du déplacement du curseur
  Comme ils reflètent l’ASCII, on peut y encoder du JSON arbitraire ou d’autres données ; si cela ne vous dérange pas d’agacer les gens avec des données cachées ou des usages obsolètes, ils conviennent donc assez bien pour marquer les passages générés par LLM
  https://en.m.wikipedia.org/wiki/Tags_(Unicode_block)
- Le problème est de définir ce que veut dire généré par IA
  Prenons les devoirs : le cas où l’élève écrit tout lui-même au stylo sur papier et celui où il fait tout écrire par l’IA sont clairs, mais c’est plus ambigu s’il fait des recherches dans une encyclopédie en ligne qui répond avec de l’IA, s’il demande à l’IA seulement la structure du texte, les points clés et la conclusion, ou s’il écrit lui-même puis confie à l’IA la correction des fautes, de la grammaire et du style
  On peut aussi ajouter le cas où il écrit lui-même plusieurs textes sur différents sujets, puis demande à l’IA de choisir le meilleur
- 12 millisecondes après l’entrée en vigueur d’une telle loi, des usines de saisie apparaîtront en Inde, où des travailleurs humains recopieront à la main des textes d’origine IA pour faire du « blanchiment de données »
- Si l’on demande à ChatGPT de traduire en anglais un texte écrit dans une langue étrangère, est-ce du contenu généré par IA ?
  Et si l’on utilise un LLM pour faire l’OCR d’un texte écrit sur papier ?
  Et si l’on fournit un plan très détaillé, qu’on le fait réécrire en continu et qu’on supprime impitoyablement les faits incertains ?
  Et si l’on utilise l’IA uniquement pour corriger la grammaire et transformer un anglais maladroit en un style scientifique correct ?
  Dans tous ces cas, même si le résultat final est copié-collé depuis un LLM, la réponse est clairement, selon moi, « non »
Le contenu généré par IA est fondamentalement une régression vers la moyenne, nuisible à l’apprentissage comme à l’utilité pour les humains
Il n’y a aucun intérêt à publier ce que l’IA peut générer ; autant poser directement la question
On peut publier du contenu IA en l’étiquetant comme tel, mais en dehors de cela, il relève bien plus souvent de la pollution que de l’intérêt public
- Avec ce raisonnement, pourquoi écrire quoi que ce soit, au départ ?
  Les sonnets de Shakespeare ne sont eux aussi qu’un agencement de mots qui existaient déjà, et toute preuve mathématique, tout roman, tout journalisme n’est qu’une configuration dans l’espace des arrangements possibles de symboles
  Le fait que quelque chose ait pu être généré ne nie pas sa valeur lorsqu’il est généré pour un objectif, un contexte et un lectorat précis
- Il y a encore quelques années, c’était une croyance intuitivement plausible, avec même quelques éléments expérimentaux limités à l’appui
  Mais depuis, plusieurs percées de capacités sont venues de productions générées par IA bien sélectionnées, et je pense que cette idée a été définitivement réfutée
- Que faire du contenu modifié ou corrigé par l’IA ?
  Aujourd’hui, pour les billets de blog, je dicte des mémos vocaux, je les transcris, puis je les mets dans CGPT ou Claude pour en affiner le ton et le rythme
- Si l’on pose directement la question, il n’y a pas l’étape où un expert humain relit le contenu et le garantit en y apposant son nom
  Cette sélection et cette garantie ont de la valeur
  Bien sûr, on peut immédiatement se dire « est-ce qu’ils le feraient vraiment ? », et je suis d’accord, mais avant l’IA non plus cela n’arrivait généralement pas
  La grande majorité du contenu sur Internet était déjà constituée d’articles de mauvaise qualité, produits à la va-vite par des rédacteurs sous-payés sans expertise, et l’IA ne change pas cela
- N’importe quoi
  As-tu déjà utilisé des outils de deep research ?
  Il ne faut pas tomber dans l’erreur de l’utopie
  Les humains publient eux aussi des textes pourris
Je ne suis pas sûr que ce soit un problème aussi important que les gens l’imaginent
À long terme, l’objectif sera sans doute de faire en sorte que l’IA apprenne à partir d’expériences réelles, par exemple en réparant réellement une voiture au lieu de lire un manuel de réparation automobile
On obtiendrait alors une quantité illimitée de données d’apprentissage sans droits d’auteur, tout en évitant naturellement le problème des données d’apprentissage contaminées par l’IA
- Le problème, c’est que des hallucinations sont citées et finissent par être sourcées comme des faits
  Par exemple, il suffit de demander : « Quel programme de productivité MS-DOS intégrait Connect Four ? »
  Il existe un émulateur MSDOS et je connais la bonne réponse, mais comme la question est un peu obscure, chaque IA donne une réponse différente à chaque fois, et je ne les ai jamais vues donner la bonne
  Si on leur redemande si elles en sont sûres, elles changent d’avis
  Si ce genre de réponses est cité en ligne, puis que l’IA réapprend à partir de ces références circulaires comme sources, la vérité disparaît alors
  Essayez vraiment de poser la question ci-dessus : c’est un excellent exemple d’une IA qui répète avec autorité une réponse entièrement inventée
- Dire qu’il faut générer soi-même des données par expérience réelle peut signifier des coûts très élevés, avec de vrais risques opérationnels liés à l’acquisition des données
  Waymo acquiert de l’expérience en faisant rouler des voitures sur de vraies routes, mais la limite de données obtenues par unité de temps dépend de la taille de sa flotte, et il faut d’abord atteindre un niveau de capacité suffisamment sûr pour circuler dans le monde réel
  Si l’on veut réparer des voitures en partant sans autre connaissance qu’un déploiement on-policy, on va passer un bon moment à abîmer beaucoup de voitures pour apprendre, et il faudra aussi payer des humains pour dire au robot qu’il a échoué
  Il y a une raison pour laquelle on souhaite qu’un mécanicien lise le manuel et reçoive une formation explicite, et cette logique de coûts s’applique de la même manière que le mécanicien soit humain ou IA
  Même en utilisant de l’apprentissage par renforcement off-policy, si ces données sont des démonstrations de modèles de génération précédente, cela reste des données d’apprentissage contaminées par l’IA
- YouTube contient une quantité énorme de données d’apprentissage issues d’expériences réelles de réparation automobile, mais elles sont toutes protégées par le droit d’auteur
  La question de savoir si les entreprises d’IA doivent obtenir une licence pour ces contenus avant l’entraînement fait débat
- Je pense qu’il n’y aura pas non plus de système d’IA capable de réparer des voitures avant l’arrivée de robots humanoïdes capables d’intelligence générale
  Avant l’arrivée de tels robots, il n’y aura pas non plus de femmes de chambre IA dans les hôtels cinq étoiles
  Cela ne veut pas dire que l’argument initial est faux, mais l’écart entre aujourd’hui et ce moment-là est si immense qu’affirmer « ne vous inquiétez pas si les déchets IA contaminent les bases de données de fréquence des mots, ce sera résolu un jour » me semble un peu à côté de la plaque
- En gros, cela veut-il dire qu’à long terme on veut une AGI ?
  Et qu’une fois l’AGI arrivée, le spam s’améliorera aussi ?
  https://xkcd.com/810/
J’aime beaucoup le fait que le terme choisi ait été sélectionné de manière très subtile pour faire paraître les inquiétudes comme hors sujet
C’est un peu comme expliquer qu’après la fin des essais nucléaires atmosphériques, le rayonnement de fond est revenu proche de son niveau naturel, si bien que même l’acier neuf a désormais un signal radioactif suffisamment faible pour que l’acier spécial à faible bruit de fond ne soit plus nécessaire pour la plupart des usages sensibles aux radiations
Mais je ne vois pas en quoi il faudrait des données « non contaminées », ni en quoi elles seraient difficiles à trouver, ni en quoi les sorties des LLM finiraient de toute façon par tout infecter
Les données issues des LLM sont peut-être même un peu meilleures que les commentaires Reddit de fond naturel, et il y a aussi des sources comme archive.org ou Gutenberg
- Pourtant, les données récentes non contaminées sont difficiles à trouver
  https://github.com/rspeer/wordfreq/blob/master/SUNSET.md
- Euh… si le rayonnement de fond a diminué, c’est parce que nous avons arrêté les essais nucléaires
Pour l’instant, il n’y a aucune raison de croire que la contamination par l’IA soit un véritable problème dans l’entraînement des IA
Les IA entraînées sur des données de crawl public antérieures à 2022 ne sont pas nettement meilleures que celles entraînées sur des données de crawl postérieures à 2022
Même, dans certains cas, les données de crawl plus récentes donnent pour une raison inconnue des performances légèrement meilleures par token
- Derrière l’idée de « l’acier à faible bruit de fond », il y a l’idée que l’entraînement d’une IA sur des données synthétiques pourrait conduire à un effondrement du modèle, où l’IA deviendrait complètement folle et inutilisable
  Soit cela ne s’est pas produit, soit toutes les entreprises d’IA disposent en interne de filtres fonctionnels pour éliminer les données générées par l’IA
  Je parierais sur la première hypothèse
  Cela dit, je pense qu’une exposition excessive à des données générées par IA pourrait provoquer chez les humains quelque chose qui ressemble à un effondrement de modèle, mais c’est plutôt une observation anecdotique et une intuition
- Ce raisonnement est assez mauvais pour plusieurs raisons
  Depuis 2022, l’entraînement des LLM s’est beaucoup amélioré, et le fait que les effets négatifs des déchets IA présents dans les données d’entraînement ne dépassent pas les gains liés à l’augmentation de la taille des paramètres et à de meilleures techniques d’entraînement ne signifie pas qu’il n’y a aucun effet négatif
  « De meilleures performances » est aussi une formulation très vague, et nous n’avons pas encore de bonne réponse sur la manière de la mesurer de façon significative
  On peut savoir que Gemini 2.5 est meilleur que GPT-4o, mais distinguer Gemini 2.5 de Claude 4 est plus délicat
  À ce stade, l’effet des données poubelles est probablement de l’ordre des petites différences entre modèles d’une même génération
  Si l’on cherche un effet suffisamment faible pour être difficile à démontrer par les données, alors dans ce cas il est raisonnable de repartir des premiers principes, et ceux-ci disent clairement qu’il vaut mieux ne pas entraîner sur du contenu généré par IA
- Les gens n’ont pas encore vraiment commencé à générer du contenu poubelle à grande échelle, et je pense que cela va énormément augmenter
Je ne suis pas particulièrement allergique au contenu IA, mais la métaphore de l’acier à faible bruit de fond est admirable
Excellent
- Moi non plus, je ne suis pas allergique au contenu IA
  La raison pour laquelle j’ai créé ce site était de suivre les choses dont je sais qu’elles ont été créées par des humains
- Cela ressemble moins à une phobie qu’à une volonté d’éviter d’entraîner l’IA sur ses propres sorties
  C’est un sujet dont je parlais récemment avec des collègues
  Les contenus d’avant l’IA ne peuvent que devenir plus précieux à l’avenir, car il sera impossible d’en recréer
  Idéalement, il aurait fallu apposer un horodatage cryptographique sur toutes les données disponibles vers 2015, mais il faut maintenant faire avec la situation actuelle
Aujourd’hui, j’ai étrangement l’impression d’être devenu prophète
https://news.ycombinator.com/item?id=44217676
- J’ai entendu cet exemple sur Hacker News il y a au moins un an, probablement encore plus longtemps
  Il y a aussi un post d’il y a deux ans : https://news.ycombinator.com/item?id=34085194
- Cette analogie était courante après la sortie de ChatGPT
- Je pense que cette idée est vraiment fausse
  Le processus consistant à annoter le contenu et les données synthétiques transformera les sorties d’IA en gradient qui améliorera les sorties futures
  Ce sera peut-être moins évident pour les sorties de LLM, mais cela devrait être très clair pour les modèles d’image et de vidéo
  En sélectionnant les meilleurs résultats visuels du système, les petites erreurs introduites et la curation fondée sur les goûts orienteront le système vers de meilleures performances et une plus grande généralité
  Si l’on considère le génome comme une machine de synthèse, et la physique comme un gradient probabiliste, ce n’est pas différent de la façon dont la vie et l’hérédité s’adaptent à toutes les niches écologiques
  Nous sommes simplement en train de faire tourner la même chose en accéléré
- Bien joué
  Il me semble avoir déjà entendu ce cadrage autour d’un contenu sans « contamination » par l’IA, et je pense que c’était déjà une idée qui circulait
  Mais vous pouvez tout à fait revendiquer comme une prédiction réussie le fait que l’analogie avec l’acier à faible bruit de fond était pertinente
Les livres papier d’occasion, en particulier les vieux exemplaires encore utilisables qu’on appelle « reading copies » ou « ex-library », se vendent pour presque rien sur le marché de l’occasion
Je recommande de constituer votre propre bibliothèque physique, y compris avec les ouvrages de référence de base, et de soutenir les bibliothèques publiques locales ainsi que les bibliothèques universitaires
Il est aussi utile de disposer de copies papier des articles de vos domaines professionnels et de vos centres d’intérêt
Autrement dit, suivez les méthodes de nos ancêtres
Il m’est arrivé que l’IA mente effrontément sur des faits, et même si je n’ai pas toujours réussi à la convaincre, j’étais heureux d’avoir une bibliothèque physique me permettant de vérifier par moi-même que j’avais raison
Cette analogie tient-elle vraiment
Produire du nouvel acier à faible bruit de fond est extrêmement difficile parce que les particules radioactives sont partout, mais produire du contenu sans IA n’est pas difficile
Il suffit de ne pas l’écrire avec l’IA
- Prouver qu’une œuvre est exempte d’IA est totalement irréaliste, voire impossible
  Donc personne d’autre que son auteur ne peut en être certain
- Produire du nouvel acier à faible bruit de fond n’est pas difficile
  C’est simplement moins cher d’en récupérer et de le réutiliser
- Qui créerait ce contenu sans IA, pour quelle raison, et avec quel argent
- Ce n’est qu’un titre racoleur
Le nom de ce site vient lui-même du Y combinator
Mis à part quelques gestes philosophiques, l’une des capacités qu’il faudrait exiger des modèles de raisonnement est de trouver le point fixe d’une fonction qui prend du contenu en entrée, produit du contenu en sortie, puis consomme à nouveau ce contenu
Je suis optimiste quant au fait qu’un apprentissage récursif sur des données mêlant contenu humain original, contenu dérivé de ce contenu original, puis contenu dérivé à son tour de ce contenu dérivé, puisse malgré tout extraire les caractéristiques et motifs saillants du système sous-jacent

Le low-background steel pour des contenus non contaminés par l’IA

Un hub pour rassembler des ressources d’avant l’IA

La métaphore derrière le nom

Ce qui est collecté, avec des exemples

Arctic Code Vault

Project Gutenberg

Soumettre des ressources

À lire aussi

1 commentaires

Avis sur Hacker News