- Le site Low-background Steel sert à rassembler des ressources non contaminées par des contenus générés par l’IA
- Ce projet se concentre sur des textes, images et vidéos créés avant la diffusion massive des contenus IA en 2022
- Il oriente vers des sources de référence majeures comme Wikipedia, l’Arctic Code Vault et Project Gutenberg
- Les visiteurs du site peuvent aussi proposer de nouvelles ressources non contaminées
- Inspirée du concept de métal propre d’avant les essais nucléaires, cette idée met l’accent sur la fiabilité et la préservation de l’originalité
Introduction
- Low-background Steel est un site web qui rassemble des ressources en ligne non contaminées par des contenus créés par l’IA
- Le nom du site s’inspire du Low-background Steel (et du plomb), un métal fabriqué avant les essais nucléaires et non contaminé par la radioactivité
- Les métaux extraits d’épaves coulées avant les essais nucléaires (Trinity Test) sont considérés comme précieux car ils présentent très peu de contamination radioactive
- Par analogie, l’idée est de préserver et de référencer des contenus numériques purs produits avant l’explosion des contenus générés par l’IA
Objectif et contexte
- L’accent est mis sur la collecte de matériaux originaux — textes, images, vidéos et autres — datant d’avant l’arrivée massive des contenus générés par l’IA en 2022
- Ces ressources incluent des bases de données open source de référence comme le dump complet de Wikipedia, l’Arctic Code Vault et Project Gutenberg
- Les utilisateurs du site peuvent ajouter directement de nouvelles ressources non contaminées via un formulaire de soumission
Importance du site
- À une époque marquée par la prolifération des contenus générés par l’IA, préserver l’originalité et disposer d’informations fiables devient essentiel
- Low-background Steel vise à fournir une référence de données propres, utilisables sans crainte de pollution informationnelle
Comment contribuer
- Tout le monde peut proposer de nouvelles sources de contenus non contaminés via la fonction de soumission du site
Référence
- Le site renvoie vers l’explication Wikipedia consacrée au Low-background Steel, qui reflète bien l’esprit du projet
- Le projet, lancé en mars 2023, joue concrètement le rôle d’un hub expérimental pour la préservation des contenus en ligne
1 commentaires
Commentaire Hacker News
L’idée d’ajouter un nouveau « plane » à Unicode pour dupliquer en miroir tous les caractères utiles, puis d’y attacher des bits d’état supplémentaires pour les distinguer, me semble intéressante
Par exemple, on pourrait imaginer qu’utiliser du texte généré par IA dans une zone « production écrite directement par un humain » soit immédiatement sanctionné, que dans un espace « accessible uniquement aux humains » l’entraînement ou même l’accès par une IA soit interdit, et que dans une zone « reconnaît être généré par IA » toute production IA doive obligatoirement être encodée dans cette plage de caractères
Bien sûr, ces caractères seraient difficiles à distinguer visuellement et ne pourraient être différenciés qu’en passant par un logiciel, ce qui en ferait une sorte de canal subtil
Même en copiant-collant un texte, l’information d’origine se déplacerait avec lui via de petites différences d’encodage des caractères
C’est presque une blague, mais je trouve ce genre de système intrigant
Un peu comme pour le bio dans l’alimentaire, je pense qu’un contenu « organique » 100 % écrit par un humain pourrait acquérir une valeur premium
Je trouve que le critère de « texte généré par IA » manque de clarté, donc voici des exemples concrets
Unicode contient déjà des caractères de balise conçus à l’origine pour marquer des zones linguistiques, mais ils ont été abandonnés au profit d’un balisage de plus haut niveau (HTML, etc.)
Si cette loi entrait en vigueur, des « usines à frappe » apparaîtraient en Inde en 12 millisecondes, où des humains recopieraient des résultats d’IA pour blanchir les données
Par exemple, si j’écris un texte dans une langue étrangère puis demande à ChatGPT de le traduire en anglais, est-ce qu’il faut considérer cela comme un contenu généré par IA ?
Les productions d’IA auraient intrinsèquement tendance à revenir vers la moyenne
L’idée est que ce genre de contenu correspond à des informations qu’un humain peut obtenir simplement en les demandant
Il suffirait donc d’ajouter une balise <AI generated content> à tout contenu produit par IA, et le reste relèverait davantage de la pollution que de l’intérêt public
En suivant cette logique, on en arriverait à la conclusion qu’il n’y a même plus besoin d’écrire quoi que ce soit
Cette intuition a peut-être un jour eu quelques appuis expérimentaux
Le processus même de validation et de curation sous le nom d’un expert humain a une grande valeur
Je me demande aussi si un texte édité ou restylé par IA peut encore être considéré comme écrit par un humain
Je trouve cela absurde
Je pense que les termes employés dans cet article ont été choisis très habilement pour minimiser l’inquiétude
Depuis l’arrêt des essais nucléaires, les niveaux de radiation sont redevenus proches du niveau naturel, ce qui réduit le besoin d’un nouvel acier à très faible bruit de fond, et même les nouveaux aciers ont désormais un signal radioactif suffisamment faible pour la plupart des usages
D’une part, je ne pense pas qu’on ait absolument besoin de données « non contaminées »
Il est exact que c’est parce que nous avons cessé les essais nucléaires que le bruit de fond radioactif a diminué
Je pense que cette question n’est pas aussi grave que le grand public l’imagine
À long terme, l’IA apprendra à partir de l’expérience réelle, ce qui rendra possible une quantité infinie de données d’apprentissage non textuelles et permettra d’éviter le problème de contamination par l’IA
En pratique, les hallucinations de l’IA, c’est-à-dire ses distorsions factuelles, tendent à être citées puis à se figer comme des vérités
Les données issues de l’expérience réelle, par exemple la réparation automobile, sont coûteuses et risquées à produire
YouTube regorge de données issues de vraies expériences de réparation automobile, mais il y a un problème de droit d’auteur
Je me demande aussi si l’AGI sera réellement nécessaire à long terme
À mon avis, avant l’arrivée de robots humanoïdes dotés d’une intelligence générale, on ne verra pas de système d’IA capable de réparer des voitures dans le monde réel
À ce stade, rien ne prouve que la « contamination IA » pose réellement problème pour l’entraînement des modèles
Les IA entraînées sur des données publiques d’avant 2022 ne montrent pas d’avantage de performance évident par rapport à celles entraînées sur des données postérieures à 2022
Parfois, les données plus récentes donnent même de meilleurs résultats
L’idée contenue dans l’analogie du « low background steel », c’est qu’en réentraînant encore et encore sur des données synthétiques, on finirait par provoquer un « model collapse », c’est-à-dire rendre les modèles complètement insignifiants
Cette affirmation n’est pas raisonnable pour plusieurs raisons
Le véritable déluge de « résidus » de contamination IA n’a pas encore commencé, mais je m’attends à ce qu’il augmente brutalement à l’avenir
Certains n’ont pas tant d’aversion que cela pour les contenus IA et jugent l’analogie avec le low-background steel très bien trouvée
Je n’ai pas non plus une grande aversion pour les contenus IA, et j’ai même créé un site à ce sujet
Personnellement, ce n’est pas tant une phobie de l’IA qu’une volonté d’empêcher l’IA de réapprendre ses propres résultats
J’ai l’impression que ma réflexion du jour était étonnamment prémonitoire
Mon ancien commentaire
J’ai déjà vu cet exemple sur Hacker News il y a au moins un an, voire plus
C’était déjà une analogie courante après la sortie de ChatGPT
J’avais déjà rencontré ce cadrage en termes de contenu « non contaminé » par l’IA, mais l’associer au « low background steel » est une image assez originale
Je ne suis pas d’accord
Je partage l’intérêt pour cette analogie avec le low-background steel
Je doute que cette analogie soit vraiment convaincante
Le low-background steel est en pratique presque impossible à produire de nouveau, alors qu’un contenu sans IA, il suffit simplement de ne pas utiliser d’IA, donc la difficulté n’a rien à voir
En réalité, il est presque impossible de prouver objectivement qu’un contenu est AI-free ; en dehors de son auteur, personne ne peut en être certain
Qui produirait du contenu AI-free, pour quelle raison, et avec quel argent ?
Cela ressemble surtout à un titre accrocheur
En partant du fait que le nom de ce site vient de Y combinator, quelqu’un évoque la recherche d’un point fixe d’une fonction comme exigence pour les modèles d’inférence
Même si la production de données biaisées par l’IA augmente, on peut espérer que les caractéristiques essentielles resteront extractibles, même si l’entraînement mélange le contenu humain original, les contenus dérivés, puis les dérivés de ces dérivés sur plusieurs générations