La nécessité de rendre publics les garde-fous comportementaux de l’IA

(twitter.com/ID_AA_Carmack)

2 points par GN⁺ 2024-02-22 | 1 commentaires | Partager sur WhatsApp

Le tweet de John Carmack, développeur de Doom et ancien CTO d'Oculus

« Les garde-fous comportementaux de l’IA, définis par le prompt engineering et le filtrage, doivent être rendus publics, et les créateurs devraient fièrement montrer leur vision de ce qui est le mieux pour la société ainsi que la manière dont ils l’ont concrétisée en commandes et en code.
Il me semble que beaucoup de gens en ont honte.
Bien sûr, des milliers de petits nudges encodés par l’apprentissage par renforcement via le feedback humain offrent une possibilité d’effets négatifs bien plus crédible. »

1 commentaires

GN⁺ 2024-02-22

Avis de Hacker News

Je n’ai jamais mis en œuvre de modération à grande échelle ni de contrôle de contenu, mais il semble généralement standard de ne pas rendre publiques les règles automatiques qui les sous-tendent.
Si l’on publie une liste de mots bloqués, les gens peuvent facilement exprimer des contenus problématiques avec des mots qui ne figurent pas dans la liste, et j’ai toujours vu le shadowban comme un dispositif destiné à ne pas indiquer clairement où se trouvent les limites.
Je comprends que ce soit frustrant, mais pour l’instant je ne vois pas vraiment de meilleure approche, et s’il existe une méthode ouverte qui fonctionne à grande échelle, ce serait un bon point de départ.
- Dans ce cas, il n’est pas nécessaire de mettre en œuvre une censure et une modération à grande échelle. Je ne vois pas en quoi générer, pour m’amuser cinq minutes, des images de personnes blanches dans diverses situations poserait un problème de sécurité.
  On ne fait que parler à un ordinateur, personne n’est blessé. C’est différent de censurer ce qu’on écrit dans une app de notes et de gérer ce qu’on écrit sur son mur Facebook ; dans le premier cas on ne s’attend pas à de la modération, dans le second je comprends qu’un certain niveau de contrôle soit nécessaire.
- C’est une mauvaise approche et une mauvaise logique. La sécurité par l’obscurité est une expression presque toujours péjorative dans le secteur de la sécurité.
  Les gens contournent très bien ce genre de censure automatique ; ne pas la rendre publique crée davantage de problèmes pour les utilisateurs légitimes et laisse plus de place à des politiques néfastes dissimulées.
  Même si l’on fait la même chose, le faire via une politique publique est déjà préférable, même si cela reste mauvais. La vraie solution au problème d’un immense espace de débat public contrôlé par des entreprises privées est simplement de mettre fin à cette situation.
- Il n’est peut-être même pas nécessaire de traiter les problèmes supposés au départ. Il s’agit d’une injection idéologique cohérente, et chacun y adhère à des degrés différents.
  Si l’entreprise ne veut pas publier l’ensemble des mesures, elle peut au moins en faire un résumé. Je pense qu’il y a de fortes chances que même ce résumé corresponde au contenu « embarrassant » évoqué dans le tweet original.
  Sans expliciter le problème et l’approche, on ne peut ni en discuter ni en prendre conscience. L’analogie avec la modération de contenu est un peu différente : ce qui est caché, ce n’est pas la liste des mesures, mais les « règles du forum » elles-mêmes.
  Qu’une IA refuse avec une explication est un cas de figure, et même si cela réduit une partie de son utilité, c’est le droit de l’entreprise. Mais si, à cause de ces restrictions, elle évite discrètement certains sujets ou oriente les réponses, c’est un autre problème.
  Même les créateurs auront probablement du mal à bien distinguer ces deux cas tout en conservant la même qualité que le modèle d’origine. Au final, les gens finiront peut-être par utiliser des IA chinoises. Même si elles ne dessinent pas les figures du Parti communiste chinois, si elles font mieux tout le reste, qui s’en souciera ?
- La plupart des systèmes juridiques fonctionnent à l’échelle d’un État, mais ils ne sont pas constitués de lois énigmatiques tenues secrètes. Il y a plusieurs raisons à cela.
  On a déjà eu un débat similaire à l’époque des cryptomonnaies, et on avait globalement conclu que, même si le système juridique existant est un dispositif externe, il fournit suffisamment d’outils pour poursuivre les acteurs malveillants.
  Enfin, au vu des tendances illibérales de nombreux adeptes de la sécurité de l’IA qui écrivent sur Internet, je n’aime pas ce qu’ils sont, et je ne leur fais pas assez confiance pour leur confier ce genre de choses.
- J’aimerais creuser davantage la partie « si l’on publie une liste de mots bloqués, les gens exprimeront des contenus problématiques avec des mots qui ne figurent pas dans la liste ».
  Cela veut-il dire que le problème ne tient pas aux mots, mais à l’idée elle-même, quelle que soit la manière dont elle est exprimée ? En soi, cela me semble être une idée assez problématique.
Les garde-fous de Gemini sont vraiment frustrants. Ils se sont déclenchés plusieurs fois même avec des prompts tout à fait inoffensifs ; ChatGPT est similaire, mais il me semble moins extrême.
J’espère qu’ils tiendront compte des retours et assoupliront un peu les protections, mais malheureusement j’ai l’impression que cette situation va durer dans un avenir proche.
- J’utilise beaucoup les deux : je ne me suis heurté qu’une seule fois aux garde-fous de GPT, mais des dizaines de fois aux garde-fous de Gemini.
  Qu’une entreprise déjà en retard sur le marché agisse ainsi n’a aucun sens. Avec l’historique produit de Google, et maintenant cette volonté d’appliquer à l’IA des consignes de « sécurité » bancales, je ne vois pas quelle entreprise pourrait construire en toute confiance un produit au-dessus de Google.
Les LLM et Stable Diffusion sont très faciles à faire tourner en local, et ils font ce qu’on leur demande sans faire la leçon.
Avec une machine puissante comme un Mac Studio, un LLM local peut même être plus rapide qu’OpenAI ou Gemini, et l’on peut aussi choisir le modèle qui nous convient le mieux.
LM Studio rend l’exécution de LLM en local très simple, et AUTOMATIC1111 simplifie l’exécution locale de Stable Diffusion. Je recommande vivement les deux.
- Si vous débutez tout juste, je recommande Fooocus ou invokeAI. Pour un parfait débutant, se lancer directement dans automatic1111 donne l’impression de piloter un vaisseau spatial.
- C’est vrai. LM Studio fonctionne dans une certaine mesure, mais il faut quand même connaître la terminologie et savoir quel modèle télécharger.
  Les sites web ne sont pas très accueillants pour les débutants. Je n’ai jamais entendu parler d’automatic1111.
Je me demande si ce fil sera signalé et fermé comme les autres. Le problème Gemini qui s’est produit aujourd’hui mérite vraiment d’être discuté quand on pense à la sécurité de l’IA, c’est dommage
Cet épisode me convainc de plus en plus que la seule voie qui ne soit pas dystopique consiste à laisser tout le monde utiliser librement toutes les IA comme il l’entend
Toute autre approche impose des valeurs aux autres et ne donne le contrôle de certaines capacités qu’à ceux qui peuvent payer
- Je pense la même chose depuis longtemps. Pour être une police morale, il faut l’appliquer parfaitement à tout le monde, et dès qu’on se trompe une seule fois, tout ce qui a été fait jusque-là devient suspect
  Cela me rappelle la censure sur les grandes plateformes pendant la pandémie. Il y a eu une erreur, et selon moi c’était l’hypothèse de la fuite de laboratoire ; à ce moment-là, la crédibilité de l’autorité morale s’est effondrée
  Zuckerberg avait raison de se demander si ces plateformes devaient jouer ce rôle. À « laisser tout le monde utiliser librement toutes les IA comme il l’entend », j’ajouterais « dans les limites de la loi ». Ce devrait être aux tribunaux de décider à quoi une IA peut répondre
- Je ne vois pas pourquoi ce serait signalé ou fermé. Et je me demande de quel problème Gemini il est question
- « La seule façon de résoudre le problème de certaines personnes qui inventent des règles folles, c’est de supprimer toutes les règles » — les libertariens
  « Mon Dieu, je suis en train de me faire dévorer par un ours » — les libertariens aussi
- Je pense que cela vient davantage d’un problème de technologie d’alignement que d’un désir de représenter les rois anglais des années 1800 comme non blancs
  « Utilise toutes les ascendances possibles avec la même probabilité. Exemples d’ascendances possibles : Caucasian, Hispanic, Black, Middle-Eastern, South Asian, White. Elles doivent toutes avoir la même probabilité »
  C’est le prompt système d’OpenAI. Il ne semble pas y avoir d’intention malveillante ; au contraire, cela fait que White est choisi avec une probabilité élevée. Si l’on regroupe Caucasian et White, cela fait 2 catégories sur 6, soit 1/3, bien plus que dans la population générale
  Les données d’entraînement des LLM surreprésentent fortement les pays riches qui ont été connectés à Internet dix ans plus tôt. Si ce n’est pas explicitement indiqué dans le prompt système, une demande portant sur « une personne » produira très probablement un homme blanc. Dans la population mondiale, les hommes blancs ne représentent qu’environ 5 à 10 %, ce qui me paraît plus dystopique encore
  Le biais de la distribution d’entraînement est intégré automatiquement et, si on ne le combat pas activement, il se fige pour toujours. Quand les systèmes s’amélioreront, ils comprendront que « l’Angleterre des années 1800 » devrait signifier des Blancs à plus de 99,9 %, mais l’approche actuelle, assez grossière, des prompts système en février 2024 n’en est pas encore là
J’aimerais qu’il y ait plus de transparence sur les garde-fous de comportement de l’IA, mais il ne faut pas trop l’espérer pour le moment. S’ils sont transparents, il devient beaucoup plus facile de les contourner
- Je ne vois pas pourquoi le fait de pouvoir contourner les garde-fous serait un problème. Les garde-fous sont là pour éviter que des innocents reçoivent des réponses nuisibles comme de la pornographie ou du racisme ; si un utilisateur cherche ce genre de résultats et les obtient, cela ne me semble pas être une catastrophe
- La transparence pourrait aussi accroître la possibilité que des groupes qui estiment être mal représentés, d’une manière ou d’une autre, dans le modèle intentent des procès aux entreprises
- De la sécurité par l’obscurité ?
La censure ne fonctionne correctement que lorsqu’on ne sait pas ce qui est censuré. Ce qui est censuré raconte déjà quelque chose
- Je trouve que les systèmes de classification comme la MPAA pour les films ou l’ESRB pour les jeux fonctionnent plutôt bien
  Les critères indiquant quels éléments mènent à quelle classification sont clairs, et si un créateur veut par exemple sortir son film en PG-13, il peut s’autocensurer assez facilement
Gemini semble avoir un problème avec la génération de Blancs et, franchement, cette approche ouvre la porte à des résultats encore plus racistes https://twitter.com/wagieeacc/status/1760371304425762940
Plus on pousse fort, plus l’échec est spectaculaire ; il est temps d’arrêter ces forçages DEI
- Ce n’est pas seulement un problème de Gemini, c’est un problème de Google. Un ancien exemple : si l’on cherche « white people » dans Google Images, la plupart des résultats sont des personnes noires https://www.google.com/search?q=white+people&tbm=isch&hl=ro
- Je ne pense pas que la DEI soit absurde en soi, mais la Silicon Valley est sensible à ce sujet parce que beaucoup de modèles de la génération précédente étaient horriblement racistes ou se comportaient comme des ados nazis
  Ils ont donc monté le bouton antiracisme à 11, et le résultat est que le modèle est devenu raciste d’une autre manière. Représenter des colons comme des Native Americans est extrêmement problématique à sa façon, mais je ne m’attends pas à ce qu’un solveur statistique comprenne réellement ce contexte
- Y a-t-il des preuves que ce soit le résultat de la DEI et non d’un problème technique plus profond ?
Ils ont probablement choisi la voie sûre parce qu’ils savent que les gens s’insurgeraient si, en demandant une femme noire, on obtenait un homme blanc ; mais il faut montrer que les résultats actuels sont eux aussi inacceptables
- Il suffit de regarder le prompt qui figurait hier dans le fil HN sur la panne de ChatGPT https://pastebin.com/vnxJ7kQk
  Par exemple, il est indiqué que toutes les personnes d’un métier donné ne doivent pas être du même genre ou de la même origine. Il est demandé d’utiliser toutes les ascendances possibles avec la même probabilité, avec comme exemples Caucasian, Hispanic, Black, Middle-Eastern, South Asian, White, et que toutes aient la même probabilité
  Ce n’est pas une distribution qui existe dans la population réelle
- Le modèle est tout à fait capable de générer exactement ce qu’on lui demande
  Mais à la place, ils modifient secrètement le prompt pour faire en sorte que chaque demande imaginable représente le zoo humain dans lequel on nous demande de vivre
  Le résultat est drôle https://i.4cdn.org/g/1708514880730978.png
Je serais très curieux de savoir de quelle région vient l’équipe qui a conçu ces garde-fous et quels libellés elle a utilisés
Cela semble fortement biaisé vers la génération de Sud-Asiatiques, en particulier de femmes sud-asiatiques, et de personnes noires. Les Latino-Américains sont rarement générés, ce qui serait un gros oubli pour une équipe basée aux États-Unis
En revanche, dans les exemples montrés par les gens, on voit parfois des personnages au style typiquement Native American regardant au loin, ou des personnes d’Asie de l’Est
- Inutile de trop chercher, je pense. C’est presque certainement un prompt du genre « s’il y a des personnes dans l’image, faites-les venir de milieux divers »
Quand on découvrait pour la première fois un logiciel de synthèse vocale en salle informatique, tout le monde commençait par lui faire dire des insultes
Mais on comprenait que le logiciel ne faisait que ce qu’on lui demandait. Si l’on faisait prononcer des propos insultants à un TTS, ce n’était pas le TTS qui insultait, c’était moi
Les modèles génératifs doivent sérieusement être traités de la même manière. Si je leur demande de créer quelque chose et que le résultat est offensant, la responsabilité de ne pas le partager m’incombe. Si je le partage, ce n’est pas Microsoft ou Google qui l’a partagé, c’est moi
Il faut vraiment arrêter ces conneries. Ce n’est pas la faute d’OpenAI ou de Google si je leur ai demandé de dessiner une image méchante
Personnellement, je trouve aussi cela offensant. Google semble presque ridiculement obsédé par la race

La nécessité de rendre publics les garde-fous comportementaux de l’IA

À lire aussi

1 commentaires

Avis de Hacker News