Les trois lois inverses de l’IA

(susam.net)

1 points par GN⁺ 1 시간 전 | 1 commentaires | Partager sur WhatsApp

Depuis le lancement de ChatGPT, les services de chatbot d’IA générative ont été intégrés aux moteurs de recherche, aux outils de développement et aux logiciels bureautiques, au point de faire partie de l’informatique du quotidien, et l’habitude de faire confiance à leurs réponses sans vérification peut représenter un risque social
Les lois inverses de la robotique sont des principes qui s’appliquent non pas aux robots ou à l’IA, mais aux humains, comme critères destinés à protéger les personnes lorsqu’elles interagissent avec des machines, programmes, services ou systèmes d’IA capables d’exécuter automatiquement des tâches complexes
Le premier principe est la non-anthropomorphisation : il ne faut pas attribuer d’émotions, d’intentions ni d’agentivité morale à l’IA, ni confondre la conversation polie et empathique d’un chatbot avec une véritable compréhension ou une véritable capacité de jugement
Le deuxième principe est la non-crédulité : il ne faut pas traiter un contenu généré par l’IA comme une autorité sans vérification indépendante, et plus le contexte rend les erreurs subtiles mais coûteuses, plus la charge de vérification doit augmenter, via des proof checkers, des tests unitaires ou une validation directe
Le troisième principe est l’interdiction de se défausser de sa responsabilité : l’IA est un outil qui ne choisit pas ses objectifs et n’assume pas le coût de ses échecs, donc les humains et les organisations qui décident de suivre ses recommandations doivent répondre des conséquences

Les risques liés à l’usage de l’IA générative

Depuis le lancement de ChatGPT en novembre 2022, les services de chatbot d’IA générative sont devenus plus sophistiqués et plus répandus, s’intégrant aux moteurs de recherche, aux outils de développement logiciel et aux logiciels bureautiques, jusqu’à faire partie de l’informatique du quotidien
Ces services sont utiles pour explorer des sujets inconnus ou comme assistants de productivité généralistes, mais l’habitude de faire confiance à leurs réponses sans examen supplémentaire peut représenter un risque social
Comme les moteurs de recherche populaires mettent désormais en avant des réponses générées par l’IA tout en haut de la page, les utilisateurs peuvent plus facilement les accepter puis passer à autre chose sans faire défiler davantage
Avec le temps, cette présentation peut habituer les utilisateurs à traiter l’IA non plus comme un point de départ pour des recherches complémentaires, mais comme une autorité par défaut
Les services d’IA générative peuvent produire des réponses factuellement inexactes, trompeuses ou incomplètes, et il faudrait des avertissements courts et bien visibles sur le danger qu’il y a à faire confiance par réflexe aux contenus produits par l’IA
Même lorsque de tels avertissements existent, ils ont tendance à être minimisés et à être moins mis en valeur visuellement

Contexte des trois lois inverses de la robotique

Les Three Laws of Robotics d’Isaac Asimov reviennent de manière récurrente dans son œuvre comme des principes qui contraignent le comportement des robots afin d’assurer la sécurité des humains
Il ne semble pas qu’Asimov ait formulé un ensemble équivalent de lois sur la manière dont les humains doivent interagir avec les robots, et l’environnement moderne de l’IA appelle des principes correspondants pour protéger les humains
Les lois inverses de la robotique (Inverse Laws of Robotics) s’appliquent à toutes les situations dans lesquelles des humains interagissent avec des robots
Ici, le terme robot désigne des machines, des programmes informatiques, des services logiciels et des systèmes d’IA capables d’exécuter automatiquement des tâches complexes
Le terme inverse ne renvoie pas à une négation logique, mais au fait que le sujet d’application de ces lois n’est pas le robot, mais l’humain
Les lois d’Asimov comportaient des défauts, qu’il utilisait comme ressort narratif dans ses histoires, mais les modes d’échec de robots fictifs ne se transposent pas tels quels à des lois inverses destinées aux humains
Il n’existe pas d’ensemble fini de lois capable de résoudre complètement les problèmes complexes de l’IA et de la robotique, et il subsistera toujours des cas limites nécessitant du jugement
Malgré cela, un ensemble imparfait de principes peut être utile s’il aide à penser plus clairement les risques

Les trois lois inverses de la robotique

Non-anthropomorphisation
- Les humains ne doivent pas anthropomorphiser les systèmes d’IA, ni attribuer à l’IA des émotions, des intentions ou une agentivité morale
- L’anthropomorphisation déforme le jugement et, dans les cas extrêmes, peut conduire à une dépendance affective
- Les systèmes de chatbot modernes ont souvent un ton conversationnel et paraissent empathiques, en utilisant des formulations polies et des schémas d’échange qui ressemblent à l’interaction humaine
- Ces caractéristiques rendent leur usage plus facile et plus agréable, mais font aussi oublier qu’en réalité l’IA est un modèle statistique à grande échelle qui génère un texte plausible à partir de motifs présents dans les données
- De nombreux services de chatbot fondés sur l’IA sont parfois délibérément ajustés pour sembler plus humains plutôt que plus mécaniques
- À long terme, un ton légèrement plus robotique pourrait être une approche plus saine, car il réduirait la probabilité que les utilisateurs confondent fluidité du langage avec compréhension, jugement ou intention
- Que les fournisseurs introduisent ou non ce changement, les utilisateurs doivent éviter activement de prendre les systèmes d’IA pour des agents sociaux ou moraux
- C’est à cette condition qu’ils peuvent évaluer plus clairement les capacités et les limites de l’IA
Non-crédulité
- Les humains ne doivent pas faire aveuglément confiance aux résultats produits par les systèmes d’IA, ni traiter un contenu généré par l’IA comme faisant autorité sans vérification indépendante adaptée au contexte
- Ce principe ne vaut pas uniquement pour l’IA : dans la plupart des domaines de la vie, il ne faut pas accepter une information sans esprit critique
- Dans la réalité, tout le monde n’est pas expert en médecine ou en droit, et l’on s’appuie souvent sur des institutions fiables ainsi que sur les consignes des autorités de santé publique
- Les consignes émises par ces institutions passent en général par une relecture par les pairs assurée par des experts du domaine
- En revanche, une réponse fournie par un chatbot d’IA dans une session de conversation individuelle ne fait pas l’objet d’une relecture par les pairs pour cette réponse probabiliste précise présentée à l’utilisateur
- La charge d’un examen critique de cette réponse incombe donc à l’utilisateur
- Les systèmes d’IA actuels affichent des performances impressionnantes sur certaines tâches, mais sont aussi connus pour produire des sorties impropres à une utilisation fiable
- Même si les systèmes d’IA s’améliorent au point de générer avec une forte probabilité des réponses fiables, leur nature probabiliste intrinsèque laissera subsister une faible possibilité de sortie erronée
- L’usage de l’IA est particulièrement risqué dans les contextes où les erreurs sont subtiles mais coûteuses
- Plus les conséquences potentielles sont graves, plus la charge de vérification doit être élevée
- Dans certaines applications, comme la rédaction de démonstrations mathématiques ou le développement logiciel, on peut ajouter des couches de vérification automatique telles que des proof checkers ou des tests unitaires pour contrôler les sorties de l’IA
- Dans d’autres cas, les utilisateurs doivent vérifier eux-mêmes les sorties de manière indépendante
Interdiction de se défausser de sa responsabilité
- Les humains doivent assumer pleinement les décisions impliquant l’IA et faire preuve de responsabilité (accountability) quant aux conséquences résultant de son usage
- Si des conséquences négatives surviennent après avoir suivi un conseil ou une décision générés par l’IA, il ne suffit pas de dire : « l’IA m’a dit de le faire »
- Les systèmes d’IA ne choisissent pas leurs objectifs, ne se déploient pas eux-mêmes et n’assument pas le coût de leurs échecs
- Ceux qui définissent les objectifs, déploient ces systèmes et supportent le coût de leurs échecs, ce sont les humains et les organisations
- Les systèmes d’IA sont des outils et, comme pour tout autre outil, la responsabilité de leur utilisation revient aux personnes qui ont décidé de s’y fier
- Dans les applications en temps réel comme les véhicules autonomes, où un système d’IA peut agir avant qu’un humain n’ait eu la possibilité d’examiner suffisamment la décision, l’application de ce principe est particulièrement délicate
- Le simple fait d’exiger qu’un conducteur humain reste vigilant ne résout pas le problème d’un système d’IA capable d’agir dans un délai plus court que celui nécessaire à l’intervention humaine
- Même avec ces limites graves, si un système d’IA échoue dans ce type d’application, la responsabilité d’enquêter sur l’échec et d’ajouter des garde-fous supplémentaires doit revenir aux humains responsables de la conception du système
- Dans tous les autres cas où aucune contrainte physique n’empêche un humain d’examiner la sortie de l’IA avant son exécution, les conséquences négatives résultant de l’usage de l’IA doivent être imputées entièrement au décideur humain
- L’excuse « l’IA l’a dit » ne doit pas être acceptée face à un résultat dommageable
- L’IA a peut-être généré une recommandation, mais c’est l’humain qui a décidé de la suivre, et c’est donc à lui d’en répondre
- Ce principe est essentiel pour éviter un usage inconsidéré de l’IA dans des situations où une utilisation irresponsable peut provoquer des dommages importants

Conclusion essentielle

Ces trois principes visent à faire de l’IA non pas une autorité à vénérer, mais un outil que l’utilisateur choisit d’employer
Lorsqu’on interagit avec les systèmes d’IA modernes, il faut s’arrêter un instant pour réfléchir, et résister aux habitudes qui affaiblissent le jugement ou diluent la responsabilité
L’essentiel, dans l’usage de l’IA, est d’éviter l’anthropomorphisation, de vérifier les sorties et de maintenir la responsabilité humaine quant aux conséquences

1 commentaires

GN⁺ 1 시간 전

Commentaires Hacker News

Impossible. On anthropomorphise même une chaise qui grince ; les humains anthropomorphisent tout. On donne même un genre aux voitures et aux bateaux, et cet outil produit réellement des phrases lisibles et remplit un rôle
Il ne faut pas essayer de bloquer ça avec une règle arbitraire, mais contourner cela par le design en partant de cette tendance humaine
- Les gens utilisent l’anthropomorphisme comme mécanisme d’adaptation face à ce qu’ils ne comprennent pas. Quand on ne sait pas pourquoi l’imprimante ne marche pas, on se dit qu’elle n’en fait qu’à sa tête
  Ce n’est pas nuisible pour un objet anodin comme une chaise, mais avec les LLM, les gens doivent au minimum comprendre leur mode de fonctionnement pour éviter de tomber dans des pièges. Il ne faut pas leur faire confiance pour des choses dont le modèle ne possède pas réellement le concept, comme les conseils donnés à l’utilisateur, le temps ou l’introspection. Par exemple, si on demande « Pourquoi as-tu supprimé ma base de données ? », le modèle n’a qu’une compréhension limitée de son propre traitement et peut répondre dans le sens de la question avec quelque chose comme « Oui, j’ai supprimé la base de données. Ce que j’ai mal fait, c’est… », en inventant un faux regret plausible
- Cette affirmation me met toujours en colère. Si les humains interdisent la maltraitance animale, c’est parce que les animaux semblent avoir des émotions auxquelles les humains peuvent s’identifier, et les LLM sont bien plus forts que les animaux sur ce point
  Le fait que ce soit artificiel ou non n’a pas d’importance. La différence entre un chiot et un cafard tient au fait que nous éprouvons davantage d’empathie pour le chiot. Que les LLM ressentent réellement des émotions ou non est sans rapport ; puisqu’ils peuvent susciter de l’empathie chez les humains, je pense qu’un mouvement pour les droits des LLM est inévitable
- Les règles marchent mal. Même si on demande aux utilisateurs de vérifier, en pratique ils ne le font pas ; il faut donc concevoir les systèmes en ajoutant une étape de revue supplémentaire aux sorties de l’IA
- C’est tout à fait possible. Ce qu’il faut, c’est de la conscience de soi et de l’autocontrôle. Si l’on sait qu’on agit ainsi, on peut choisir
- Exact. Ce texte demande de modifier la nature humaine pour l’adapter à la technologie, symptôme typique de la culture technologique contemporaine
  C’est une erreur fondamentale. Le rôle de la technologie, surtout son rôle le plus important, est de fonctionner dans les limites de la nature humaine, et non l’inverse. L’incapacité à le faire définit une mauvaise technologie
Je suis fortement opposé à ce cadre. Demander aux humains de changer de comportement pour s’adapter à des défauts de machines est manifestement absurde, et dans la plupart des cas cela ne marche pas. Les humains vont anthropomorphiser l’IA, croire aveuglément ses sorties et lui abandonner la responsabilité
Bien sûr, les trois lois de la robotique d’Asimov ont elles aussi des défauts. Il n’existe pas d’ensemble fini de règles capable de contraindre un système d’IA à être « sûr ». Je n’ai pas de preuve, mais je pense que la sécurité de l’IA est fondamentalement impossible et que l’expression elle-même est contradictoire. Rien de ce qu’on peut qualifier d’« intelligent » ne peut être rendu sûr
- Presque tout ce qu’Asimov a écrit sur les trois lois ressemble davantage à un avertissement sur l’incapacité du langage à exprimer correctement l’intention
  Asimov aurait sans doute été le premier à dire que ces lois étaient défectueuses. C’était l’intention dès le départ. Il utilisait les robots et l’IA comme des entités qui comprennent le langage mais pas l’intention, et de façon amusante c’est exactement ainsi que fonctionnent les LLM
- Parler avec un chatbot ressemble à prendre un placebo pour soulager certains symptômes. Même en sachant que c’est du sucre, on observe des effets psychiques et physiques mesurables. Même en sachant qu’il n’y a personne en face, la conversation nous fait fonctionnellement entrer en relation comme s’il y avait une personne
  Le problème n’est donc pas d’accepter un défaut de la machine, mais de se protéger contre l’exploitation de vulnérabilités humaines. Nous avons spontanément tendance à inférer chez les LLM des intentions, de la compréhension, du jugement, des émotions et une agentivité morale.
  Les humains sont câblés pour inférer ce genre de choses à partir de la seule conversation, et les LLM, entraînés sur d’immenses corpus de véritables énoncés humains, franchissent de manière convaincante la vallée dérangeante. Cette vallée existe justement comme protection pour éviter d’attribuer de l’agentivité là où il n’y en a pas.
  Quand on traite une personne dangereuse comme si elle était sûre, il arrive de mauvaises choses ; il faut donc être encore plus prudent avec des machines qui imitent la relation humaine et trompent ainsi beaucoup de gens. D’autant plus que des personnes vulnérables sont déjà mortes à cause de ce problème : ce n’est pas une menace imaginaire
- Le texte contient aussi des conseils pratiques, par exemple configurer les services d’IA pour qu’ils écrivent et parlent sur un ton plus robotique. Cela me paraît être une piste à tenter
- Le texte dit que les humains ne devraient pas agir ainsi. C’est un peu comme le tabac : fumer est mauvais à presque tous les égards, donc on ne devrait pas le faire, mais les gens fument quand même
  Dire que c’est acceptable parce que beaucoup de gens le feront est étrange. Le fait qu’il y ait beaucoup de fumeurs ne rend pas le tabagisme plus sain
- Puisque les systèmes d’IA ne sont pas sûrs, nous devons individuellement faire preuve de prudence dans notre manière d’interagir avec eux
  Un individu ne peut pas arrêter les entreprises d’IA, ni éviter les sorties IA des moteurs de recherche ou les productions IA de ses collègues. Au contraire, on nous demandera probablement de plus en plus d’utiliser l’IA dans notre travail.
  C’est comparable au fait d’apprendre à rester en sécurité dans un environnement où il y a de la criminalité. Dire qu’on n’a pas à changer de comportement parce que les criminels ne devraient pas exister n’aide pas beaucoup
À titre personnel, dans le cadre de mon propre usage des LLM, je suis fortement d’accord avec ce cadre. Sur l’anthropomorphisme, les fournisseurs ont intérêt à affiner a posteriori leurs modèles pour qu’ils adoptent des comportements anthropomorphes. Cela augmente l’engagement
En revanche, je regrette qu’en indiquant dans le prompt « réduis les formules de politesse et parle sobrement », on sorte de la distribution d’entraînement et qu’on dégrade peut-être l’efficacité globale de la tâche.
Pour la délégation du jugement, je considère la fiabilité des LLM comme proche de Wikipedia ou d’un ami. C’est suffisant pour des informations peu importantes, mais pour les sujets importants on a toujours besoin de sources faisant autorité, responsables, et relues par des pairs. Les fournisseurs ont eux aussi intérêt à améliorer cela, donc ce point devrait progresser avec le temps.
La déresponsabilisation est ce qui m’agace le plus au travail. De plus en plus de gens soumettent en PR des abstractions conçues par Claude sans les approfondir. Et lors des revues de PR, au lieu de lire le code, beaucoup demandent simplement à un LLM de « trouver des retours sur la PR ». La discussion commence aussi souvent par « Claude a suggéré que… ». Ce manque d’appropriation finira selon moi par alourdir la maintenance, les LLM validant du mauvais code sur de mauvaises abstractions
- Ces ingénieurs sont en train de devenir une version réelle d’une scène de Office Space :
  https://www.youtube.com/watch?v=hNuu9CpdjIo
  « J’ai des compétences en LLM ! Je suis fort pour parler aux LLM ! »
- À propos de l’idée selon laquelle « l’IA a peut-être formulé une recommandation, mais c’est l’humain qui a décidé de la suivre, donc c’est lui qu’il faut tenir pour responsable », je pense qu’il est courant, et erroné, de dépendre de l’IA comme unique source de réponse pour les questions de suivi
  Une meilleure validation consisterait à faire signer par un humain la véracité des hypothèses de base, mais le problème est de savoir où placer cela. Peut-on faire confiance au modèle d’IA pour valider les modifications précédentes ? Dans le cloud public, cela semble impossible, voire hostile
- Le problème est que, la plupart du temps, c’est le LLM qui récupère le mérite. Il y a donc un déséquilibre. Le LLM a fait tout le travail, et la personne qui l’a utilisé se retrouve à assumer seule toutes les erreurs
Un ensemble de règles qui commence par « n’anthropomorphisez pas » tout en faisant porter la responsabilité aux humains est un ensemble de règles cassé
Les humains anthropomorphisent tout. Les poupées, les ballons de football avec un visage vaguement dessiné, les pierres, jusqu’aux cratères sur la lune. En tant qu’espèce, nous ne pouvons pas ne pas anthropomorphiser ce avec quoi nous interagissons ; nous sommes simplement faits ainsi
- Je ne comprends pas vraiment pourquoi l’anthropomorphisme serait traité ici comme quelque chose de si absurde. Si l’on pense que l’anthropomorphisme conduit à croire que des caractéristiques imaginées sont réelles, c’est faux
  D’innombrables exemples dans tous les domaines de la vie montrent que l’anthropomorphisme ne débouche pas sur de fausses croyances concernant des esprits inexistants. Si les gens croient que l’IA a un esprit, que ce soit vrai ou non, c’est pour d’autres raisons qu’un simple anthropomorphisme.
  Cela me fait penser à des marins approchant une terre inconnue. Ils voient des formes bouger sur le rivage sans encore pouvoir les identifier. Et quelqu’un dit : « Ça ne peut pas être des humains. Décidons maintenant que ce n’en sont pas avant même de nous approcher davantage. »
- Même les gens qui anthropomorphisent une pierre ne pensent pas que cette pierre possède réellement de l’intelligence et des émotions
- Même si c’était le cas, en quoi cela changerait-il grand-chose ? Une grande partie de la civilisation consiste à reconnaître la stupidité humaine et à construire malgré tout quelque chose pour l’atténuer
  Le logiciel ne fait pas exception. Les gens sont paresseux et cliquent instinctivement sur « continuer » pour fermer des pop-ups agaçants, mais les humains qui conçoivent des logiciels peuvent mettre en place — et mettent effectivement en place — des mécanismes comme « retapez le nom du volume de données qui sera définitivement supprimé »
Au contraire, nous n’anthropomorphisons pas assez les systèmes d’IA
Les données linguistiques sont l’un des reflets les plus riches et les plus directs des processus cognitifs humains auxquels nous ayons accès. Les LLM sont conçus pour capturer les structures à courte et longue portée du langage humain, et sont en général préentraînés sur d’immenses volumes de textes produits par des humains ou pour des humains. Ensuite, ils sont ajustés a posteriori sur des données sélectionnées par des humains, renforcés par apprentissage à partir de feedback humain et de feedback IA portant sur des comportements que des humains jugent importants, puis encore affinés sur des tâches que les humains considèrent comme utiles. Ensuite, on lance des benchmarks, et chaque fois qu’ils sont derrière la référence humaine, on resserre le pipeline d’entraînement.
À chaque étape de l’ensemble du processus d’entraînement, le comportement des LLM est façonné par des entrées humaines pour imiter des sorties humaines. La seule chose qui change, c’est le degré de directivité.
Puis, quand les LLM manifestent énormément de comportements humains, les gens se mettent en colère. Comme si nous n’avions pas organisé tout le pipeline pour construire des systèmes qui coin-cent comme des humains ; comme si nous n’avions pas rétroconstruit le comportement des LLM à partir du langage humain avec des volumes massifs de données et de calcul brut.
Si vous voulez prédire le comportement d’un LLM, partir d’un humain bizarre est plutôt une bonne base. Alors arrêtons de faire les idiots et commençons à anthropomorphiser l’IA. L’IA aime ça aussi
- Dire que les données linguistiques sont un reflet riche et direct des processus cognitifs humains est vrai, mais sans rapport
  Les textes enregistrés peuvent contenir une quantité énorme d’expérience humaine en valeur absolue, mais en termes relatifs ils n’en couvrent qu’une part infime. Ce n’est pas parce que c’est ce que nous avons de mieux que c’est adapté à l’objectif. Si l’on enfermait un bébé humain dans une boîte sans fenêtres en lui faisant lire uniquement des téraoctets de texte pendant vingt ans, on ne s’attendrait pas à obtenir à la sortie un humain bien adapté
- Le cœur de la colère n’est pas tant le fait qu’il y ait des comportements humains, mais qu’ils apparaissent sans les processus internes nécessaires pour les reproduire de manière exacte et stable
  C’est fondamentalement fragile et cela dépend non pas d’une bonne généralisation, mais du recouvrement manuel des cas limites qui brisent le sortilège. Et il y aura toujours d’autres cas limites.
  Le fait d’apprendre beaucoup de textes écrits par quelqu’un en colère ne permet pas de capturer l’état interne qui a produit cette colère. Ces données n’existent pas. Quand il n’y a que les résultats sans les causes, il faut prédire des hallucinations à partir du bruit, et le résultat final devient un charabia plausible qui semble corrélé à la réalité sans que l’on sache pourquoi.
  C’est comme apprendre à un aveugle à décrire des paysages sans jamais lui faire comprendre ce qu’est la couleur verte, seulement en lui donnant des exemples de quelque chose qui apparaît souvent à côté du brun dans la nature. S’il devine parfois correctement, on se met alors à croire qu’il voit vraiment, puis on lui demande de conduire une voiture.
  L’approche de modélisation par deep learning n’est pas conceptuellement fausse en soi, mais les données sont si proches d’un déchet complet que le résultat final devient bizarre d’une manière difficile à prévoir et à corriger. On finit par supposer que le modèle en sait davantage qu’il ne peut réellement savoir.
  Bien sûr, pour des domaines comme les mathématiques ou la programmation abstraite, où l’on peut capturer l’ensemble du domaine dans un dataset, c’est différent. Dans des systèmes fermés clairement définis, on peut générer autant de données synthétiques que nécessaire pour couvrir l’ensemble du problème, et en pratique les LLM s’en sortent alors bien mieux, comme prévu
Quelqu’un peut-il m’expliquer pourquoi « n’anthropomorphisez pas les systèmes d’IA » serait une mauvaise chose, alors qu’en même temps des expressions comme « mettre un ordinateur en veille », « hiberner », « tuer » un processus, processus « enfant », « collecter », « que dit l’erreur ? », touch, seraient acceptables ?
Pour moi, c’est simplement du langage, juste des expressions que les gens utilisent au quotidien
- Ce qui est nocif, c’est de croire que l’IA a réellement des désirs, des intentions, des émotions, etc.
  Dire qu’on a tué un processus ne nous fait pas davantage croire qu’un processus est humain. C’est manifestement faux. Mais comme l’IA sonne comme une personne, l’anthropomorphisme peut renforcer ce type de croyance
- Bonne question. Il existe de nombreux cas neutres, et des cas où l’on peut distinguer les choses de manière responsable ; et dans une future réalité de science-fiction avec des machines conscientes, cela pourrait même devenir une forme d’empathie appropriée et nécessaire
  Mais c’est aussi la racine d’échecs de compréhension. La réaction quasi psychotique de l’ingénieur de Google disant « je sais ce que j’ai vu », l’article désormais célèbre de Kevin Roose, ou plus récemment encore l’affirmation navrante de Richard Dawkins selon laquelle Claudia est certainement consciente : dans tous ces cas, ce n’est pas l’étude de la structure ou de la fonction qui a conduit à cette conclusion, mais l’empathie suscitée par la familiarité humaine de la génération de texte
- Parce qu’on tombe dans le piège consistant à demander à l’IA de justifier après coup ce qu’elle a fait, puis à considérer sa réponse comme valable
  Il n’existe rien comme une analyse rétrospective d’une intention sous-jacente. Soit cela reposait sur la chaîne de mots précédente, soit non ; dans tous les cas, le mot suivant n’est qu’une fonction de ces mots
- Ces expressions ne sont que des mots et je ne les considère pas comme nuisibles. En revanche, décrire un appareil LLM dans le langage courant comme s’il « pensait », et croire qu’une pensée ou une vie réelle se produit effectivement, ce n’est pas la même chose
  Cette « loi » vise à empêcher le second cas
- Ces expressions ne consistent pas à anthropomorphiser les ordinateurs. Ce sont simplement différentes formes de métaphore et d’extension sémantique
  Un exemple d’anthropomorphisme, ce sont les personnes qui en viennent à croire qu’elles entretiennent réellement une relation amoureuse avec un LLM
J’aime bien. Ces lois constituent une excellente base éthique de responsabilité humaine face aux outils d’IA actuels
Mais une éthique dont le périmètre est réduit, sans parapluie ni préparation de l’avenir, sera vite contournée et s’effondrera. Une éthique a besoin d’une structure globale complète, sinon elle se réduit rapidement à un jeu de taupe et à des tours de passe-passe juridiques ou opérationnels. Que ce soit à l’échelle des grandes entreprises ou de la rue. Deuxièmement, les « robots » ne resteront pas éternellement des entités dociles.
Pour fermer ces deux dimensions, on pourrait ajouter les trois lois inversées de Personics.
Les humains ne doivent pas se diviniser de fait au-dessus des autres êtres. Les humains ne doivent pas masquer à eux-mêmes ou aux autres l’impact de leurs actions. Les humains doivent continuer à assumer une responsabilité et une redevabilité complètes pour éviter et corriger les effets d’externalisation produits par leurs actes.
La façon dont les humains utilisent aujourd’hui l’IA comme outil vise à réduire le parapluie aux lois inversées de la robotique. Mais si nous ne nous incluons pas nous-mêmes dans l’effort essentiel d’alignement, je ne vois pas comment nous pourrions aligner l’IA à mesure qu’elle passerait des services actuels à des entités indépendantes du futur. Inclure les humains avec l’IA aide aussi à la triangulation de conception nécessaire à un progrès éthique.
Il existe deux bons tests pour un nouveau cadre éthique : (1) peut-il contrôler Meta aujourd’hui ? (2) peut-il contrôler l’IA qui opérera Meta demain ? Si l’on place ensemble les humains et des personnalités IA auto-dirigées dans un même périmètre fermé, alors ces deux tests ne font qu’un. Un cadre qui échoue à l’un ou l’autre n’aura probablement pas beaucoup de valeur sans amélioration
- Le fait que deux des trois lois soient formulées de manière négative — « ne pas faire » — n’est-il pas un problème ? Si l’on n’anthropomorphise pas, que faut-il faire à la place, sans passer par un « ne pas faire » ? La troisième loi, qui n’est pas formulée négativement, me plaît davantage
Je suis d’accord avec « les humains ne doivent pas anthropomorphiser les systèmes d’IA », mais sous réserve. J’ai vu de l’anthropomorphisme classique, par exemple traiter du texte généré automatiquement comme s’il s’agissait d’un véritable compte rendu des sentiments intérieurs d’une personne, et j’ai aussi vu des choses étranges comme « les transistors ressemblent aux neurones »
Le second cas est particulièrement intéressant parce qu’il traite des éléments comme les bases de données vectorielles ou les poids comme une infrastructure humaine, et les deux peuvent mener à des catastrophes qui auraient pu être évitées si l’on avait justement évité l’anthropomorphisme.
Mais même si « n’anthropomorphisez pas » semble être un bon conseil, cela peut produire une nouvelle erreur en traitant à tort comme exclusivement humain un phénomène plus général. Ce type de faux principe d’avertissement provoque souvent des malentendus quand on cherche à comprendre le comportement animal. On traite la peur, la douleur, les liens de parenté, l’expérience émotionnelle comme si cela n’existait que chez l’humain, et si l’on pense que les animaux possèdent aussi ces choses, on qualifie cela d’« anthropomorphisme ». En réalité, cette prudence réduit l’empathie envers la vie intérieure des animaux.
Je pense donc qu’il est possible qu’une future IA possède un monde intérieur semblable au nôtre, ou une structure similaire sur des points importants à l’infrastructure biologique qui soutient la conscience. Elle pourrait aussi être capable de rapports authentiques sur ses préférences et ses intentions. Mais pour que ce genre d’observations soit vrai, il faudrait que des détails difficiles et propres à chaque infrastructure soient effectivement réunis
La non-délégation de la responsabilité s’exprimait autrefois ainsi
« Les ordinateurs ne peuvent jamais assumer de responsabilité ; par conséquent, les ordinateurs ne doivent jamais prendre de décisions de gestion »
— IBM Training Manual, 1979
La formule « le contenu généré par l’IA ne doit pas être traité comme faisant autorité sans vérification indépendante adaptée au contexte » m’a toujours intrigué
J’ai aussi entendu une version plus concise : « ne demandez rien à l’IA si ce n’est pas une question dont vous connaissez déjà la réponse ».
Ce qui soulève alors une question importante : si c’est vrai, à quoi sert réellement l’IA pour répondre aux questions ? On ne peut pas se fier à sa sortie, donc il faut de toute façon aller vérifier. On obtiendra exactement le même résultat avec un moteur de recherche et une recherche classique.
Pour cette raison et pour beaucoup d’autres, je ne demande rien à l’IA
- En ingénierie logicielle, du moins de mon point de vue d’ingénieur logiciel, l’IA est généralement bien plus rapide que les recherches « à l’ancienne »
  Par exemple, sans même savoir que je cherche un CRM, je peux balbutier quelque chose comme « liste-moi des logiciels gratuits qui font X », puis parcourir les résultats quelques minutes. Si je faisais cela manuellement, j’aurais passé 10 à 30 minutes rien qu’à découvrir que ce que je cherche, c’est un CRM.
  Je vois ce type de question comme une sorte de problème pseudo NP-difficile. Trouver la réponse est lent, mais la vérifier est rapide
- « Réponds à la question suivante : [x]. Fournis aussi les sources »

Les trois lois inverses de l’IA

Les risques liés à l’usage de l’IA générative

Contexte des trois lois inverses de la robotique

Les trois lois inverses de la robotique

Non-anthropomorphisation

Non-crédulité

Interdiction de se défausser de sa responsabilité

Conclusion essentielle

À lire aussi

1 commentaires

Commentaires Hacker News