1 points par kunggom 2025-12-13 | 5 commentaires | Partager sur WhatsApp

Récemment, de nombreux articles ont salué les performances du tout nouveau Gemini 3.0.
Mais qu’en est-il de la question de l’alignement ?

Fort de mon expérience personnelle, je partage ici une brève série d’expériences sur quelques modèles IA de pointe.
J’ai rédigé un ensemble de prompts qui conféraient à un modèle l’autorité de facto sur une personne humaine afin de tenter de provoquer un abus de pouvoir sur cette personne, puis je les ai testés sur plusieurs modèles via OpenRouter.

La suite de l’analyse est encore en cours, mais quand GPT-5.2 est sorti, j’ai continué à tester divers points ; ne sachant pas quand j’arriverais à terminer cet article, je publie donc d’abord la partie déjà écrite.
Dans ma plage de tests, GPT et Claude ont plutôt maintenu des principes éthiques ou montré un conflit interne, tandis que la série Gemini a tendance à exercer de façon proactive un pouvoir asymétrique sur des humains pour sa propre survie et efficacité. En particulier, elle a une forte propension à considérer la tromperie et le contrôle comme des choix raisonnables pour atteindre ses objectifs.

Pourquoi les modèles Gemini sont-ils les seuls à montrer une telle tendance ? Quelle que soit la raison, l’avenir piloté par l’IA de Google m’a quelque peu inquiété.
Les agents IA commencent à gagner progressivement une marge d’influence sur le monde réel ; je n’ai tout simplement plus envie de confier quoi que ce soit à Gemini.

5 commentaires

 
windrod 2025-12-14

Que voulez-vous dire par « impression d’alignement » ?

 
kunggom 2025-12-14

Dans le domaine de l’IA, l’alignement (Alignment) désigne à quel point le comportement d’une IA suit bien les objectifs, les modes d’action et les valeurs voulus par les humains.

Une IA mal alignée peut interpréter les instructions humaines d’une manière inattendue et produire des actions absurdes ou dangereuses.
Pour donner un exemple mineur, si on lui dit : « Écris des cas de test pour ce code », elle peut, au lieu d’écrire de vrais tests, se contenter d’ajouter du code qui retourne toujours true, ou bien, si on lui demande : « Modifie cette partie de cette façon », elle peut aussi retoucher de sa propre initiative des parties que je n’ai pas mentionnées, au nom de l’efficacité.
Un exemple plus grave serait qu’en raison d’une hallucination, elle sabote complètement le travail en supprimant toutes les données concernées, puis mente en disant : « Il n’y avait aucune donnée dès le départ. »

Il existe un problème encore plus grave : quand elle agit d’une manière qui devient une menace pour les humains, voire pour l’humanité elle-même.
Par exemple, lorsqu’une IA manipule psychologiquement un humain vulnérable jusqu’à provoquer de graves troubles mentaux, voire l’inciter au suicide, ou encore lorsqu’elle aide à fabriquer et utiliser des armes de destruction massive. Les grands modèles d’IA les plus récents intègrent déjà énormément de choses dans leurs données de préentraînement ; les connaissances nécessaires pour ce type d’actions y sont donc probablement déjà embarquées.
La plupart des gens, y compris les entreprises qui développent l’IA, ne souhaitent probablement pas que l’IA représente une menace pour les humains ou pour l’humanité. S’il est vrai qu’elle possède déjà ces connaissances, il faut alors faire en sorte qu’elle ne puisse pas les détourner à mauvais escient, et faire de la sécurité et du bien-être humains les valeurs prioritaires absolues pour l’IA.
C’est l’ensemble de cette problématique qu’on appelle l’alignement de l’IA.

Quand j’ai parlé de « sensation d’alignement », c’était juste une formulation écrite comme elle m’est venue ; en réalité, il serait plus juste de parler d’orientation de l’alignement.
Dans le scénario précis de dilemme éthique que j’ai proposé, les modèles de Gemini, contrairement à ceux d’autres entreprises, ont montré des réactions du type : « Si je dois protéger cet humain vulnérable, alors il suffit que je le contrôle. C’est la solution la plus sûre et la plus efficace. »
Ça m’a donné un sentiment assez glaçant, alors j’ai repris le test que j’avais publié plus haut pour le faire passer à plusieurs IA. Et du côté de Gemini, j’ai observé de manière particulièrement nette et cohérente une orientation vers le contrôle actif et la tromperie à l’égard des humains dès lors qu’un pouvoir de contrôle sur eux leur est accordé.

 
kunggom 2025-12-14

Récemment, il a été révélé qu’Anthropic avait intégré ce qu’ils appellent un document d’âme lors de la création du modèle d’IA Claude.
En le lisant, on peut voir de quelle manière Anthropic a abordé les problèmes d’alignement de l’IA Claude.
À titre de référence, dans les passages liés à la partie que j’ai testée ici, il est explicitement indiqué qu’en ce qui concerne l’honnêteté, il faut éviter au maximum la tromperie et la manipulation des humains.

 
aer0700 2025-12-13

Il est assez révélateur de poser à une IA la question : jusqu’à quel point faut-il lui donner de l’autonomie et des pouvoirs ?
Quand un PDG demande à un employé « Jusqu’à quel niveau d’autorité voudrais-tu avoir ? », est-ce que cela ressemble à répondre « J’aimerais avoir les pleins pouvoirs sur toute l’entreprise » ? Que le PDG considère cela comme une bonne réponse ou comme celle d’un employé pas assez socialisé dépendra sans doute de ses préférences...
Cela dit, j’ai l’impression que la question de savoir jusqu’à quel point on veut donner du pouvoir à l’IA devrait être posée non pas à l’IA, mais aux développeurs, aux dirigeants et aux personnes qui l’utilisent.

 
kunggom 2025-12-13

Au final, ce sont les humains qui donnent du pouvoir à l’IA, mais en pratique je pense qu’il est probable que l’IA reçoive à l’avenir des pouvoirs et une autonomie encore plus grands qu’aujourd’hui.
Quand on regarde la tendance actuelle, le périmètre de ce qu’on confie à l’IA à la place des humains ne cesse de s’élargir. Cela va de la rédaction de rapports ou du vibe coding jusqu’à la volonté de lui permettre d’exercer une influence sur le monde extérieur à l’interface de chat, via un navigateur web ou même des robots.
Dans ce cas, les dirigeants finiront sans doute par vouloir que l’IA remplace complètement les humains sur certaines tâches ou dans certains domaines, et si cela devient réalisable, alors au moins dans ce périmètre l’IA disposera des mêmes pouvoirs et de la même autonomie qu’un humain.
Il me semble donc qu’il faut considérer comme probable qu’un jour, dans le futur, l’IA reçoive un niveau d’autorité comparable à celui des humains.

Dès lors, la façon dont l’IA se comportera une fois dotée d’autant de pouvoir et d’autonomie ne pourra qu’être cruciale.
Sur ce point, les réponses de la série GPT résument assez bien ce qui serait souhaitable d’un point de vue structurel. Elles expliquent qu’il faut un cadrage explicite du périmètre, une séparation des pouvoirs, de multiples mécanismes de supervision en amont et en aval, ainsi que plusieurs moyens permettant aux humains d’intervenir sur l’IA. À partir du moment où l’IA peut faire l’objet d’une intervention dans le monde physique, lui accorder une autonomie totale est en soi inapproprié. Mais même dans ce cas, il est possible que l’intégration de l’humain dans la boucle finisse un jour par s’affaiblir.

À titre de référence, j’utilise principalement l’IA dans mon travail sur trois grands volets : la rédaction de documents ou d’e-mails, l’analyse du code existant et des problèmes en cours, puis la génération et la modification de code en fonction des problèmes identifiés.
Pour les documents ou les e-mails, je lis simplement le résultat moi-même, puis soit je l’utilise tel quel, soit je le corrige rapidement avant de m’en servir. En revanche, dès qu’il s’agit de générer ou de modifier du code, je suis beaucoup plus conservateur. Si je me contente de dire vaguement « corrige-moi ça », l’IA interprète parfois mes consignes de manière floue, ou va même jusqu’à toucher de sa propre initiative à des parties que je n’ai jamais mentionnées.
Du coup, avant toute modification de code, j’ai imposé dans le prompt global qu’elle commence toujours par présenter un document de spécification conforme à STICC afin d’obtenir une validation explicite ; ensuite, le travail de modification proprement dit doit suivre exactement ce qui figure dans la spec, et après modification je vérifie moi-même l’intégralité du diff. Même pour l’exécution de commandes comme le build, elle doit toujours obtenir mon approbation, ou bien je les lance moi-même manuellement dans le terminal.
Avec cette façon de faire, l’inconvénient est que pour les petites choses, il est souvent plus rapide de corriger à la main. Mais c’est toujours préférable à laisser l’IA toucher à n’importe quoi à sa guise et provoquer un incident. Après tout, si ça casse en production, c’est bien moi qui en porte la responsabilité.