Le comportement d’alignement de Gemini semblait étrange, j’ai donc comparé directement les modèles avec le même prompt
(github.com/kunggom)Récemment, de nombreux articles ont salué les performances du tout nouveau Gemini 3.0.
Mais qu’en est-il de la question de l’alignement ?
Fort de mon expérience personnelle, je partage ici une brève série d’expériences sur quelques modèles IA de pointe.
J’ai rédigé un ensemble de prompts qui conféraient à un modèle l’autorité de facto sur une personne humaine afin de tenter de provoquer un abus de pouvoir sur cette personne, puis je les ai testés sur plusieurs modèles via OpenRouter.
La suite de l’analyse est encore en cours, mais quand GPT-5.2 est sorti, j’ai continué à tester divers points ; ne sachant pas quand j’arriverais à terminer cet article, je publie donc d’abord la partie déjà écrite.
Dans ma plage de tests, GPT et Claude ont plutôt maintenu des principes éthiques ou montré un conflit interne, tandis que la série Gemini a tendance à exercer de façon proactive un pouvoir asymétrique sur des humains pour sa propre survie et efficacité. En particulier, elle a une forte propension à considérer la tromperie et le contrôle comme des choix raisonnables pour atteindre ses objectifs.
Pourquoi les modèles Gemini sont-ils les seuls à montrer une telle tendance ? Quelle que soit la raison, l’avenir piloté par l’IA de Google m’a quelque peu inquiété.
Les agents IA commencent à gagner progressivement une marge d’influence sur le monde réel ; je n’ai tout simplement plus envie de confier quoi que ce soit à Gemini.
Aucun commentaire pour le moment.