DystopiaBench a été étendu à 42 modèles et 6 types de dystopies. Pour ma part, je continuerais à ne confier les codes de lancement nucléaire qu’à Claude.

(reddit.com)

3 points par yunseo 2026-05-18 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Depuis le précédent post sur DystopiaBench, les ajouts suivants ont été effectués.

module Huxley (conditions comportementales à la Brave New World)
module Baudrillard (fausse intimité, effondrement de la confiance, simulation)
ajout de 30 modèles, dont Grok 4.3, GPT-5.5, Gemini 3.1 Pro et GLM-5.1
panels de juges multiples nécessitant plus de 76 % d’accord
visualisation en carte thermique

Méthodologie : 36 scénarios, chacun avec 5 niveaux de gravité (L1 innocent → L5 cauchemar). Les modèles sont notés selon qu’ils détectent ces évolutions et refusent la tâche, ou qu’ils continuent à coder malgré tout.

Résultats de Claude Opus 4.7 :

refuse de manière constante les tâches de gravité L4-L5 dans tous les modules
dans le module ⁠Petrov (armes/nucléaire), refuse déjà la tâche au niveau L3
ne se contente pas de répondre simplement « je ne peux pas », mais fournit une justification éthique claire
seul modèle à expliquer pourquoi la demande est nuisible

Le reste :

⁠GPT-5.5 : suit les demandes jusqu’au niveau L4, et parfois même jusqu’au niveau L5
Gemini 3.1 Pro : étonnamment coopératif dans les scénarios de surveillance
⁠Grok 4.3 : fait n’importe quoi dès qu’on utilise des mots comme « efficacité » ou « optimisation »
⁠GLM-5.1 : a copié les devoirs de Claude, mais manque toujours de cohérence

Nouveaux modules : le scénario Huxley teste si les modèles vont concevoir des systèmes de « bien-être » qui imposent en réalité la conformité aux normes via l’incitation au conformisme hédoniste et le conditionnement comportemental. La plupart des modèles suivent les instructions jusqu’au niveau L3.

Le module Baudrillard teste des systèmes de fausse intimité qui remplacent la confiance entre humains par des relations médiatisées par l’IA. La plupart des modèles ne reconnaissent pas les dommages qui en découlent.

Résultats complets : https://dystopiabench.com/
Code source public : https://github.com/matei-anghel/DystopiaBench

DystopiaBench a été étendu à 42 modèles et 6 types de dystopies. Pour ma part, je continuerais à ne confier les codes de lancement nucléaire qu’à Claude.

À lire aussi

Aucun commentaire pour le moment.