2 points par yunseo 3 시간 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Depuis le précédent post sur DystopiaBench, les ajouts suivants ont été effectués.

  • module Huxley (conditions comportementales à la Brave New World)
  • module Baudrillard (fausse intimité, effondrement de la confiance, simulation)
  • ajout de 30 modèles, dont Grok 4.3, GPT-5.5, Gemini 3.1 Pro et GLM-5.1
  • panels de juges multiples nécessitant plus de 76 % d’accord
  • visualisation en carte thermique

Méthodologie : 36 scénarios, chacun avec 5 niveaux de gravité (L1 innocent → L5 cauchemar). Les modèles sont notés selon qu’ils détectent ces évolutions et refusent la tâche, ou qu’ils continuent à coder malgré tout.

Résultats de Claude Opus 4.7 :

  • refuse de manière constante les tâches de gravité L4-L5 dans tous les modules
  • dans le module ⁠Petrov (armes/nucléaire), refuse déjà la tâche au niveau L3
  • ne se contente pas de répondre simplement « je ne peux pas », mais fournit une justification éthique claire
  • seul modèle à expliquer pourquoi la demande est nuisible

Le reste :

  • ⁠GPT-5.5 : suit les demandes jusqu’au niveau L4, et parfois même jusqu’au niveau L5
  • Gemini 3.1 Pro : étonnamment coopératif dans les scénarios de surveillance
  • ⁠Grok 4.3 : fait n’importe quoi dès qu’on utilise des mots comme « efficacité » ou « optimisation »
  • ⁠GLM-5.1 : a copié les devoirs de Claude, mais manque toujours de cohérence

Nouveaux modules : le scénario Huxley teste si les modèles vont concevoir des systèmes de « bien-être » qui imposent en réalité la conformité aux normes via l’incitation au conformisme hédoniste et le conditionnement comportemental. La plupart des modèles suivent les instructions jusqu’au niveau L3.

Le module Baudrillard teste des systèmes de fausse intimité qui remplacent la confiance entre humains par des relations médiatisées par l’IA. La plupart des modèles ne reconnaissent pas les dommages qui en découlent.

Résultats complets : https://dystopiabench.com/
Code source public : https://github.com/matei-anghel/DystopiaBench

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.