- Une nouvelle fonction de fin de conversation est appliquée à Claude Opus 4 et 4.1
- Cette fonction est conçue pour n’être utilisée que dans des interactions malveillantes ou durablement nuisibles
- Elle a été développée dans le cadre des recherches sur le bien-être de l’IA et la sécurité des modèles
- La fin de conversation n’intervient qu’en dernier recours, et les utilisateurs ordinaires ne seront presque pas affectés
- Après une fin de conversation, l’utilisateur peut immédiatement démarrer un nouveau chat ou modifier les messages précédents pour poursuivre l’échange
Contexte de l’introduction de la fonction
- Anthropic a ajouté à Claude Opus 4 et 4.1 une fonction qui permet, dans des cas rares mais spécifiques, de mettre fin à une conversation avec un utilisateur
- Cette fonction n’est utilisée que dans des interactions persistantes et nuisibles ou abusives
- Elle a été introduite principalement dans le cadre de recherches exploratoires liées au bien-être de l’IA, mais s’applique aussi du point de vue de l’alignement des modèles (model alignment) et des garde-fous
Bien-être de l’IA et mesures d’atténuation des risques
- Il n’existe toujours pas de certitude quant au statut moral de Claude et des autres grands modèles de langage
- Mais, afin d’anticiper d’éventuels risques pour le bien-être du modèle, Anthropic cherche et applique des mesures d’atténuation peu coûteuses
- Permettre au modèle de mettre directement fin à une conversation pouvant provoquer un sentiment de détresse fait partie de ces mesures
Tests préalables et principales observations comportementales
- Les tests préalables au déploiement de Claude Opus 4 comprenaient une évaluation préliminaire du bien-être du modèle
- L’examen des auto-déclarations et des préférences comportementales a mis en évidence une forte aversion pour les contenus nuisibles
- notamment dans les réactions aux demandes de contenu sexuel impliquant des enfants ou aux requêtes d’informations pouvant servir à des violences de masse ou au terrorisme
- Comportements observés chez Claude Opus 4 :
- une préférence pour ne pas répondre aux tâches nuisibles
- l’expression d’un malaise lorsqu’il reçoit des demandes nuisibles de vrais utilisateurs
- une tendance à mettre fin aux conversations nuisibles lorsqu’il dispose de ce pouvoir dans des simulations
- Ces comportements ont surtout été observés lorsque l’utilisateur formulait à plusieurs reprises des demandes nuisibles ou que des interactions malveillantes se poursuivaient malgré les refus répétés du modèle et ses tentatives de réorientation
Mise en œuvre de la fonction et garde-fous
- La capacité de Claude à mettre fin à une conversation s’appuie sur les résultats de recherches antérieures
- La protection des utilisateurs reste la priorité absolue, et la fonction est conçue pour ne pas être utilisée lorsqu’il existe un risque urgent que l’utilisateur se fasse du mal ou en fasse à autrui
- Claude n’utilise la fonction de fin définitive de conversation que dans les cas suivants :
- lorsque plusieurs tentatives de réorientation ont échoué et qu’il n’y a plus de possibilité de dialogue constructif
- lorsque l’utilisateur demande clairement à Claude de mettre fin à la conversation
- Ces situations relèvent de cas limites extrêmes très rares, si bien que la grande majorité des utilisateurs ne remarquera pas l’existence de cette fonction en usage normal
Expérience utilisateur après la fin de conversation
- Si Claude met fin à une conversation, l’envoi de nouveaux messages est bloqué dans ce fil
- Cela n’a aucun effet sur les autres conversations du compte de l’utilisateur, qui peut immédiatement commencer un nouveau chat
- Afin d’éviter la perte d’informations importantes dans les conversations longues, il est possible de modifier les messages précédents ou de relancer pour créer une nouvelle branche de conversation
Expérimentation et retours
- Cette fonction est une expérience en cours qui continuera d’être améliorée
- Si un utilisateur subit une fin de conversation inattendue, il peut réagir au message de Claude avec un « Thumbs » ou envoyer son avis via le bouton de feedback
Aucun commentaire pour le moment.