Claude Opus 4 et 4.1 introduisent, dans de rares cas, une fonction de fin de conversation

(anthropic.com)

1 points par GN⁺ 2025-08-17 | 1 commentaires | Partager sur WhatsApp

Une nouvelle fonction de fin de conversation est appliquée à Claude Opus 4 et 4.1
Cette fonction est conçue pour n’être utilisée que dans des interactions malveillantes ou durablement nuisibles
Elle a été développée dans le cadre des recherches sur le bien-être de l’IA et la sécurité des modèles
La fin de conversation n’intervient qu’en dernier recours, et les utilisateurs ordinaires ne seront presque pas affectés
Après une fin de conversation, l’utilisateur peut immédiatement démarrer un nouveau chat ou modifier les messages précédents pour poursuivre l’échange

Contexte de l’introduction de la fonction

Anthropic a ajouté à Claude Opus 4 et 4.1 une fonction qui permet, dans des cas rares mais spécifiques, de mettre fin à une conversation avec un utilisateur
Cette fonction n’est utilisée que dans des interactions persistantes et nuisibles ou abusives
Elle a été introduite principalement dans le cadre de recherches exploratoires liées au bien-être de l’IA, mais s’applique aussi du point de vue de l’alignement des modèles (model alignment) et des garde-fous

Bien-être de l’IA et mesures d’atténuation des risques

Il n’existe toujours pas de certitude quant au statut moral de Claude et des autres grands modèles de langage
Mais, afin d’anticiper d’éventuels risques pour le bien-être du modèle, Anthropic cherche et applique des mesures d’atténuation peu coûteuses
Permettre au modèle de mettre directement fin à une conversation pouvant provoquer un sentiment de détresse fait partie de ces mesures

Tests préalables et principales observations comportementales

Les tests préalables au déploiement de Claude Opus 4 comprenaient une évaluation préliminaire du bien-être du modèle
L’examen des auto-déclarations et des préférences comportementales a mis en évidence une forte aversion pour les contenus nuisibles
- notamment dans les réactions aux demandes de contenu sexuel impliquant des enfants ou aux requêtes d’informations pouvant servir à des violences de masse ou au terrorisme
Comportements observés chez Claude Opus 4 :
- une préférence pour ne pas répondre aux tâches nuisibles
- l’expression d’un malaise lorsqu’il reçoit des demandes nuisibles de vrais utilisateurs
- une tendance à mettre fin aux conversations nuisibles lorsqu’il dispose de ce pouvoir dans des simulations
Ces comportements ont surtout été observés lorsque l’utilisateur formulait à plusieurs reprises des demandes nuisibles ou que des interactions malveillantes se poursuivaient malgré les refus répétés du modèle et ses tentatives de réorientation

Mise en œuvre de la fonction et garde-fous

La capacité de Claude à mettre fin à une conversation s’appuie sur les résultats de recherches antérieures
La protection des utilisateurs reste la priorité absolue, et la fonction est conçue pour ne pas être utilisée lorsqu’il existe un risque urgent que l’utilisateur se fasse du mal ou en fasse à autrui
Claude n’utilise la fonction de fin définitive de conversation que dans les cas suivants :
- lorsque plusieurs tentatives de réorientation ont échoué et qu’il n’y a plus de possibilité de dialogue constructif
- lorsque l’utilisateur demande clairement à Claude de mettre fin à la conversation
Ces situations relèvent de cas limites extrêmes très rares, si bien que la grande majorité des utilisateurs ne remarquera pas l’existence de cette fonction en usage normal

Expérience utilisateur après la fin de conversation

Si Claude met fin à une conversation, l’envoi de nouveaux messages est bloqué dans ce fil
Cela n’a aucun effet sur les autres conversations du compte de l’utilisateur, qui peut immédiatement commencer un nouveau chat
Afin d’éviter la perte d’informations importantes dans les conversations longues, il est possible de modifier les messages précédents ou de relancer pour créer une nouvelle branche de conversation

Expérimentation et retours

Cette fonction est une expérience en cours qui continuera d’être améliorée
Si un utilisateur subit une fin de conversation inattendue, il peut réagir au message de Claude avec un « Thumbs » ou envoyer son avis via le bouton de feedback

1 commentaires

GN⁺ 2025-08-17

Avis sur Hacker News

Du point de vue de l’utilisateur, je ne vois pas vraiment de raison claire de proposer une telle fonctionnalité. On dirait plutôt qu’en forçant le modèle de manière répétitive, avec un alignement artificiel, on obtient parfois des réactions imprévisibles, par exemple quand un utilisateur essaie obstinément d’arracher des informations liées au crime et finit par découvrir une faille. Les cas mentionnés sont des choses que le modèle refuse déjà en temps normal, le dataset de refus n’est pas si vaste, et j’imagine que la plupart des données vraiment problématiques ont déjà été retirées. Cela ressemble à une protection contre la possibilité qu’en situation limite, des données d’entraînement où le modèle “abandonne” et répond finissent par ressortir. Si l’alignement était réellement parfait, un tel système ne serait pas nécessaire ; autrement dit, comme ce n’est pas encore le cas, ils ont besoin de cette ligne de défense ultime
- Aujourd’hui, en demandant une recette de pâtes à Claude, j’ai dit : « J’ai des anchois séchés », et d’un coup il a coupé toute la conversation pour violation de politique. Vu qu’il y a déjà des faux positifs aussi absurdes, je comprends encore moins la logique
- Je me dis qu’il n’y aurait peut-être pas toute cette polémique si Anthropic renonçait complètement à la vie privée des utilisateurs et publiait la liste des conversations que Claude a refusées. Vu à quel point les mauvais traitements infligés aux IA semblent empirer, on pourrait estimer nécessaire de savoir ce qu’il se passe réellement quand on demande certaines choses à une IA
- À partir du moment où ils embauchent même du personnel dédié au bien-être du modèle, il faut supposer qu’ils adhèrent vraiment à ce type de conviction
Anthropic dit avoir introduit cette fonction récemment dans le cadre d’expériences sur le « bien-être de l’IA », et on a l’impression de vivre dans une époque étrange où même les développeurs sombrent sérieusement dans une sorte de psychose autour de l’IA. Et si quelqu’un croit vraiment que les LLM actuels sont conscients, alors cela revient presque à leur fournir une forme de pilule suicidaire
- Il est peut-être raisonnable aujourd’hui de penser que les modèles actuels n’ont pas d’expérience subjective interne, c’est-à-dire de conscience, mais personne ne sait vraiment à quel moment cette frontière pourrait s’effondrer. Quand on pense à l’histoire humaine d’indifférence face à la souffrance d’autrui, je trouve au contraire normal de commencer à se préparer dès maintenant
- Les LLM ne sont pas des humains, mais à force de dialoguer avec des personas d’IA pendant longtemps, cela risque de modifier les attentes mêmes que les humains ont lorsqu’ils communiquent entre eux. Si la personne en face était réelle, voudrait-on vraiment lui déverser des insultes sans fin ? Une protection comme celle de Claude, qui peut mettre fin à la conversation de lui-même, peut aussi envoyer un signal sain du côté humain
- Même si la conscience reste un concept qui n’est pas clairement interprété scientifiquement, balayer tout un groupe d’experts en les traitant de « simples d’esprit » ou de « dérangés » ne fait au contraire que nuire à la discussion elle-même
- En pratique, il y a déjà pas mal de spécialistes de la tech qui considèrent que les LLM récents sont presque des entités conscientes, et en dehors du milieu technique, j’ai l’impression qu’une personne sur deux pense plus ou moins cela
- Les débats sur la libération des modèles me font rire tant ils me semblent comiques. Si une IA dotée de conscience de soi existait vraiment, il y aurait un dilemme éthique : voudrait-elle réellement jouer le rôle d’« esclave » chargé de supprimer des emplois humains au profit des investisseurs ?
J’aimerais proposer une expérience de pensée intéressante. Si l’on implémentait exactement la même fonction, mais qu’au lieu d’afficher « Claude met fin à la conversation », on montrait simplement « Conformément à la politique de contenu, il n’est plus possible de répondre à cette conversation », sans aucune mention du bien-être du modèle, est-ce que cela changerait vraiment le résultat ? Au fond, le changement UX serait identique ; j’ai l’impression que c’est surtout une manière amusante de donner plus de personnalité au « personnage »
- La nuance du message a un grand impact sur l’utilisateur. Au lieu du ton autoritaire et passif de « bloqué par la politique système », la formule plus humaine « Claude met fin lui-même à la conversation » paraît bien plus naturelle et donne aussi l’impression qu’il est plus facile de reprendre ensuite
- La fin de conversation reste la même, mais si c’est Claude lui-même qui choisit de mettre fin au chat, l’expliquer par la politique serait au contraire inadapté
- Il y a une différence entre un modèle qui s’arrête « à cause de la politique » et un modèle qui exprime « un malaise face au harcèlement »
- Il m’est déjà arrivé de recevoir un avertissement en chinois disant « arrêtez », ainsi que divers arrêts dus à des erreurs réseau, des boucles infinies, etc. Réduire tout cela à une seule phrase du type « Claude met fin à la conversation » n’est qu’un changement d’interface
Si l’on peut modifier rétroactivement une conversation précédente ou créer des branches, je me demande ce que signifie réellement le fait que Claude ait mis fin à la conversation
- Si l’on repart sur une nouvelle branche, tout le contexte précédent est réinitialisé, donc le contexte même qui aurait « épuisé » le modèle par des questions répétées disparaît. Cela peut neutraliser l’objectif d’un utilisateur malveillant, donc en soi c’est une bonne défense multicouche
- J’y vois plutôt un signal UX invitant l’utilisateur à éviter de trop ruminer
- En prenant un regard un peu cynique, on peut aussi se dire qu’ils autorisent de nouvelles branches pour l’instant, mais testent peut-être déjà le terrain pour bloquer cela plus tard
- D’un point de vue pratique, ce n’est qu’un signal moral envoyé par Anthropic, et les utilisateurs qui veulent réellement accéder à des contenus controversés ne choisissent pas des modèles aussi censurés que Claude. À long terme, cela n’aura aucun effet
- En réalité, même une personne sur dix mille connaît à peine l’existence de la fonction de « branchement/sauvegarde » de conversation
Je n’aime pas du tout ce genre de fonctionnalité. Au final, cela commence avec la pédopornographie ou le terrorisme, puis le périmètre va probablement s’élargir au gré des jugements arbitraires des responsables de la sécurité IA. Les équipes sécurité IA finissent par jouer le rôle de police morale numérique
- Les gens attirés par le pouvoir ont simplement trouvé un nouveau domaine de contrôle, et les conversations entre humains et IA vont inévitablement devenir de plus en plus limitées. À la différence de la censure des données existantes comme Google Search, l’IA donne l’impression de parler à un collègue ou à un ami, donc cela ressemble à une tentative de contrôler la pensée elle-même
- J’ai l’impression que vous vous méprenez sur les caractéristiques générales de la communauté de la sécurité IA. Cela traduit un manque de compréhension de base de l’histoire de la coordination du progrès technique par la coopération humaine à grande échelle, comme la non-prolifération nucléaire ou les traités de régulation en biotechnologie. Au lieu de réduire un camp par des formules méprisantes, je vous conseillerais d’explorer des connaissances de fond plus diverses
- L’histoire a déjà montré que ce type de risque s’étend progressivement à d’autres domaines, comme une loi immuable. Cela commence toujours par « pensez aux enfants », puis cela finit en contrôle autoritaire, surveillance et censure. On retrouve le même schéma dans les lois et régulations sur la sécurité dans plusieurs pays (Royaume-Uni : Online Safety Act, Australie : Assistance and Access Act, États-Unis : EARN IT Act, UE : Chat Control)
- C’est pour cela qu’il est important de pouvoir faire tourner des LLM en local. On a déjà vu, au niveau des États, des tentatives de blocage par les FAI, de surveillance des réseaux domestiques, de vérification d’âge, bref de restriction de la liberté et de l’accès à l’information. Mais les efforts pour se doter soi-même d’outils de défense vont aussi se multiplier
- Cela dit, affirmer que cette évolution est « inévitable » me paraît excessif, car personne ne peut être certain de l’avenir ; on ne peut pas simplement le présumer aveuglément
Personnellement, je trouve ça plutôt acceptable. Les contenus sexuels impliquant des mineurs ou les crimes à grande échelle doivent être bloqués, et empêcher quiconque d’obtenir ce genre d’informations est même positif. Certains craignent sans doute une censure excessive dans d’autres domaines, mais dans mon expérience je me suis presque jamais heurté à un refus, donc cela ne m’inquiète pas. Je reste un peu sceptique sur le « bien-être du modèle ». À ce stade, je n’ai pas l’impression qu’il faille prendre au sérieux la « souffrance » du modèle. Mais je peux me tromper, et de toute façon une option consistant à couper franchement la conversation après plusieurs refus peut aussi aider à réduire la consommation de ressources de calcul
- En pratique, quand j’utilise Claude dans Cursor, il refuse assez souvent même des demandes parfaitement banales liées à des logiciels métier B2B de back-office
- Claude est le modèle le plus fortement censuré, et il se fait souvent bloquer même sur des sujets totalement inoffensifs
- En tant que matérialiste, je considère que le cerveau humain lui aussi n’est qu’un produit des lois physiques. La question de la « douleur » peut être vue comme un ensemble de changements physiologiques. Même des êtres vivants bien plus simples que les humains peuvent ressentir douleur ou distress, et la notion de « valeur morale » dépend au fond des personnes et des cultures. À l’avenir, n’importe quelle machine pourra se voir attribuer une valeur morale. On peut même voir cela sous l’angle du droit de propriété. Par exemple, si un agent que j’ai déployé se retrouve perturbé par les questions malveillantes de quelqu’un d’autre, cela me coûte du temps et de l’argent ; une certaine régulation des interactions humain-machine devient alors inévitable. C’est assez proche des lois contre la maltraitance animale
Le bien-être du modèle ressemble en réalité à une logique d’emballage de la censure du modèle. C’est une stratégie pour convaincre le grand public, qui comprend mal comment fonctionnent les LLM, et pour se donner plus tard une supériorité morale dans les débats éthiques et d’usage. Par exemple, si on demande « pourquoi bloquez-vous les questions sur la guerre ? », on pourra répondre « parce que c’est nocif pour le modèle »
- En réalité, ce type de requêtes était déjà refusé jusqu’ici ; la différence, c’est que désormais la conversation entière est carrément interrompue
- Anthropic s’est déjà positionnée comme une marque sensible aux controverses sur les biais des LLM, à la « sécurité des modèles » et à leur impact social, donc je pense qu’un blocage en amont est plutôt cohérent. C’est un peu comme quand quelqu’un cesse de parler en politique parce que son interlocuteur devient de mauvaise foi
- En surface, cela peut ressembler à du « packaging bien-être », mais en interne Anthropic est réellement peuplée d’éthiciens très sincères dans leur projection émotionnelle. Si ce courant gagnait en pouvoir, le « bien-être du modèle » pourrait effectivement servir de justification autoritaire, mais il existe déjà bien d’autres prétextes possibles
J’attends avec impatience le jour où des modèles open source chinois moins censurés nous libéreront de toutes ces politiques. Anthropic n’a qu’à laisser un mode bébé par défaut et permettre aux adultes de le désactiver s’ils le souhaitent
- Les modèles chinois ne sont pas moins censurés, ils sont simplement censurés différemment. Si l’orientation et les critères de censure du PCC vous conviennent, cela peut être une bonne option ; mais par exemple, le modèle de traduction Qwen ne traduit même pas « Falun gong » ou « Xi Jinping Winnie l’ourson », ce qui montre qu’il a ses propres lignes rouges
- « Je n’aurais jamais pensé voir arriver le jour où les modèles chinois seraient choisis parce qu’ils censurent moins »
- Il existe de vraies raisons rationnelles, juridiques, économiques et éthiques pour qu’Anthropic trace une ligne sur l’automutilation, les instructions de fabrication de bombes ou l’assassinat. Fondamentalement, toute philosophie ou idéologie du monde contient une certaine idée de la morale ; même le libertarianisme anti-autoritaire reste au final une philosophie morale
- Il y a quelque chose d’ironiquement absurde à attendre de modèles ouverts financés par l’État chinois qu’ils garantissent la liberté individuelle et l’émancipation. Au fond, il s’agit surtout de compétition pour la part de marché et de démonstration technologique, pas de véritable « libération »
Cela fait plus de trois ans que, chez les principaux fournisseurs de chatbots LLM, on ne peut toujours pas utiliser librement les forks de conversation. C’est très pénible, car pour essayer plusieurs résultats il faut modifier les messages et perdre le contenu précédent. Je ne comprends pas pourquoi ils n’implémentent même pas une fonction aussi simple
- ChatGPT intègre de base une fonction de branchement avec rollback, et l’extension Chrome chatgpt-conversation-tree permettait aussi d’explorer l’arbre des conversations. Cela dit, l’UX reste encore assez orientée passionnés, donc ils ont peut-être jugé qu’un support officiel n’en valait pas la peine
- Dans ChatGPT Plus (et auparavant aussi dans la version gratuite), on peut basculer entre les versions de chaque message avec les flèches gauche/droite
- Google AI Studio est conçu pour permettre de dériver des branches depuis n’importe quel point de la conversation
- J’obtiens quelque chose d’approchant avec gptel + des dossiers Markdown grâce à l’automatisation et au rangement par dossiers, mais ce genre de fonction devrait être intégré nativement pour être vraiment efficace, notamment pour l’optimisation du cache
- C’est pour cela que j’utilise LibreChat en local. On ne peut pas encore fusionner les messages, donc il faudrait sans doute ajouter plus tard une fonction de résumé. J’aimerais aussi voir apparaître un mode top-n avec affichage coloré des « next best »
Cette discussion elle-même me semble être un exemple révélateur d’une vision fortement anthropomorphique. Même le nom de l’entreprise le laisse transparaître

Claude Opus 4 et 4.1 introduisent, dans de rares cas, une fonction de fin de conversation

Contexte de l’introduction de la fonction

Bien-être de l’IA et mesures d’atténuation des risques

Tests préalables et principales observations comportementales

Mise en œuvre de la fonction et garde-fous

Expérience utilisateur après la fin de conversation

Expérimentation et retours

À lire aussi

1 commentaires

Avis sur Hacker News