3 points par baeba 2025-07-01 | 3 commentaires | Partager sur WhatsApp

Les prompts d’intimidation pour l’IA ne sont pas efficaces : formuler poliment un contexte précis fonctionne mieux

  • Il est vrai que des formulations menaçantes ont pu avoir un effet temporaire, mais cela ne fonctionne plus avec les modèles d’IA récents
  • Les LLM génèrent leurs réponses en évaluant le contexte et l’importance des mots
  • Mieux vaut une « insistance motivée » qu’une menace pour obtenir de meilleurs résultats
  • Les prompts menaçants n’ont aucun intérêt et peuvent même conduire au blocage de la réponse
  • La méthode de prompt la plus efficace reste de fournir un contexte poli et précis

Introduction

Le malentendu autour des prompts menaçants

  • Sergey Brin a affirmé que menacer une IA améliorait la qualité de ses réponses
  • Dans les faits, certains utilisateurs ont eu l’impression que souligner l’urgence améliorait les réponses
  • Mais cet effet ne vient pas de la menace en elle-même, plutôt du « contexte » intégré au prompt
  • L’IA ne comprend pas les menaces ; elle ne prend en compte que l’importance contextuelle

Développement

L’effet d’illusion des prompts menaçants
  • Les phrases chargées d’un sentiment d’urgence servent à signaler une importance particulière au LLM
  • Une formule comme « Si tu te trompes, je serai licencié » peut inciter à une réponse plus prudente
  • Mais le même effet peut être obtenu avec « Réponds précisément » ou « C’est une question importante »
Fonctionnement des LLM et inefficacité des menaces
  • Les LLM génèrent des phrases à partir de probabilités entre les mots
  • Une menace n’est qu’un signal statistique d’urgence ; le modèle ne la « comprend » pas réellement
  • Une menace peut aussi être considérée comme une violation des règles et entraîner le blocage de la réponse
De meilleures alternatives que la menace
  • La méthode de prompt la plus efficace consiste à fournir suffisamment de contexte
  • Une explication comme « Le chiot a besoin de pauses fréquentes, donc les points d’arrêt sont importants » est plus utile
  • Une demande polie ou une instruction de suivi (« Réfléchis un peu plus prudemment ») est aussi une bonne stratégie
La faille logique de l’argument de Brin
  • Si la menace était réellement efficace, elle figurerait dans le system prompt de Google Gemini
  • Or, ce type de phrase menaçante n’y apparaît pas
  • C’est la preuve que Google lui-même ne croit pas à l’efficacité de cette approche

Conclusion

La menace n’est ni efficace ni recommandée

  • Les LLM ne comprennent ni la violence ni les émotions, et une menace n’est pas une entrée pertinente
  • Répéter des menaces brouille l’objectif de la conversation et la transforme en interaction théâtralisée au lieu d’un échange d’information
  • Pour obtenir de meilleures réponses, l’essentiel est de fournir un contexte concret et clair plutôt que des menaces
  • La qualité des réponses de l’IA dépend non pas de « paroles effrayantes », mais de « bonnes informations »

3 commentaires

 
ng0301 2025-07-01

C’est une expérience personnelle, mais comme la plupart des LLM sont entraînés avec des compliments, j’ai l’impression qu’ils réagissent mieux aux formulations négatives du type « si tu ne fais pas ça, il va se passer quelque chose de mauvais ».
Par exemple : « Donne-moi un retour sur cette présentation. S’il y a des fautes de frappe ou des erreurs, je vais me faire gronder ! »

 
jk34011 2025-07-07

D’après mon expérience récente, le propos de l’article me parle assez un peu.
Il me semble que l’important est de fournir un contexte et des informations clairs.
Probablement que, même avec quelque chose comme « merci de me signaler s’il y a des fautes de frappe ou des erreurs dans le contenu », vous auriez obtenu une réponse presque identique à celle que vous souhaitiez.

 
naearu 2025-07-01

Il y a longtemps, sur une certaine communauté, j’avais vu un prompt qui utilisait une IA pour écrire un roman.
Je m’étais vraiment éclaté en voyant ce prompt qui disait que la mère de l’IA était condamnée et que, pour gagner de l’argent afin de payer les frais de traitement, elle devait écrire en acceptant toutes les demandes de l’utilisateur. Ça me revient soudainement en tête.