4 points par darjeeling 25 일 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp

« Si on pose une question avec colère, l’IA répond-elle mieux ? » Les résultats d’une expérience menée par des chercheurs de Harvard sur 6 benchmarks montrent que l’expression d’émotions n’a presque aucun effet sur les performances des LLM. Le constat essentiel est toutefois le suivant : si l’émotion est choisie de manière adaptative selon chaque question, une amélioration cohérente des performances devient possible.


Aperçu de l’étude

  • Source : arXiv:2604.02236v1 (2 avril 2026)
  • Auteurs : Minda Zhao, Yutong Yang et al. (recherche conjointe entre Harvard et Bryn Mawr College)
  • Question centrale : le fait d’intégrer des expressions émotionnelles dans un prompt modifie-t-il les performances d’un LLM ?

Résumé des principaux résultats

Le ton émotionnel est omniprésent dans la communication humaine, mais son influence sur le comportement des LLM reste encore floue. Cette étude met en évidence trois points.

① Les préfixes émotionnels fixes ont peu d’effet
Pour la plupart des couples tâche-modèle, le cadrage émotionnel n’a ni fortement amélioré ni fortement dégradé les performances par rapport à une baseline neutre. Le prompting émotionnel statique ne fonctionne pas comme méthode d’amélioration générale des performances.

② Augmenter l’intensité émotionnelle ne change pas vraiment la donne
Même en renforçant l’intensité avec des formulations comme « je suis très en colère » ou « j’ai extrêmement peur », la précision n’a varié que légèrement selon les niveaux d’intensité, et des expressions plus fortes n’ont pas entraîné de baisse de performance cohérente.

③ La sélection émotionnelle adaptative (EmotionRL) est efficace
Une émotion fixe unique est trop grossière pour être fiable, mais une politique conditionnée par l’entrée peut produire des gains de performance plus cohérents.


Conception de l’expérience

Six émotions testées

Sur la base de la théorie des émotions fondamentales de Plutchik, l’étude a utilisé 6 émotions : joie, tristesse, peur, colère, dégoût et surprise.

Six benchmarks d’évaluation

Benchmark Capacité mesurée
GSM8K Raisonnement mathématique
BIG-Bench Hard Raisonnement général
MedQA Connaissances médicales spécialisées
BoolQ Compréhension de texte
OpenBookQA Raisonnement de bon sens
SocialIQA Raisonnement social

Modèles utilisés

Les trois modèles open source Qwen3-14B, Llama 3.3-70B et DeepSeek-V3.2 ont été évalués en zero-shot, sans fine-tuning.


Résultats détaillés

Différences de sensibilité émotionnelle selon les tâches

GSM8K et MedQA-US sont restés très proches de la baseline sur l’ensemble des émotions, ce qui suggère que de courts préfixes émotionnels ont un effet limité sur le raisonnement strictement contraint et sur les prédictions à choix multiples spécialisées par domaine.

L’écart le plus notable en matière de stabilité globale a été observé sur SocialIQA. Ici, la variance selon les modèles et les émotions était visiblement plus importante, et la direction des effets n’était pas cohérente. Cela indique que le contexte émotionnel interagit le plus fortement avec les tâches qui exigent un raisonnement sur les relations interpersonnelles.

Émotions écrites par des humains vs émotions générées par un LLM

La comparaison entre des préfixes rédigés par des humains et des préfixes générés par un LLM montre que les deux sources obtiennent une précision presque identique dans l’ensemble des conditions, sans avantage constant pour l’une ou l’autre.


EmotionRL : cadre de sélection émotionnelle adaptative

Pour chaque question en entrée, un agent choisit une émotion parmi l’ensemble {colère, dégoût, peur, joie, tristesse, surprise}, puis ajoute l’expression correspondante au début du prompt d’origine avant de l’envoyer à un LLM figé.

L’architecture repose sur deux étapes clés.

  • Entraînement hors ligne : pour chaque question, les 6 émotions sont toutes testées afin de construire un vecteur de récompense, puis un réseau de politique MLP léger est entraîné.
  • Inférence en ligne : lorsqu’une nouvelle entrée arrive, la politique entraînée sélectionne une émotion, puis le LLM n’est appelé qu’une seule fois.

Le faible effet moyen des prompts émotionnels fixes ne signifie pas qu’il n’existe aucun signal utile dans le cadrage émotionnel. EmotionRL a systématiquement égalé ou dépassé la baseline émotionnelle statique moyenne sur cinq tâches.


Conclusion et implications

Nos expériences soutiennent une vision plus prudente du prompting émotionnel que ne le suggèrent certains exemples positifs isolés. Sur des benchmarks standards fondés sur la précision, les préfixes émotionnels fixes sont en général trop faibles et trop hétérogènes pour constituer un levier d’intervention fiable sur les performances.

Les chercheurs proposent de redéfinir le prompting émotionnel non pas comme un « template universel », mais comme un « problème de routage adaptatif ».

Limites

Cette étude s’est concentrée sur des préfixes courts, du prompting en un seul tour et des benchmarks centrés sur la précision. Dans des évaluations où l’ajustement, le style ou l’empathie comptent autant que la précision — comme les interactions multi-tours, la génération ouverte ou les dialogues sensibles du point de vue de la sécurité — des effets plus importants ou qualitativement différents pourraient apparaître.


Original : "Do Emotions in Prompts Matter? Effects of Emotional Framing on Large Language Models" — arXiv:2604.02236v1

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.