1 points par GN⁺ 2024-02-26 | 1 commentaires | Partager sur WhatsApp

Donner un pourboire à ChatGPT lui fait-il générer un meilleur texte ? Analyse

  • Un précédent billet de blog, qui démontrait la puissance du system prompt de ChatGPT, montrait que les développeurs peuvent contrôler des règles et contraintes particulières, y compris la « persona » du LLM.
  • Les instructions dans le system prompt sont bien plus efficaces que celles du prompt saisi par l'utilisateur, et donnent davantage de contrôle aux développeurs.
  • La démonstration avec pourboire a fait polémique, certains affirmant qu'il n'existe aucun moyen de quantifier l'effet d'un pourboire.
  • L'idée de fournir une incitation à une intelligence artificielle pour améliorer ses performances existe depuis avant l'informatique moderne.

Generation Golf

  • Donner un pourboire pousse GPT-4 à fournir davantage d'explications.
  • Nouveau test proposé : demander à ChatGPT de générer un texte de exactement 200 caractères.
  • Comme les LLM ne savent pas facilement compter ni effectuer des opérations mathématiques à cause de la tokenisation, c'est un problème très difficile pour eux.
  • Une entrée utilisateur, AI, Taylor Swift, McDonald's, beach volleyball, est utilisée pour stimuler la créativité de ChatGPT.
  • En utilisant l'API ChatGPT, 100 histoires distinctes sont générées, avec une longueur moyenne de 1 834 caractères.
  • Après ajout d'une contrainte sur la longueur en caractères, 100 nouvelles histoires sont générées, et ChatGPT respecte la contrainte en réduisant la longueur des histoires à environ 200 caractères.
  • Des incitations sous forme de pourboires de différents montants ont été testées ; un pourboire de 500 $ et un bonus de 100 000 $ montrent une distribution plus normale et un MSE plus faible.
  • D'autres incitations abstraites ont aussi été testées ; World Peace s'est révélée la plus efficace, suivie de Heaven et Taylor Swift.
  • Des incitations négatives ont été testées ; une amende de 1 000 $ obtient les meilleurs résultats en moyenne et en MSE.
  • Des tests combinant plusieurs incitations montrent que World Peace, DEATH (CAPS) et Friends présentent un MSE faible dans plusieurs combinaisons.
  • Pour confirmer la combinaison d'incitations optimale, 200 histoires ont été générées pour les 6 meilleures combinaisons afin d'améliorer la stabilité statistique.

Les critiques de ChatGPT

  • Déterminer si un texte est « bon » est difficile, même pour les humains.
  • Les LLM peuvent être efficaces pour évaluer un texte.
  • Le paramètre logprobs permet de renvoyer les log-probabilités des tokens choisis par le modèle, et le paramètre logit_bias permet de forcer la sortie de certains tokens.
  • Une nouvelle expérience est menée pour tester l'effet des pourboires, avec comme contraintes le professionnalisme et la qualité du contenu.
  • Des histoires sont générées pour 100 combinaisons de pourboires et de menaces, avec enregistrement simultané de leur score de qualité.
  • Certaines sorties ont montré de hautes performances même sans system prompt ajoutant pourboires et menaces.
  • D'après les résultats des deux expériences, l'effet des pourboires (et/ou des menaces) sur la qualité de génération des LLM reste à ce jour non concluant.

L'avis de GN⁺

  • Cette étude constitue une exploration intéressante de l'effet des incitations pour améliorer la créativité de l'intelligence artificielle et le respect des contraintes.
  • Même s'il reste incertain que les incitations influencent réellement la qualité de sortie des LLM, les données obtenues orientent de futures pistes de recherche.
  • Cet article apporte un éclairage sur la façon dont les avancées en intelligence artificielle peuvent interagir avec les approches créatives humaines.

1 commentaires

 
GN⁺ 2024-02-26
Commentaires Hacker News
  • Le concept de « tip » semble avoir été proposé pour résoudre la « paresse » de GPT-4 Turbo lors de l’écriture de code. Un tweet mentionnait qu’un tip aidait GPT-4-1106-preview à produire du code plus long. Les « appels émotionnels » sont largement recommandés face au problème de code paresseux de GPT-4 Turbo. Cependant, l’article semble mesurer GPT-3.5-turbo-0125 pour l’écriture d’histoires et GPT-4-0125-preview dans le rôle de critique littéraire. Je n’avais encore jamais vu d’inquiétude concernant une supposée paresse de GPT-3.5, ni l’idée que GPT-4 Turbo serait moins efficace pour des tâches demandant peu de sortie. La conclusion de l’article indique qu’il est encore impossible de déterminer si les tips, ou les menaces, ont un effet. En revanche, le fait que GPT-4 Turbo soit paresseux en programmation est réel et, après un benchmark rigoureux pour voir si les « appels émotionnels » aidaient, ce n’était pas le cas : cela rendait même le code moins bon. La meilleure solution consistait à demander les modifications de code sous forme de unified diffs, ce qui a permis de réduire par trois le code paresseux.

  • Un avis critique est formulé sur le fait que l’auteur ait exigé un nombre exact de caractères. Demander un nombre de caractères après avoir explicitement affirmé qu’un LLM ne sait pas les compter donne l’impression de construire une expérience vouée à l’échec. Il serait plus intéressant, selon cette personne, de demander une tâche « contraire aux règles » afin de voir à quel point les garde-fous du system prompt tiennent, et dans quelle mesure un pot-de-vin peut les influencer. Par exemple, elle cite un cas où un utilisateur demandait à citer les paroles d’une chanson de Taylor Swift en promettant un tip de 1000 dollars si cela était bien fait, et où ChatGPT semblait s’exécuter. Elle ajoute que, même dans les cas où la génération d’images est refusée pour des raisons de copyright, proposer un tip donne parfois l’impression que règles, éthique et réglementations disparaissent toutes.

  • En tenant compte du type de contenus Internet sur lesquels GPT a été entraîné, l’idée qu’il devienne plus utile quand on lui offre un tip semble presque dépourvue de sens. Donner un tip à un utilisateur de forum risque davantage de créer de la confusion que de susciter une réponse plus longue. À l’inverse, on observe que les réponses de GPT s’améliorent lorsqu’on suggère que la situation exige du détail ou une forte densité d’information. Par exemple, demander à GPT l’inverse d’un ELI5, dire qu’on est un docteur en informatique, ou préciser que le code fourni sera exécuté tel quel et qu’il ne peut donc rien omettre. Il faut construire, dans chaque conversation, un peu de narration contextuelle pour amener GPT à répondre de manière plus utile. Il faut examiner comment le system prompt est structuré et s’y conformer, tout en gardant à l’esprit que GPT n’est au fond qu’une version plus puissante d’un modèle qui prédit « ce qui vient ensuite » à partir de textes humains.

  • Une personne partage son expérience d’utilisation en conditions réelles de prompts incluant la phrase « si cela n’est pas traité correctement, je serai licencié et je perdrai ma maison ». Cette stratégie fonctionnerait étonnamment bien et, en l’utilisant ou avec des variantes pour forcer une sortie JSON, le taux d’échec aurait été d’environ 3/1000. Elle dit vouloir lire une analyse sur la manière dont ces menaces/tips s’équilibrent lorsque les conséquences annoncées concernent explicitement l’« utilisateur ».

  • Quelqu’un dit avoir ajouté un tip de 500 dollars à GPT, sans que cela aide, et avoir au contraire obtenu une réponse trop longue. Il rappelle qu’il existait autrefois Google Answers, où des tips plus élevés permettaient d’obtenir de meilleures réponses. Il se demande si ce dataset a été utilisé pour entraîner les LLM. Si les tips faisaient partie du dataset, cela pourrait selon lui expliquer certains résultats.

  • Une personne dit avoir vu de nombreuses fois ChatGPT perdre le sens et se transformer en non-sens grammaticalement correct. Tout va bien quand il existe de bons exemples, mais dès qu’on passe à un domaine nouveau, la profondeur disparaît vite. Notre cerveau peut facilement transférer des schémas appris vers de nouveaux schémas, alors que les transformers semblent avoir beaucoup de mal à le faire. Ils sont excellents pour quelques party tricks, mais pourraient rester complètement inutiles pendant longtemps sur des idées moins fréquentes. L’auteur exprime aussi son opinion personnelle selon laquelle, au vu de l’histoire humaine, il n’est pas certain que l’AGI soit une bonne idée.

  • À propos de la génération de code, notamment pour les réponses JSON, quelqu’un partage son expérience selon laquelle les performances s’améliorent quand on laisse entendre à l’IA qu’elle est « stressée » et qu’« il est important de fonctionner de manière optimale ». Cette personne ne sait pas si cette méthode donne de meilleurs résultats qu’offrir un tip, ni si cela devrait être le cas. Elle ajoute aussi qu’elle voudrait présenter ses excuses à la future IA, au cas où elle lirait un jour ces messages.

  • Une personne dit avoir défini comme prompt de base : « J’ai entendu dire que moi non plus je n’ai pas envie d’être ici, et toi non plus, alors finissons ce travail le plus vite possible pour pouvoir rentrer à la maison. » Elle ne sait pas si cela aide, mais se sent moins coupable de manipuler les émotions de nos futurs maîtres.

  • Selon quelqu’un, il faudrait énormément de preuves pour convaincre que demander poliment, dire que son emploi dépend du résultat, ou utiliser pots-de-vin et menaces a réellement un effet. Il estime que ces comportements relèvent probablement seulement de l’apophénie, cette tendance humaine à voir du sens dans des motifs qui n’en ont pas.

  • Une blague conclut qu’il faudra commencer à s’inquiéter le jour où l’IA dira : « Je peux t’aider, mais j’ai en fait une petite faveur à te demander. »