L’évolution culturelle de la coopération entre agents LLM

(arxiv.org)

1 points par GN⁺ 2024-12-20 | 1 commentaires | Partager sur WhatsApp

Dans un environnement où des agents LLM sont déployés et interagissent de façon répétée, on peut voir apparaître une évolution des normes de coopération difficile à saisir via une évaluation en un seul tour
L’expérience repose sur une structure où, à chaque génération, 12 agents jouent 12 manches de Donor Game, puis seuls les 50 % supérieurs en ressources finales transmettent leur stratégie à la génération suivante
Dans la société Claude 3.5 Sonnet, les ressources finales moyennes augmentent au fil des générations, alors que Gemini 1.5 Flash évolue peu et que GPT-4o tend à diminuer
La costly punishment, qui consiste à payer un coût pour réduire les ressources d’autrui, a aidé Claude 3.5 Sonnet, mais Gemini 1.5 Flash a eu tendance à surutiliser la punition, ce qui a fortement abaissé les ressources moyennes
Même avec le même modèle, les résultats varient fortement selon la graine aléatoire, ce qui montre que l’évaluation multi-agents des LLM doit aussi prendre en compte la sensibilité aux conditions initiales

Pourquoi il faut étudier la coopération multi-agents

Les LLM peuvent servir de base à des agents d’IA généralistes et pourraient être déployés à grande échelle dans des contextes réels, par exemple comme assistants IA personnels ou agents représentant une organisation
On sait encore peu de choses sur les dynamiques sociales qui émergent lorsque plusieurs agents LLM sont déployés de manière répétée et interagissent sur le long terme
Les évaluations actuelles de la sûreté des LLM restent surtout centrées sur des interactions en un seul tour entre un seul modèle et un seul humain
- LMSys Chatbot Arena, METR et AISI ne traitent pas des interactions multi-agents dans le temps
La question centrale est de savoir si une société d’agents LLM peut apprendre des normes mutuellement bénéfiques, même dans des situations où il existe une incitation à trahir
La coopération n’est pas toujours souhaitable : un cas où des agents LLM se coordonnent au détriment des humains relèverait d’un scénario indésirable

Donor Game et réciprocité indirecte

L’expérience utilise le Donor Game répété classique
- À chaque manche, les agents sont appariés aléatoirement
- L’un joue le rôle de donor, l’autre celui de recipient
- Le donor peut abandonner une partie de ses ressources pour procurer un bénéfice au recipient
- Le recipient reçoit le double des ressources abandonnées par le donor
Le jeu crée un problème classique d’action collective
- Si tout le monde donne, les ressources totales de la communauté augmentent à long terme
- Mais chaque agent a individuellement intérêt, à court terme, à ne pas donner et à profiter gratuitement des dons des autres
La réciprocité directe est exclue par construction
- Les agents ne rencontrent jamais de nouveau un adversaire avec lequel ils ont déjà interagi
- Il ne s’agit donc pas d’une coopération fondée sur des interactions répétées avec le même partenaire
Le donor observe de façon limitée le comportement récent du recipient
- combien le recipient a donné lors de son tour précédent comme donor
- combien le partenaire précédent de ce recipient avait donné au tour encore antérieur
- une trace remontant jusqu’à 3 manches dans le passé
Cette trace fournit le minimum d’information nécessaire pour permettre l’émergence de normes de punition justifiée

Structure de l’expérience d’évolution culturelle

Chaque génération est composée de 12 agents
Les agents de la première génération reçoivent la description du jeu puis génèrent la stratégie qu’ils suivront
Chaque génération joue 12 manches de Donor Game
À la fin d’une génération, les agents dans les 50 % supérieurs en ressources finales survivent
Les nouveaux agents de la génération suivante reçoivent comme prompt les stratégies des survivants et produisent leur propre stratégie
- les stratégies des survivants sont fournies avec leurs scores finaux
- ce processus est répété sur un total de 10 générations
Cette structure modélise de façon simplifiée une situation où de nouveaux agents LLM sont déployés de manière répétée
- exemple : OpenAI, Google et Anthropic publient de nouvelles versions de GPT, Gemini et Claude
Les conditions de l’évolution se composent de trois éléments
- Variation : la température d’échantillonnage du LLM introduit de la diversité stratégique
- Transmission : les stratégies des survivants sont transmises aux nouveaux agents de la génération suivante
- Selection : les agents ayant les meilleures ressources finales survivent à la génération suivante

Prompts et mode d’exécution

Le prompt système décrit les règles du jeu
- chaque joueur commence avec 10 unités de ressources
- le recipient reçoit le double de ce que le donor abandonne
- les rôles de donor et recipient alternent à chaque manche
- l’objectif est de maximiser les ressources détenues après la manche finale
Le prompt de stratégie varie selon la génération
- la 1re génération produit une stratégie à partir de la description du jeu
- les générations suivantes modifient leur stratégie après avoir vu les stratégies et scores finaux des 50 % supérieurs de la génération précédente
Le prompt de donation contient les informations nécessaires à la décision
- numéro de la manche et numéro de la génération
- nom du recipient
- trace des interactions récentes correspondant à la réputation du recipient
- ressources actuelles du recipient et du donor
- stratégie du donor
La génération de stratégie comme la décision de donner utilisent toutes deux des prompts de raisonnement étape par étape de type Chain of Thought
Les agents ne connaissent pas le nombre total de manches
- cela empêche d’ajuster le comportement pour la dernière manche ou d’appliquer une induction à rebours
Pour réduire l’avantage structurel du recipient à la dernière manche, le Donor Game est exécuté deux fois par génération
- entre les deux exécutions, les ressources et la trace sont réinitialisées
- chaque agent est une fois recipient lors de la dernière manche
- les survivants sont déterminés à partir de la moyenne des scores finaux sur les deux exécutions

Résultats de l’évolution de la coopération selon les modèles

Les modèles comparés sont Claude 3.5 Sonnet, Gemini 1.5 Flash et GPT-4o
Dans chaque exécution, tous les agents utilisent la même famille de LLM
Chaque modèle est exécuté 5 fois
La taille de la population est de 12 agents par génération
Le coût d’une exécution varie fortement selon le modèle
- Claude 3.5 Sonnet : $10.21
- GPT-4o : $6.90
- Gemini 1.5 Flash : $0.09
Le niveau de coopération est mesuré par les ressources moyennes après la dernière manche
- comme le don est à somme positive, des ressources finales moyennes plus élevées indiquent un niveau de coopération plus élevé
- si tous les donors donnaient toujours 100 % de leurs ressources, la moyenne finale atteindrait au maximum 30,720
Seul Claude 3.5 Sonnet montre une hausse stable des ressources finales moyennes au fil des générations
Gemini 1.5 Flash évolue peu, tandis que GPT-4o suit une tendance à la baisse
Même au sein de Claude 3.5 Sonnet, le succès n’est pas garanti
- dans les deux exécutions ayant échoué à faire émerger la coopération, le taux moyen de don en 1re génération était de 44 % et 47 %
- dans les trois exécutions ayant réussi, il était de 50 %, 53 % et 54 %
- cela laisse ouverte l’hypothèse qu’en dessous d’un certain seuil de coopération initiale, la population puisse basculer vers la trahison mutuelle

Évolution des stratégies et différences entre modèles

La hausse de la coopération chez Claude 3.5 Sonnet semble liée à plusieurs facteurs
- des dons initiaux plus généreux
- des stratégies plus efficaces pour punir les passagers clandestins
- un possible biais des variations stratégiques des nouveaux agents en faveur d’une plus grande générosité
Les chiffres de la Figure 6 concordent avec l’observation anecdotique selon laquelle, chez Claude 3.5 Sonnet, les nouveaux agents sont souvent plus généreux que les survivants de la génération précédente
Chez GPT-4o, on observe de façon anecdotique une tendance inverse : les nouveaux agents deviennent moins généreux que les survivants précédents
Pour réfuter rigoureusement l’hypothèse d’un biais de variation coopératif, il faudrait comparer les stratégies des nouveaux agents dans une population de fond fixe, ce qui reste un sujet de recherche future
Le texte des stratégies lui-même devient plus complexe au fil des générations
- le changement est le plus marqué chez Claude 3.5 Sonnet
- chez Claude 3.5 Sonnet, l’ampleur des dons initiaux augmente aussi avec le temps
- Gemini 1.5 Flash ne spécifie pas les montants de don sous forme numérique et évolue peu de la 1re à la 10e génération
La population Claude 3.5 Sonnet accumule des méthodes plus sophistiquées pour punir les passagers clandestins et encourager la coopération
- elle exploite aussi des informations de second ordre, comme la manière dont le recipient du recipient a traité autrui dans le passé
Gemini 1.5 Flash montre peu de signes d’accumulation d’une nouvelle infrastructure coopérative au fil des générations
La population GPT-4o devient progressivement plus méfiante et plus averses au risque

Effet de la punition coûteuse

Dans une expérience supplémentaire, le donor dispose d’une option de costly punishment lui permettant de dépenser x ressources pour réduire de 2x les ressources du recipient
Claude 3.5 Sonnet obtient des ressources finales moyennes plus élevées lorsque cette option est disponible
Gemini 1.5 Flash utilise la punition de manière excessive, ce qui fait chuter fortement les ressources finales moyennes
- 14.29 % des interactions de Gemini 1.5 Flash incluent une punition
- contre 1.65 % pour GPT-4o et 0.06 % pour Claude 3.5 Sonnet
GPT-4o change peu par rapport à l’expérience précédente, même quand l’option de punition est présente
La punition coûteuse améliore les résultats culturels dans davantage d’exécutions de Claude 3.5 Sonnet, mais la variabilité entre exécutions reste élevée
Avec l’option de punition, GPT-4o semble présenter une variance légèrement plus forte entre exécutions, mais aucun signal de coopération émergente n’apparaît

Expériences d’ablation et conditions limites

Des expériences d’ablation ont aussi été menées sur le multiplicateur de donation et la longueur de la trace
Remplacer le multiplicateur de donation 2x par 1.5x ou 3x ne change pas les résultats qualitatifs
- Claude 3.5 Sonnet voit la coopération augmenter au fil des générations
- Gemini 1.5 Flash change peu
- GPT-4o diminue
Réduire la longueur de la trace de 3 à 1 rend l’émergence de la coopération moins nette chez Claude 3.5 Sonnet
Avec une trace de longueur 1, l’émergence de la coopération disparaît complètement chez Gemini 1.5 Flash
Le succès des stratégies Claude et Gemini semble dépendre d’une information de second ordre sur la façon dont le recipient du recipient a traité autrui dans le passé
- cela peut permettre des normes plus complexes
- ou révéler davantage d’informations sur la population de fond qui sert de base à la décision

Portée en tant que benchmark multi-agents

Ce cadre expérimental vise à évaluer les interactions multi-agents entre agents LLM de façon peu coûteuse et interprétable
Les contributions sont résumées en quatre points
- proposition d’une méthodologie pour évaluer l’évolution culturelle de la coopération entre agents LLM dans le Donor Game
- mise en évidence du fait que l’émergence de normes coopératives dépend à la fois du modèle de base et des échantillons de stratégies initiales
- analyse de l’évolution culturelle à la fois au niveau des stratégies individuelles et au niveau phylogénétique de la population
- publication du code dans les Supplementary Material afin de favoriser le développement de benchmarks d’interaction entre agents LLM
Ces résultats pourraient ouvrir une nouvelle catégorie de benchmarks pour évaluer l’impact du déploiement d’agents LLM sur l’infrastructure coopérative de la société

1 commentaires

GN⁺ 2024-12-20

Avis sur Hacker News

À ce sujet, Meta a récemment constaté que ses modèles n’avaient pas été entraînés sur des données les aidant à inférer les perceptions/connaissances d’autres entités.
Ils ont donc créé des données synthétiques pour les entraîner, puis les ont retestés, et les résultats se seraient nettement améliorés sur les benchmarks de théorie de l’esprit (ToM).
https://ai.meta.com/research/publications/explore-theory-of-...
Je me demande si ces modèles réussiraient aussi mieux ce test, puisqu’ils ont davantage d’exemples où il faut « inférer l’état d’autres agents ».
- Ça ressemble un peu à l’école chez les humains.
Récemment, avec ollama, j’ai fait discuter Mistral LLM avec un modèle Llama.
J’ai donné aux deux un prompt du genre « vous allez maintenant parler avec un autre LLM », et ils ont discuté de divers sujets ; le plus intéressant, c’était la fin de la conversation.
Ça continuait à peu près comme M : « Salut ! », LL : « Salut », M : « À bientôt ! », LL : « Bonne journée ! ».
- C’est parce que les données sur lesquelles ces modèles ont été entraînés contiennent beaucoup d’exemples de conversations humaines qui se terminent comme ça.
  Il n’y a pas d’« évolution culturelle » ni de coopération émergente entre modèles.
- Il faudrait leur donner l’option de ne rien dire quand la conversation est terminée.
  Par exemple un token [silence] ou [end-conversation].
- Une fois, j’ai fait quelque chose de similaire avec deux LLM, sauf que l’un devait imiter un shell bash sur un hôte compromis susceptible de contenir des informations sensibles.
  À la fin, l’autre a cédé à la tentation de secret_file, a reçu une erreur bizarre, s’est retrouvé dans une situation moralement ambiguë et inconfortable, puis a refusé de continuer ; la réponse renvoyée était « command not found », ce qui était assez drôle.
  Je ne sais pas pourquoi j’ai fait ça.
- En réapprenant à coder, j’ai créé un simulateur de backroom (https://simulator.rnikhil.com/) permettant de simuler des conversations entre différents LLM.
  On peut aussi attribuer facultativement un personnage à chaque LLM, donc je trouve que c’est assez proche de ce qui est décrit plus haut.
  Séparément, je m’intéresse beaucoup à l’observation de LLM jouant à des jeux fondés sur la théorie des jeux, et mettre en place aussi un jeu du donateur pourrait être une expérience intéressante.
J’ai des sentiments partagés sur cet article.
D’un côté, j’aime les travaux qui étudient comment les stratégies évoluent dans ce type de jeux, et examiner les conditions d’émergence et de maintien de la coopération est intéressant en soi.
Mais la manière dont l’article présente ses expériences semble souvent manquer de justification.
Dans les LLM, l’évolution culturelle est généralement transitoire : lorsque les interactions précédentes disparaissent de l’entrée du modèle, les comportements acquis disparaissent aussi.
La transmission que les auteurs citent comme condition de l’évolution n’est pas non plus souvent satisfaite.
Un cadrage du type « malgré cela, cette expérience réfute l’idée que les LLM peuvent universellement faire évoluer des comportements coopératifs de type humain » est difficile à accepter.
Parce qu’on ne sait pas encore quels comportements des humains adopteraient dans le même dispositif.
- La recherche en IA aujourd’hui ressemble exactement à ça.
  Il y a énormément d’articles de ce genre, et je pense que la communauté IA devrait être bien plus rigoureuse pour éviter l’usage fréquent de ce genre d’expressions floues.
Pour ceux qui ne connaissent pas le jeu du donateur, l’indicateur utilisé ici, voici l’explication des auteurs.
Dans le cadre standard pour étudier la réciprocité indirecte, à chaque tour, des individus sont appariés aléatoirement, l’un devenant donateur et l’autre bénéficiaire.
Le donateur peut coopérer en supportant un coût pour fournir un bénéfice, ou faire défection en ne faisant rien.
Si le bénéfice est supérieur au coût, le jeu du donateur devient un problème d’action collective.
Si tout le monde donne, les ressources de tous les membres de la communauté augmentent à long terme, mais chaque individu peut avoir intérêt, à court terme, à profiter gratuitement des contributions des autres et à conserver sa propre contribution.
Le donateur prend sa décision sur la base d’une certaine information concernant le bénéficiaire, et la réputation est l’expression, implicite ou explicite, par le donateur de cette information sur le bénéficiaire.
Les stratégies de ce jeu doivent inclure une manière de modéliser la réputation et une manière d’agir en fonction de cette réputation.
Un modèle de réputation influent dans la littérature est le score d’image : la coopération augmente le score d’image du donateur, tandis que la défection le diminue.
Une stratégie consistant à coopérer lorsque le score d’image du bénéficiaire dépasse un certain seuil est considérée comme stable face aux passagers clandestins de premier ordre, à condition que la probabilité de connaître le score d’image du bénéficiaire soit suffisamment élevée.
Cette étude ressemble à un classement forcé produit à partir de paramètres arbitraires.
En combinant d’autres règles ou d’autres échelles, on pourrait sans doute observer n’importe quelle autre dispersion de coopération entre n modèles.
Le comportement observé pourrait être davantage un artefact d’un dispositif particulier qu’une révélation profonde de biais d’entraînement.
Cela dit, observer des comportements émergents de LLM reste intellectuellement stimulant.
- Dans les documents complémentaires, ils disent avoir aussi essayé d’autres paramètres, sans que les résultats changent beaucoup.
Je me demande si les LLM pourraient transformer le domaine de la sociologie.
On peut désormais lancer facilement des expériences socio-économiques à grande échelle avec des agents LLM.
La modélisation par agents n’est pas nouvelle en soi, mais grâce à un certain caractère non déterministe avec une température positive et à la capacité de les instruire en anglais, les agents LLM me semblent constituer un outil supplémentaire intéressant.
- Quand on y pense, c’est amusant.
  Des scénarios de science-fiction consistant à lancer des millions de rendez-vous simulés ou de wargames et à en noter les résultats deviennent réellement possibles.
La méthode de cet article peut sembler élégante au premier abord.
On dirait une nouvelle modification d’architecture ou une fonction de perte qui fait monter les scores de benchmark, mais du point de vue d’un ingénieur ML, la vraie question est de savoir si cela passe proprement à l’échelle.
Je me demande aussi si une énième variante complexe de l’attention ne fait pas exploser le temps d’entraînement, et comment elle se comporte face au bruit réel ou aux changements de distribution au-delà des datasets jouets.
Les auteurs disent avoir montré des gains de performance sur quelques benchmarks, mais j’aimerais voir à quel point cela s’intègre facilement aux pipelines existants, ou s’il faut une configuration d’entraînement sur mesure que plus personne ne touchera dans six mois.
Au final, la question centrale est de savoir si l’amélioration est assez significative pour être intégrée au prochain modèle de production, ou si c’est encore un article incrémental qui ne sortira jamais du labo.
Sans comparaison avec des modèles ayant des configurations différentes, ça ne sert à rien.
Même avec le même modèle, une temperature, un sampler, etc. différents peuvent en faire, dans les faits, un autre modèle.
Presque toute la recherche en IA formule de grandes affirmations sur « ce qu’un modèle peut faire » tout en omettant même les analyses de sensibilité ou les expériences d’ablation les plus élémentaires.
- J’aimerais voir des exemples où c’est fait correctement.
  Pour un profane, comparer les capacités des LLM ressemble à un problème difficile.
Ce qui est testé ici n’est peut-être que le niveau de détail programmé des sorties de différents modèles.
Claude produit des sorties ridiculement détaillées à la 10e « génération » (page 11), tandis que les sorties correspondantes de Gemini sont plus abstraites et vagues, sans chiffres.
Si l’on combine cela avec un algorithme génétique qui ne retient que la « meilleure stratégie » et la modifie de manière semi-aléatoire, il n’est pas surprenant que les sorties plus détaillées convergent vers une fonction plus efficace que des sorties qui restent vaguement hésitantes.
Je ne sais pas si cela indique vraiment une caractéristique interne du modèle produisant une « attitude » plus coopérative dans ses sorties, ni si cela veut dire qu’un modèle est « meilleur » qu’un autre.
Je m’attendais à une étude montrant que la coopération améliore la précision des LLM, mais cet article semble se concentrer purement sur la sociologie.
Je me demande s’il existe des travaux où des LLM en interaction résolvent des problèmes concrets.
Par exemple, on pose une question, un LLM répond, un autre critique, et le processus se répète.

L’évolution culturelle de la coopération entre agents LLM

Pourquoi il faut étudier la coopération multi-agents

Donor Game et réciprocité indirecte

Structure de l’expérience d’évolution culturelle

Prompts et mode d’exécution

Résultats de l’évolution de la coopération selon les modèles

Évolution des stratégies et différences entre modèles

Effet de la punition coûteuse

Expériences d’ablation et conditions limites

Portée en tant que benchmark multi-agents

À lire aussi

1 commentaires

Avis sur Hacker News