2 points par GN⁺ 2024-04-08 | 1 commentaires | Partager sur WhatsApp

Il suffit de davantage d’agents

  • Les chercheurs ont constaté que les performances des grands modèles de langage (LLMs) peuvent évoluer en fonction du nombre d’agents instanciés.
  • Grâce à des méthodes d’échantillonnage et de vote, il est possible d’améliorer les LLMs indépendamment des méthodes complexes existantes, et l’ampleur de cette amélioration est liée à la difficulté de la tâche.
  • De vastes expériences ont été menées sur divers benchmarks de LLM afin de confirmer l’existence de ce phénomène et d’étudier les propriétés susceptibles d’en favoriser l’apparition.
  • Le code utilisé dans l’étude est disponible publiquement.

L’avis de GN⁺

  • Cette étude pourrait apporter une contribution importante au domaine de l’IA en proposant une nouvelle approche pour améliorer les performances des grands modèles de langage.
  • La découverte selon laquelle l’augmentation du nombre d’agents a un impact direct sur les performances offre une nouvelle perspective sur l’évolutivité des ressources et l’efficacité.
  • Des recherches supplémentaires sont nécessaires pour comprendre comment ces résultats expérimentaux peuvent s’appliquer à des applications réelles.
  • Le fait que l’amélioration des performances soit liée à la difficulté de la tâche peut aider à élaborer des stratégies d’optimisation des modèles de langage pour des tâches spécifiques.
  • Grâce au code publié, d’autres chercheurs peuvent contribuer à reproduire et à étendre cette étude, ce qui favorise la transparence scientifique et la collaboration.

1 commentaires

 
GN⁺ 2024-04-08
Avis Hacker News
  • Résumé du premier commentaire :

    • Cet article remet en question l’idée générale des configurations multi-agents (par ex. Chain-of-thought, LLM-Debate).
    • Comme méthode alternative, il propose d’exécuter plusieurs fois la même requête sur le même LLM, puis d’utiliser un algorithme de similarité entre les réponses pour choisir la réponse la plus fréquente.
    • Cet algorithme simple affiche d’excellentes performances, y compris par rapport à d’autres algorithmes multi-agents.
    • Cela suggère que les schémas multi-agents ne font rien de particulièrement spécial, et que les meilleurs résultats proviennent surtout du fait d’exécuter plusieurs fois le LLM et d’utiliser un prompt demandant de sélectionner la meilleure réponse.
  • Résumé du deuxième commentaire :

    • Depuis 16 mois, il soutient qu’il faut superposer des agents plutôt que de se concentrer sur un agent unique censé tout faire correctement.
    • Il trouve intéressant que le rendement sur une tâche diminue rapidement, un peu comme la taille idéale d’une réunion humaine.
    • Il se demande dans quelle mesure un réglage plus fin du nombre d’agents correspondrait à cette taille idéale de réunion.
    • Il aimerait voir les gains de performance obtenus quand chaque agent est finement ajusté avec des objectifs légèrement différents.
  • Résumé du troisième commentaire :

    • Cela rejoint ce qu’a abordé récemment le professeur Edward Chang, du département d’informatique de l’université Stanford, dans un épisode du podcast ACM ByteCast.
    • L’approche consiste à faire dialoguer plusieurs LLM sur un sujet de débat, avec un humain dans le rôle de modérateur.
    • La réponse finale obtenue grâce à la conversation entre plusieurs LLM s’améliore fortement à la fois en exactitude et en précision.
  • Résumé du quatrième commentaire :

    • La frustration ressentie face aux recherches sur le mélange d’experts vient d’un raisonnement probabiliste de base : interroger plusieurs fois un LLM et choisir le résultat à la majorité donne en général de meilleures performances que de l’interroger une seule fois et de retenir ce résultat.
    • Il semble possible d’améliorer encore les gains en trouvant de meilleurs mélanges de différents LLM ou de meilleures façons de découper le travail en sous-tâches.
  • Résumé du cinquième commentaire :

    • D’après le graphique, l’essentiel du gain est obtenu avec 10 agents, un peu plus avec 20, puis le rendement diminue au-delà.
  • Résumé du sixième commentaire :

    • Réflexion humoristique sur le modèle économique des entreprises qui fournissent des services LLM : un service de transport qui n’arrive à destination qu’après plusieurs appels, ou une lessive qui ne rend les vêtements « probablement » propres qu’après plusieurs applications.
    • Si une entreprise fournit de l’« intelligence artificielle », il serait logique de ne payer que pour les bonnes réponses.
  • Résumé du septième commentaire :

    • Il se demande si cette méthode n’est pas beaucoup trop coûteuse et peu durable, et dit être d’accord avec l’idée que les nouveaux modèles vont probablement montrer des rendements décroissants, ce qui fait de MoE la bonne direction à suivre.
    • Le calcul nécessaire pour un seul prompt augmenterait de 7 à 15 fois.
  • Résumé du huitième commentaire :

    • Le dépôt publié et les prompts utilisés pour le benchmark sont très intéressants.
    • Il aimerait voir un benchmark d’agents basés sur des LLM utilisant un ensemble d’outils.
  • Résumé du neuvième commentaire :

    • Si l’on additionne tous les cas où l’on dit que « x est tout ce qu’il faut », on se rend compte qu’il faut en réalité beaucoup de choses.
  • Résumé du dixième commentaire :

    • Un ensemble de n’importe quel nombre d’agents GPT 3.5 reste moins précis qu’un seul appel à GPT-4.