8 points par GN⁺ 2023-09-10 | 1 commentaires | Partager sur WhatsApp
  • Test des performances de plus de 60 grands modèles de langage (Large Language Models, LLM) à l’aide d’un ensemble de 20 questions, avec compilation des réponses de chaque LLM
  • Ces questions sont conçues pour évaluer le raisonnement de base, le respect des consignes et la créativité des LLM
  • Les réponses des LLM sont stockées dans une base de données SQLite
  • Les questions vont de problèmes d’arithmétique simples à des tâches plus complexes, comme expliquer la théorie quantique des champs à un lycéen
  • Le script comprend aussi des tâches que les LLM doivent exécuter, comme la traduction de phrases, l’identification de bugs dans du code et la génération de fonctions Python
  • L’auteur a exécuté le script en utilisant les API d’OpenRouter, TogetherAI, OpenAI, Cohere, Aleph Alpha et AI21
    • Il prévoit d’améliorer le script en utilisant des séquences d’arrêt et des formats de prompt optimisés pour chaque modèle
    • Parmi les idées futures : calculer un classement ELO via un vote public, comparer deux modèles côte à côte et intégrer des prompts soumis par la communauté

1 commentaires

 
GN⁺ 2023-09-10
Avis Hacker News
  • Un utilisateur a créé un harness générique pour exécuter des benchmarks sur divers grands modèles de langage (Large Language Models, LLMs), en encourageant les autres à tester les modèles avec leurs propres données. Cette bibliothèque prend en charge les modèles d’OpenAI, Anthropic, Google, Llama, Codellama, Replicate et Ollama.
  • L’AI Playground de Vercel est mis en avant comme un outil utile pour poser simultanément des questions à plusieurs LLMs, mais il n’en prend actuellement en charge que 24, et non 60.
  • La méthode de benchmarking des LLMs décrite dans l’article est saluée comme plus réaliste que des approches traditionnelles comme la réussite à des examens. Des inquiétudes sont toutefois exprimées quant au fait que les questions puissent faire partie du jeu d’entraînement et ainsi biaiser les résultats.
  • Des différences ont été relevées dans les réponses des LLMs aux questions sur les relations familiales, et un utilisateur rapporte que GPT4 a répondu correctement à une question pour laquelle l’article affirmait que tous les LLMs s’étaient trompés.
  • Falcon Instruct (40B) est mis en avant avec humour comme le « modèle le plus drôle » pour une blague sur les vacances.
  • Des benchmarks supplémentaires pour les LLMs sont proposés, notamment « TheoremQA: jeu de données de questions-réponses [STEM] basé sur des théorèmes » et « Awesome-legal-nlp ».
  • ChatGPT 3.5 est critiqué pour ses réponses verbeuses, un utilisateur soulignant qu’il fournit souvent des explications inutilement longues.
  • En s’émerveillant des progrès de l’IA, un utilisateur mentionne la capacité des LLMs à générer des « haïkus éthiques et asexués, pour et contre Kubernetes ».
  • Des doutes sont exprimés sur les performances du modèle CodeLlama, un utilisateur rapportant des résultats bien meilleurs que ceux listés dans l’article.
  • Malgré l’intérêt pour les LLMs, certains utilisateurs se disent déçus par la qualité des réponses des modèles, notamment sur des questions de théorie musicale, et s’interrogent sur la possibilité d’une amélioration majeure de ces modèles au fil du temps.