- Test des performances de plus de 60 grands modèles de langage (Large Language Models, LLM) à l’aide d’un ensemble de 20 questions, avec compilation des réponses de chaque LLM
- Ces questions sont conçues pour évaluer le raisonnement de base, le respect des consignes et la créativité des LLM
- Les réponses des LLM sont stockées dans une base de données SQLite
- Les questions vont de problèmes d’arithmétique simples à des tâches plus complexes, comme expliquer la théorie quantique des champs à un lycéen
- Le script comprend aussi des tâches que les LLM doivent exécuter, comme la traduction de phrases, l’identification de bugs dans du code et la génération de fonctions Python
- L’auteur a exécuté le script en utilisant les API d’OpenRouter, TogetherAI, OpenAI, Cohere, Aleph Alpha et AI21
- Il prévoit d’améliorer le script en utilisant des séquences d’arrêt et des formats de prompt optimisés pour chaque modèle
- Parmi les idées futures : calculer un classement ELO via un vote public, comparer deux modèles côte à côte et intégrer des prompts soumis par la communauté
1 commentaires
Avis Hacker News