« Êtes-vous plus intelligent qu’un modèle de langage ? »
De nombreux benchmarks cherchent à évaluer dans quelle mesure les modèles de langage accomplissent des tâches humaines.
Mais jusqu’à quel point pouvez-vous réussir dans la tâche typique d’un modèle de langage consistant à prédire le mot suivant ?
Résolvez 15 questions
3 commentaires
4 points... le résultat est rageant.
Oh là là. En le faisant comme un exercice d’anglais, mon score est vraiment catastrophique T_T
Avis sur Hacker News
Ce n’est pas ce à quoi on s’attendait avec un titre comme « intelligent », mais l’idée est intéressante
Un jeu/quiz a été créé à partir de commentaires Hacker News pour deviner le mot suivant
logit_biasà ne choisir qu’une seule des réponses autoriséesLa stratégie gagnante consiste à choisir le mot que le modèle de langage a le moins de chances de sélectionner
Les résultats montrent qu’il est impossible de prédire exactement le mot suivant avec les informations fournies
Ce jeu est un bon test pour vérifier si l’on lit trop de commentaires HN
Comme on reçoit un quiz aléatoire à chaque fois, il est impossible de comparer les résultats
Grâce au temps passé sur HN, il était possible de faire des prédictions légèrement meilleures que l’IA
Pour celles et ceux qui tentent le quiz de 100 questions : selon les critères statistiques traditionnels, il faut en réussir plus d’un tiers pour être considéré comme meilleur que le simple hasard
Si l’échantillon provenait de HN, il est possible que le texte fasse déjà partie du dataset
Certains extraits proviennent d’un contexte plus large, ce qui place le LLM dans une position avantageuse pour la prédiction