Êtes-vous meilleur qu’un modèle de langage pour prédire le mot suivant ?

« Êtes-vous plus intelligent qu’un modèle de langage ? »

De nombreux benchmarks cherchent à évaluer dans quelle mesure les modèles de langage accomplissent des tâches humaines.
Mais jusqu’à quel point pouvez-vous réussir dans la tâche typique d’un modèle de langage consistant à prédire le mot suivant ?

Résolvez 15 questions

3 commentaires

curioe 2024-08-19

4 points... le résultat est rageant.

xguru 2024-08-19

Oh là là. En le faisant comme un exercice d’anglais, mon score est vraiment catastrophique T_T

GN⁺ 2024-08-19

Avis sur Hacker News

Ce n’est pas ce à quoi on s’attendait avec un titre comme « intelligent », mais l’idée est intéressante
- Il vaudrait mieux n’afficher qu’une seule question à la fois et fournir un retour immédiat après chaque réponse
- Cela rendrait l’expérience plus immersive, et il serait utile de pouvoir vérifier tout de suite la bonne réponse
Un jeu/quiz a été créé à partir de commentaires Hacker News pour deviner le mot suivant
- llama2 a été utilisé pour générer trois complétions alternatives pour chaque commentaire afin de créer des questions à choix multiple
- Le modèle de langage local choisissait la réponse dont la perplexité totale du prompt et de la réponse était la plus faible
- Les modèles OpenAI étaient contraints via logit_bias à ne choisir qu’une seule des réponses autorisées
- Il n’a pas été possible de comparer avec Claude ou d’autres LLM en ligne
- On ne peut pas dire que le quiz soit amusant, mais il était possible de maintenir régulièrement un taux de bonnes réponses supérieur à 50 %
La stratégie gagnante consiste à choisir le mot que le modèle de langage a le moins de chances de sélectionner
- Choisir la réponse « atypique » est la meilleure stratégie
- Cela pourrait constituer une stratégie simple pour détecter du contenu généré par l’IA
Les résultats montrent qu’il est impossible de prédire exactement le mot suivant avec les informations fournies
- Il serait préférable de classer les réponses par probabilité et d’attribuer un score selon la hauteur à laquelle la bonne réponse est classée, ce qui ferait mieux que le hasard
- On se demande si le LLM essayait d’imiter la voix de l’auteur d’origine
Ce jeu est un bon test pour vérifier si l’on lit trop de commentaires HN
Comme on reçoit un quiz aléatoire à chaque fois, il est impossible de comparer les résultats
- S’ils trouvaient un corpus sur lequel une personne moyenne peut battre un LLM, et y ajoutaient un défi quotidien façon Wordle ainsi qu’une fonction de partage social, cela pourrait devenir viral
Grâce au temps passé sur HN, il était possible de faire des prédictions légèrement meilleures que l’IA
Pour celles et ceux qui tentent le quiz de 100 questions : selon les critères statistiques traditionnels, il faut en réussir plus d’un tiers pour être considéré comme meilleur que le simple hasard
- Pour faire mieux qu’un LLM, il faut en réussir plus de la moitié
Si l’échantillon provenait de HN, il est possible que le texte fasse déjà partie du dataset
- En regardant les commentaires récents, c’est probablement peu probable
- ChatGPT peut utiliser l’outil de recherche Bing, mais il est peu probable que le modèle API gpt4o-mini le fasse
Certains extraits proviennent d’un contexte plus large, ce qui place le LLM dans une position avantageuse pour la prédiction

Êtes-vous meilleur qu’un modèle de langage pour prédire le mot suivant ?

À lire aussi

3 commentaires

Avis sur Hacker News