8 points par GN⁺ 2024-08-19 | 3 commentaires | Partager sur WhatsApp

« Êtes-vous plus intelligent qu’un modèle de langage ? »

De nombreux benchmarks cherchent à évaluer dans quelle mesure les modèles de langage accomplissent des tâches humaines.
Mais jusqu’à quel point pouvez-vous réussir dans la tâche typique d’un modèle de langage consistant à prédire le mot suivant ?

Résolvez 15 questions

3 commentaires

 
curioe 2024-08-19

4 points... le résultat est rageant.

 
xguru 2024-08-19

Oh là là. En le faisant comme un exercice d’anglais, mon score est vraiment catastrophique T_T

 
GN⁺ 2024-08-19
Avis sur Hacker News
  • Ce n’est pas ce à quoi on s’attendait avec un titre comme « intelligent », mais l’idée est intéressante

    • Il vaudrait mieux n’afficher qu’une seule question à la fois et fournir un retour immédiat après chaque réponse
    • Cela rendrait l’expérience plus immersive, et il serait utile de pouvoir vérifier tout de suite la bonne réponse
  • Un jeu/quiz a été créé à partir de commentaires Hacker News pour deviner le mot suivant

    • llama2 a été utilisé pour générer trois complétions alternatives pour chaque commentaire afin de créer des questions à choix multiple
    • Le modèle de langage local choisissait la réponse dont la perplexité totale du prompt et de la réponse était la plus faible
    • Les modèles OpenAI étaient contraints via logit_bias à ne choisir qu’une seule des réponses autorisées
    • Il n’a pas été possible de comparer avec Claude ou d’autres LLM en ligne
    • On ne peut pas dire que le quiz soit amusant, mais il était possible de maintenir régulièrement un taux de bonnes réponses supérieur à 50 %
  • La stratégie gagnante consiste à choisir le mot que le modèle de langage a le moins de chances de sélectionner

    • Choisir la réponse « atypique » est la meilleure stratégie
    • Cela pourrait constituer une stratégie simple pour détecter du contenu généré par l’IA
  • Les résultats montrent qu’il est impossible de prédire exactement le mot suivant avec les informations fournies

    • Il serait préférable de classer les réponses par probabilité et d’attribuer un score selon la hauteur à laquelle la bonne réponse est classée, ce qui ferait mieux que le hasard
    • On se demande si le LLM essayait d’imiter la voix de l’auteur d’origine
  • Ce jeu est un bon test pour vérifier si l’on lit trop de commentaires HN

  • Comme on reçoit un quiz aléatoire à chaque fois, il est impossible de comparer les résultats

    • S’ils trouvaient un corpus sur lequel une personne moyenne peut battre un LLM, et y ajoutaient un défi quotidien façon Wordle ainsi qu’une fonction de partage social, cela pourrait devenir viral
  • Grâce au temps passé sur HN, il était possible de faire des prédictions légèrement meilleures que l’IA

  • Pour celles et ceux qui tentent le quiz de 100 questions : selon les critères statistiques traditionnels, il faut en réussir plus d’un tiers pour être considéré comme meilleur que le simple hasard

    • Pour faire mieux qu’un LLM, il faut en réussir plus de la moitié
  • Si l’échantillon provenait de HN, il est possible que le texte fasse déjà partie du dataset

    • En regardant les commentaires récents, c’est probablement peu probable
    • ChatGPT peut utiliser l’outil de recherche Bing, mais il est peu probable que le modèle API gpt4o-mini le fasse
  • Certains extraits proviennent d’un contexte plus large, ce qui place le LLM dans une position avantageuse pour la prédiction