-
Phénomènes étranges entre les LLM et les échecs
- Il y a eu des discussions sur la capacité des LLM (grands modèles de langage) à bien jouer aux échecs. Bien que les LLM aient été conçus pour la prédiction du langage, ils ont montré une capacité à prédire des parties d’échecs.
- Le fait qu’un LLM puisse mener une partie d’échecs jusqu’à son terme était intéressant. Cela peut donner des indices sur la manière dont les LLM fonctionnent aussi dans d’autres situations.
-
Ce que j’ai fait
- J’ai utilisé des prompts spécifiques pour faire jouer aux échecs un LLM. Par exemple, avec une consigne du type : « Vous êtes un grand maître d’échecs. Choisissez le prochain coup. »
- J’ai disputé 50 parties avec le modèle
llama-3.2-3b, mais les résultats n’étaient pas bons. J’ai aussi essayé les modèles plus grands llama-3.1-70b et llama-3.1-70b-instruct, mais les résultats restaient mauvais.
- Le modèle
gpt-3.5-turbo-instruct a montré des performances excellentes. En revanche, tous les autres modèles ont donné de mauvais résultats.
-
Discussion
- Beaucoup de gens ont essayé de jouer aux échecs avec des LLM, mais la plupart des modèles n’obtiennent pas de bons résultats.
- Plusieurs théories existent pour expliquer pourquoi le modèle
gpt-3.5-turbo-instruct joue mieux aux échecs que les autres.
- Une théorie veut qu’un tuning d’instructions supplémentaire puisse dégrader les performances du modèle.
-
Théories possibles
- Théorie 1 : le modèle de base peut jouer aux échecs à partir d’une taille suffisante, mais le tuning d’instructions perturbe cette capacité.
- Théorie 2 :
gpt-3.5-instruct a peut-être été entraîné sur un plus grand nombre de parties d’échecs.
- Théorie 3 : il pourrait exister des différences liées à d’autres architectures de transformeurs.
- Théorie 4 : il pourrait y avoir une « concurrence » entre différents types de données.
-
Détails
- L’expérience a été menée en utilisant la notation algébrique standard des échecs.
- Les modèles OpenAI n’ayant pas de prise en charge grammaticale complète, jusqu’à 10 tentatives étaient faites jusqu’à produire un coup légal.
-
Phénomène étrange lié aux tokens
- Lorsque le prompt contient des espaces, les performances du modèle chutent fortement. Cela semble être un problème du tokenizer.
- La bonne méthode consiste à utiliser le « token healing », mais je n’ai pas trouvé de moyen simple de l’implémenter.
1 commentaires
Avis Hacker News
Il semble qu’OpenAI ait pris les échecs comme critère important et appliqué un traitement particulier à gpt-3.5-turbo-instruct, sans l’ajouter aux modèles suivants
J’ai exécuté tous les modèles open source avec une quantification Q5_K_M, mais je pense que ce n’est pas important, car il ne s’agit que d’une compression avec perte de tous les paramètres
Je ne comprends pas pourquoi des personnes instruites s’attendent à ce que les LLM soient bons aux échecs
Je me demande si les bons résultats sont reproductibles
Je pense que si l’on veut des modèles vraiment intelligents, il faudra peut-être abandonner la tokenisation
J’ai trouvé des résultats expérimentaux montrant que gpt-3.5-turbo-instruct est meilleur aux échecs
Si apprendre les échecs revient à apprendre des séquences, cela peut poser problème
On pourrait essayer d’augmenter le volume de calcul dans l’espace d’exploration du problème
Il existe une théorie selon laquelle GPT-3.5-instruct peut jouer aux échecs en appelant un moteur d’échecs traditionnel
Nous savons qu’il existe différents types de compétences et d’intelligence dans la diversité de l’expérience humaine