-
Il existait récemment un mystère : les grands modèles de langage (LLM) jouent mal aux échecs. Cependant,
gpt-3.5-turbo-instructfait figure d’exception et joue bien aux échecs à un niveau amateur. Ce modèle est plus ancien et plus petit que d’autres modèles récents. -
Plusieurs théories ont été avancées :
- Théorie 1 : les modèles de base suffisamment grands jouent bien aux échecs, mais ce n’est plus le cas après l’ajustement par instruction vers des modèles de chat.
- Théorie 2 :
gpt-3.5-turbo-instructa peut-être été entraîné sur davantage de données d’échecs. - Théorie 3 : il y a quelque chose de particulier dans certaines architectures de LLM.
- Théorie 4 : il existe une « concurrence » entre types de données, si bien qu’un LLM a besoin de beaucoup de données de parties d’échecs pour bien jouer.
- Théorie 5 : OpenAI triche.
- Théorie 6 : les LLM ne peuvent en réalité pas jouer aux échecs.
-
L’idée qu’OpenAI triche est difficile à croire.
gpt-3.5-turbo-instructchoisit ses coups différemment d’un moteur d’échecs et, selon les standards des experts, n’est pas exceptionnel. -
Les LLM peuvent jouer aux échecs.
gpt-3.5-turbo-instructpropose très rarement des coups illégaux et joue bien même sur de nouvelles positions. -
gpt-3.5-turbo-instructest un modèle de « complétion », qui reçoit du texte et génère un nouveau texte.gpt-4o-minietgpt-4osont des modèles de « chat », qui utilisent un prompt système et un prompt utilisateur. -
Diverses expériences ont confirmé que l’ajustement des prompts, l’ajout d’exemples et le fine-tuning peuvent influer sur les performances du modèle.
-
L’ajout d’exemples a eu un fort impact sur les performances, et le fine-tuning aide aussi. En revanche, fournir des coups légaux dégrade les performances.
-
Lorsqu’on pousse
gpt-4oà fonctionner comme en mode « complétion », ses performances s’améliorent. Cela suggère quegpt-4-basepourrait être bon aux échecs. -
En conclusion, les modèles de base d’OpenAI ont probablement appris sur davantage de données d’échecs, et les modèles de chat peuvent être moins performants que les modèles de complétion.
-
Trouver le prompt optimal, les bons exemples et le bon fine-tuning est difficile et coûteux.
1 commentaires
Avis Hacker News
L’auteur ne fournit pas de données sur la fréquence des coups illégaux, ce qui rend difficile toute conclusion pertinente
gpt-3.5-turbo-instructne propose presque jamais de coups illégaux, même en finaleUne façon de tester s’il comprend les échecs consiste à lui faire jouer le coup suivant à partir de 1000 positions légales aléatoires
Tout le monde n’a pas forcément tort
Les LLM donnent l’impression de chercher la bonne formule
Il est avancé qu’un entraînement sur des exemples de code améliore le « raisonnement »
Il pourrait exister un cas particulier où
gpt-3.5-turbo-instructreconnaît la notation échiquéenne et appelle un moteur d’échecs externeLes résultats ont été mesurés alors même qu’il n’avait pas été explicitement demandé au LLM de gagner la partie
Le fine-tuning aide, et des exemples peuvent s’y substituer
Jouer aux échecs contre un LLM sans réfléchir au prompt pourrait être amusant