1 points par GN⁺ 2024-11-23 | 1 commentaires | Partager sur WhatsApp
  • Il existait récemment un mystère : les grands modèles de langage (LLM) jouent mal aux échecs. Cependant, gpt-3.5-turbo-instruct fait figure d’exception et joue bien aux échecs à un niveau amateur. Ce modèle est plus ancien et plus petit que d’autres modèles récents.

  • Plusieurs théories ont été avancées :

    • Théorie 1 : les modèles de base suffisamment grands jouent bien aux échecs, mais ce n’est plus le cas après l’ajustement par instruction vers des modèles de chat.
    • Théorie 2 : gpt-3.5-turbo-instruct a peut-être été entraîné sur davantage de données d’échecs.
    • Théorie 3 : il y a quelque chose de particulier dans certaines architectures de LLM.
    • Théorie 4 : il existe une « concurrence » entre types de données, si bien qu’un LLM a besoin de beaucoup de données de parties d’échecs pour bien jouer.
    • Théorie 5 : OpenAI triche.
    • Théorie 6 : les LLM ne peuvent en réalité pas jouer aux échecs.
  • L’idée qu’OpenAI triche est difficile à croire. gpt-3.5-turbo-instruct choisit ses coups différemment d’un moteur d’échecs et, selon les standards des experts, n’est pas exceptionnel.

  • Les LLM peuvent jouer aux échecs. gpt-3.5-turbo-instruct propose très rarement des coups illégaux et joue bien même sur de nouvelles positions.

  • gpt-3.5-turbo-instruct est un modèle de « complétion », qui reçoit du texte et génère un nouveau texte. gpt-4o-mini et gpt-4o sont des modèles de « chat », qui utilisent un prompt système et un prompt utilisateur.

  • Diverses expériences ont confirmé que l’ajustement des prompts, l’ajout d’exemples et le fine-tuning peuvent influer sur les performances du modèle.

  • L’ajout d’exemples a eu un fort impact sur les performances, et le fine-tuning aide aussi. En revanche, fournir des coups légaux dégrade les performances.

  • Lorsqu’on pousse gpt-4o à fonctionner comme en mode « complétion », ses performances s’améliorent. Cela suggère que gpt-4-base pourrait être bon aux échecs.

  • En conclusion, les modèles de base d’OpenAI ont probablement appris sur davantage de données d’échecs, et les modèles de chat peuvent être moins performants que les modèles de complétion.

  • Trouver le prompt optimal, les bons exemples et le bon fine-tuning est difficile et coûteux.

1 commentaires

 
GN⁺ 2024-11-23
Avis Hacker News
  • L’auteur ne fournit pas de données sur la fréquence des coups illégaux, ce qui rend difficile toute conclusion pertinente

    • Par exemple, c’est un peu comme affirmer qu’un LLM est un médecin de niveau expert tout en ne montrant que les données excluant les mauvais conseils médicaux
  • gpt-3.5-turbo-instruct ne propose presque jamais de coups illégaux, même en finale

    • Certains affirment que ce modèle « comprend » les échecs et peut « raisonner »
    • Cela soulève des doutes, dans la mesure où même un joueur d’échecs « amateur avancé » fait rarement des coups illégaux
  • Une façon de tester s’il comprend les échecs consiste à lui faire jouer le coup suivant à partir de 1000 positions légales aléatoires

    • On vérifie, à partir de positions générées via le projet ChessPositionRanking, s’il ne propose pas de coups illégaux
    • Ces positions sont utiles pour tester la légalité du coup suivant, mais moins pour distinguer la qualité du jeu
  • Tout le monde n’a pas forcément tort

    • Il faut supposer que les benchmarks publiés ont été ciblés d’une manière ou d’une autre pendant l’entraînement
    • Il est naturel qu’OpenAI inclue des parties d’échecs dans ses données d’entraînement
  • Les LLM donnent l’impression de chercher la bonne formule

    • On espère que l’innovation technologique continuera ; les LLM sont étonnants, mais donnent parfois l’impression de sortir d’un film de SF
  • Il est avancé qu’un entraînement sur des exemples de code améliore le « raisonnement »

    • Si l’article « world models from language » fonctionne, alors les échecs devraient en être le plus petit cas d’usage
  • Il pourrait exister un cas particulier où gpt-3.5-turbo-instruct reconnaît la notation échiquéenne et appelle un moteur d’échecs externe

    • Il est suggéré qu’un modèle donné a peut-être été entraîné à basculer vers un autre LLM lorsqu’il reconnaît la notation échiquéenne
  • Les résultats ont été mesurés alors même qu’il n’avait pas été explicitement demandé au LLM de gagner la partie

    • La question se pose de savoir si cela est implicite dans un prompt du type « Vous êtes un grand maître des échecs »
  • Le fine-tuning aide, et des exemples peuvent s’y substituer

    • Il est intéressant que fournir des exemples puisse produire un effet équivalent au fine-tuning
  • Jouer aux échecs contre un LLM sans réfléchir au prompt pourrait être amusant

    • Cela pourrait devenir une nouvelle manière de sentir comment un LLM « pense »