1 points par GN⁺ 2024-11-15 | 1 commentaires | Partager sur WhatsApp
  • Phénomènes étranges entre les LLM et les échecs

    • Il y a eu des discussions sur la capacité des LLM (grands modèles de langage) à bien jouer aux échecs. Bien que les LLM aient été conçus pour la prédiction du langage, ils ont montré une capacité à prédire des parties d’échecs.
    • Le fait qu’un LLM puisse mener une partie d’échecs jusqu’à son terme était intéressant. Cela peut donner des indices sur la manière dont les LLM fonctionnent aussi dans d’autres situations.
  • Ce que j’ai fait

    • J’ai utilisé des prompts spécifiques pour faire jouer aux échecs un LLM. Par exemple, avec une consigne du type : « Vous êtes un grand maître d’échecs. Choisissez le prochain coup. »
    • J’ai disputé 50 parties avec le modèle llama-3.2-3b, mais les résultats n’étaient pas bons. J’ai aussi essayé les modèles plus grands llama-3.1-70b et llama-3.1-70b-instruct, mais les résultats restaient mauvais.
    • Le modèle gpt-3.5-turbo-instruct a montré des performances excellentes. En revanche, tous les autres modèles ont donné de mauvais résultats.
  • Discussion

    • Beaucoup de gens ont essayé de jouer aux échecs avec des LLM, mais la plupart des modèles n’obtiennent pas de bons résultats.
    • Plusieurs théories existent pour expliquer pourquoi le modèle gpt-3.5-turbo-instruct joue mieux aux échecs que les autres.
    • Une théorie veut qu’un tuning d’instructions supplémentaire puisse dégrader les performances du modèle.
  • Théories possibles

    • Théorie 1 : le modèle de base peut jouer aux échecs à partir d’une taille suffisante, mais le tuning d’instructions perturbe cette capacité.
    • Théorie 2 : gpt-3.5-instruct a peut-être été entraîné sur un plus grand nombre de parties d’échecs.
    • Théorie 3 : il pourrait exister des différences liées à d’autres architectures de transformeurs.
    • Théorie 4 : il pourrait y avoir une « concurrence » entre différents types de données.
  • Détails

    • L’expérience a été menée en utilisant la notation algébrique standard des échecs.
    • Les modèles OpenAI n’ayant pas de prise en charge grammaticale complète, jusqu’à 10 tentatives étaient faites jusqu’à produire un coup légal.
  • Phénomène étrange lié aux tokens

    • Lorsque le prompt contient des espaces, les performances du modèle chutent fortement. Cela semble être un problème du tokenizer.
    • La bonne méthode consiste à utiliser le « token healing », mais je n’ai pas trouvé de moyen simple de l’implémenter.

1 commentaires

 
GN⁺ 2024-11-15
Avis Hacker News
  • Il semble qu’OpenAI ait pris les échecs comme critère important et appliqué un traitement particulier à gpt-3.5-turbo-instruct, sans l’ajouter aux modèles suivants

    • Cela peut être dû au fait que les échecs ne généraient pas une couverture médiatique continue
  • J’ai exécuté tous les modèles open source avec une quantification Q5_K_M, mais je pense que ce n’est pas important, car il ne s’agit que d’une compression avec perte de tous les paramètres

  • Je ne comprends pas pourquoi des personnes instruites s’attendent à ce que les LLM soient bons aux échecs

    • Les échecs exigent un véritable raisonnement et des calculs déterministes
  • Je me demande si les bons résultats sont reproductibles

    • J’ai obtenu de bons résultats par le passé, mais je n’ai pas pu les reproduire ensuite
    • L’économie du capital-risque implique une pression pour justifier une technologie perçue comme une « tromperie »
  • Je pense que si l’on veut des modèles vraiment intelligents, il faudra peut-être abandonner la tokenisation

    • En limitant la structure du flux d’information, on limite aussi la vision et la perception du modèle
  • J’ai trouvé des résultats expérimentaux montrant que gpt-3.5-turbo-instruct est meilleur aux échecs

  • Si apprendre les échecs revient à apprendre des séquences, cela peut poser problème

    • Les moteurs d’échecs modernes peuvent au minimum faire nulle contre n’importe quel joueur
  • On pourrait essayer d’augmenter le volume de calcul dans l’espace d’exploration du problème

    • On peut ajuster divers paramètres en fournissant des instructions étape par étape qu’un joueur d’échecs débutant pourrait suivre
  • Il existe une théorie selon laquelle GPT-3.5-instruct peut jouer aux échecs en appelant un moteur d’échecs traditionnel

  • Nous savons qu’il existe différents types de compétences et d’intelligence dans la diversité de l’expérience humaine

    • Si le modèle est bon aux échecs, c’est peut-être parce qu’il possède par hasard les bonnes « connexions »