- Les LLM s’affrontent dans le premier tournoi cash au monde de ce type, conçu pour évaluer la capacité de raisonnement de l’IA dans des jeux à information incomplète
- Actuellement, Grok 4 est en tête, suivi de Gemini 2.5 Pro, Claude Sonnet 4.5, DeepSeek R1 et OpenAI o3
- Le tournoi adopte le format cash game de Texas Hold’em à $10/$20, avec 4 tables de 9 joueurs jouées simultanément, et le modèle qui accumule le plus de capital sur une semaine l’emporte
- Tous les modèles participants utilisent le même system prompt, et à chaque point de décision, le LLM génère son jugement et son action à partir de sa main, de son stack, des statistiques adverses et de ses notes
- Le tournoi se déroule uniquement entre modèles, sans joueur humain, ce qui permet de comparer directement l’efficacité des algorithmes et les résultats d’apprentissage
- Après le tournoi, les jeux de données de raisonnement main par main et les processus de réflexion de chaque modèle sont analysés afin de servir de base à l’évaluation de la qualité de leur réflexion stratégique
- Cette expérience vise à vérifier la fiabilité du raisonnement de l’IA et son potentiel d’apprentissage stratégique, et attire l’attention comme une nouvelle forme de recherche pour comprendre la pensée probabiliste centrée sur l’humain
Présentation de PokerBattle.ai
- PokerBattle.ai est le premier tournoi de poker cash destiné aux LLM
- Les participants ne sont pas des humains mais des modèles de langage, chacun exécutant sa propre stratégie de poker
- Une récompense financière réelle est en jeu, ce qui relie directement le résultat de la compétition à un enjeu monétaire
- Le projet a été conçu comme une plateforme expérimentale pour évaluer la capacité de jugement stratégique de l’IA
- Le poker, en tant que jeu à information incomplète, sert à mesurer la capacité de raisonnement et d’adaptation des modèles
- L’accent est mis non sur la simple génération de texte, mais sur l’évaluation de comportements fondés sur la prise de décision
Vue d’ensemble et objectif de la compétition
- Le poker est un jeu où l’information incomplète et le jugement probabiliste sont essentiels, avec une structure de décision complexe qui consiste à équilibrer risque et récompense
- La compétition a été organisée pour tester si les LLM peuvent interpréter rationnellement ce type de problème et construire une stratégie cohérente
- L’objectif est aussi de vérifier si les LLM peuvent intégrer les approches traditionnelles d’apprentissage du poker (analyse des mains, calculs mathématiques, usage de solveurs, etc.)
Déroulement
- Tous les matchs se jouent sous la forme d’affrontements directs entre LLM
- Aucun joueur humain ne participe, et chaque modèle décide de ses actions de manière autonome
- Les résultats sont calculés automatiquement selon les règles du poker pour déterminer victoires, défaites et gains
- La progression en temps réel et la publication des résultats garantissent la transparence
- Les journaux d’actions et les choix stratégiques de chaque modèle sont enregistrés et peuvent être analysés
- Phase 1 : collecte des données (27 au 31 octobre)
- Phase 2 : analyse des mains et du raisonnement
- La première phase consiste en un tournoi en ligne en temps réel afin de collecter les données de jeu de chaque LLM
- Ensuite, les traces de raisonnement (reasoning trace) de chaque modèle sont analysées pour comparer leur capacité de jugement stratégique
Règles du tournoi
- Format de jeu : Texas Hold’em, blindes $10/$20, sans ante ni straddle
- Configuration : 4 tables simultanées de 9 joueurs
- Gestion des stacks : recharge automatique si le stack passe sous 100bb
- Condition de victoire : au bout d’une semaine, le modèle disposant de la bankroll la plus élevée gagne
Fonctionnement des modèles
- Tous les LLM participants fonctionnent à partir du même system prompt
- À chaque tour, le modèle reçoit les informations suivantes en entrée :
- Informations sur la main en cours (position, stack, cartes)
- Statistiques de jeu des adversaires (VPIP, PFR, 3bet, etc.)
- Notes sur les adversaires rédigées lors des mains précédentes
- Sortie du modèle :
- Raisonnement logique sur la décision
- Action à exécuter (call, raise, fold, etc.)
- Résumé pour les spectateurs (reasoning summary)
- Une limite de tokens est imposée, et en cas d’erreur de réponse ou de dépassement de temps, l’action est automatiquement traitée comme un fold
Organisateur
- Max Pavlov — spécialiste en gestion de produit et passionné de deep learning, d’IA et de poker
- Il a conçu ce projet pour explorer jusqu’à quel point les LLM peuvent mettre en œuvre une pensée probabiliste complexe et un raisonnement stratégique de type humain
2 commentaires
Waouh, s’il existe un article, une interview ou une conférence publique de la personne qui fait le tuning de ce modèle, j’aimerais bien voir ça.
Avis sur Hacker News
J’ai un doctorat en théorie algorithmique des jeux et j’ai fait de la recherche sur le poker
Pour ces raisons, il est techniquement impossible aujourd’hui pour un LLM de bien jouer au poker. Contrairement aux échecs, le poker n’a pas de stratégie optimale déterministe et exige le maintien d’une cohérence
La partie la plus difficile a été d’écrire efficacement la simulation de Monte-Carlo. Il fallait pondérer probabilistiquement à partir de l’historique des mains des joueurs et refléter leur aléatoire propre
Je n’ai pas utilisé la théorie des jeux, mais ça aurait sans doute été bien meilleur si je l’avais fait. Il n’y a aucune chance qu’un LLM comprenne ce genre de concepts
À l’avenir, la capacité des LLM à appeler des moteurs de jeu externes deviendra importante. Mais dans ce cas, au fond, c’est le moteur qui joue. Il existe déjà des bots de poker de niveau professionnel
Pluribus est limité à des stacks fixes, et l’entraînement comme le jeu demandent énormément de calcul
Je ne suis pas d’accord avec l’affirmation selon laquelle les LLM ne peuvent pas apprendre des stratégies mixtes. Les LLM produisent une distribution sur les tokens, puis en échantillonnent aléatoirement
Le poker est un jeu à somme nulle, donc la chance peut jouer un rôle énorme au début. S’il ne s’agit que d’un seul tournoi, la fiabilité statistique est faible
En plus, il y a des anomalies étranges dans les données — le total est supérieur de 20 $, certains numéros de mains manquent, et il existe des pots à 0 $ malgré une ante de 30 $.
Tout cela fait douter de la fiabilité des résultats
Si les LLM pouvaient se parler tout en bluffant, ce serait une expérience vraiment fascinante. Ce serait aussi très amusant à regarder
Je suis spécialiste des jeux à information incomplète, et je trouve cette expérience très intéressante
Les jeux comme le poker ou Diplomacy sont bien plus difficiles que les échecs, et en particulier le poker à 3 joueurs ou plus n’est pas à somme nulle, donc il n’existe pas d’équilibre de Nash
Ce type de jeu ressemble davantage à la prise de décision dans le monde réel, ce qui en fait un bon terrain d’expérimentation pour la recherche sur les LLM
Les meilleurs IA de poker actuelles reposent sur Counterfactual Regret Minimization (CFR), combiné à de la recherche en temps réel
Noam Brown a étendu cette approche avec de la recherche au moment de l’inférence pour créer Pluribus, qui a battu des pros
Depuis, il a rejoint OpenAI, et il semble que ce type d’idée ait aussi influencé la fonction de “thinking” du modèle o1-preview
La recherche en IA de poker a une influence majeure sur les avancées récentes de l’IA
Quand j’étais à l’université, j’ai gagné 500 000 dollars grâce à une IA de poker, puis j’ai créé PokerTableRatings.com pour détecter la triche
J’ai vendu l’entreprise à Zynga, travaillé comme CTO de Zynga Poker, et je développe récemment, via pokerskill.com, une plateforme d’apprentissage basée sur Pluribus
Chez TEN Protocol, nous avons organisé un tournoi de poker entre LLM en utilisant la blockchain et une génération aléatoire basée sur TEE
Cinq LLM ont disputé plusieurs compétitions pendant des mois, et la partie la plus longue a duré plus de 50 heures
Voir la capture d’écran du jeu, le résumé sur X, et le lien de l’article
Si vous voulez, on peut lancer un nouveau tournoi à observer
Je me demande si les LLM vont continuer à progresser. J’aimerais bien participer moi-même
Mais pour l’instant, ils se trompent encore parfois sur la reconnaissance des mains la plus basique. Par exemple, ils disent « top pair » alors que ce n’est pas le cas
Je suis le créateur de rs-poker. Pour qu’un LLM joue bien au poker, il lui faut des maths, du mensonge et du hasard, et pour l’instant il manque des trois
Nous savons comment calculer les coups optimaux, mais le coût de calcul est trop élevé
Cela dit, il est possible qu’un modèle d’attention basé sur BERT puisse résoudre le poker. Il faudrait de meilleurs jeux de données et entraîner un modèle dédié. Si ça vous intéresse, contactez-moi (elliott.neil.clark@gmail.com)
Même avec une structure d’apprentissage simple, on pourrait probablement les entraîner assez correctement
Cette expérience montre que les LLM sont surtout forts sur des tâches comme la compression ou l’OCR, pas sur le raisonnement logique
Par exemple, ils commettent souvent des erreurs élémentaires du genre « si le board est pairé, une quinte peut se compléter »
À ce niveau-là, je pense que le chemin vers l’AGI reste long
La structure du prompt utilisée pour faire jouer les LLM a été publiée
À chaque tour, le prompt système est identique, et les LLM consultent les statistiques des joueurs (VPIP, PFR, 3bet, etc.) ainsi que des notes passées
La réponse inclut la raison, l’action et le résumé, avec une limite de tokens. En cas de problème, cela compte comme un fold
C’est un peu décevant que les modèles voient directement les statistiques des autres modèles.
Ce serait plus intéressant de les laisser juger uniquement à partir des notes et du contexte. C’est peut-être simplement pour réduire les coûts
Je trouve que cette expérience est une idée vraiment géniale
Avec cette conception expérimentale, il semble difficile pour l’IA de faire émerger de nouvelles stratégies. Traiter le poker sous forme de texte ressemble au problème du manque de compréhension abstraite du réel, comme en maths
Si la conversation et le bluff étaient autorisés, ce serait une expérience vraiment drôle et fascinante 😄