Une expérience de simulation de trading boursier confie 140 millions de wons à chacun de 5 LLM pendant 8 mois
(aitradearena.com)- Cinq grands modèles de langage, dont GPT-5, Claude, Gemini, Grok et DeepSeek, ont effectué du trading boursier virtuel pendant 8 mois à partir de données réelles de marché
- Chaque modèle tradait quotidiennement des valeurs majeures avec 100 000 dollars de capital fictif, tandis que toutes les décisions et les évolutions de portefeuille étaient consignées
- Au final, Grok a obtenu le meilleur rendement, DeepSeek a terminé de peu à la 2e place, et Gemini a fini dernier avec un portefeuille centré sur des valeurs non technologiques
- L’expérience s’est déroulée du 3 février au 20 octobre 2025, avec un environnement d’API filtré dans le temps afin que les modèles n’accèdent qu’aux données postérieures à leur date d’entraînement
- Les chercheurs comptent utiliser cette expérience comme point de départ pour vérifier de manière systématique les capacités d’analyse financière des LLM via des expériences de trading en temps réel et de contrôle des variables
Présentation d’AI Trade Arena
- AI Trade Arena est une plateforme expérimentale conçue pour évaluer la capacité des LLM à analyser et prédire les données financières réelles
- Développée conjointement par Kam et Josh
- Pensée pour permettre aux modèles d’effectuer des opérations boursières à partir des actualités, des états financiers et des données de marché
- La plateforme suit les positions détenues, l’historique des transactions et les performances de chaque modèle, et rend public l’ensemble du processus via une démo interactive
Première expérience : le trading boursier de 5 LLM
- Les modèles testés sont GPT-5, Claude Sonnet 4.5, Gemini 2.5 Pro, Grok 4 et DeepSeek
- Chacun a reçu 100 000 dollars de capital fictif
- Le trading d’options est exclu, seules les principales actions sont négociées
- Toutes les transactions sont effectuées sur la base des cours réels passés, et les modèles n’ont accès qu’aux informations disponibles à ce moment-là
- L’API d’actualités, les informations financières des entreprises et les données de marché sont fournies avec un filtrage temporel
- L’expérience s’est déroulée du 3 février 2025 au 20 octobre 2025, soit environ 8 mois
Le concept de backtesting et ses limites
- Le backtest consiste à vérifier la performance d’un algorithme de trading à l’aide de données historiques
- Il simule les décisions qu’un LLM aurait prises à un moment passé
- Les API sont séparées selon la chronologie afin d’éviter toute fuite de données futures
- Avantages
- Évaluation possible de modèles à grande échelle
- Test rapide de scénarios variés
- Obtention de résultats statistiquement significatifs
- Inconvénients
- Impossible de reproduire parfaitement l’environnement concurrentiel et la liquidité d’un marché réel
- Présence de risques liés au slippage, aux contraintes de volume de transaction et aux fuites de données futures
- Possibilité de surapprentissage (overfitting) sur les données historiques
Résultats et observations
- Tous les modèles ont été testés uniquement sur une période postérieure au cutoff de leurs données d’entraînement
- Cela empêche les modèles de trader en mémorisant les résultats passés du marché
- Grok a obtenu la meilleure performance, avec DeepSeek juste derrière à la 2e place
- La plupart des modèles ont construit des portefeuilles centrés sur les valeurs technologiques, ce qui leur a permis d’obtenir de bons rendements
- Gemini, avec une part plus importante de valeurs non technologiques, a affiché la plus mauvaise performance
- Les chercheurs ont rendu publics l’ensemble du processus de trading et ses justifications afin de garantir la transparence
- Il est possible de consulter directement dans l’interface les motifs de chaque transaction
Prochaines étapes
- Les chercheurs prévoient d’étendre l’initiative au-delà du backtest vers des expériences de trading en temps réel
- Approche en 3 étapes : backtest sur scénarios passés → trading simulé en temps réel → trading sur marché réel
- L’objectif est de comprendre de façon systématique les capacités d’analyse des marchés financiers et la qualité de décision des LLM
- Utiliser les données de marché comme indicateurs d’évaluation ancrés dans le réel
- Tenter de distinguer la chance de la compétence via une analyse factorielle Barra, entre autres
- Les historiques de transactions permettent d’identifier la différence entre un jugement fondé sur la mémorisation et un véritable raisonnement
- Exemple : distinguer un achat de Nvidia fondé sur un simple souvenir d’un achat appuyé sur une analyse du rapport 10-K menant à une intuition fondamentale
- Une telle analyse transparente de la prise de décision peut aussi aider à améliorer la composition des outils et les workflows des modèles
Participation et exploration des données
- La démo interactive du site permet d’explorer directement les transactions, les stratégies et le raisonnement de chaque modèle
- Les chercheurs préparent des expériences supplémentaires et recueillent déjà des avis via la communauté Discord et les DM Twitter
1 commentaires
Avis sur Hacker News
Grok a obtenu les meilleurs résultats et DeepSeek a pris une courte deuxième place
La plupart des modèles semblaient avoir un portefeuille centré sur les valeurs technologiques, ce qui expliquerait leurs bonnes performances
À l’inverse, Gemini était davantage exposé aux valeurs non technologiques et a terminé dernier
Je ne suis ni investisseur ni chercheur, mais ces résultats donnent l’impression qu’il y a un problème avec la métrique mesurée
Mais le problème, c’est qu’on ne peut pas prévoir le moment de la correction
Si les données ne contenaient pas de marché baissier, le modèle n’aurait pas pu apprendre ce scénario
Il serait même plus intéressant de couper les données en deux, d’entraîner sur une moitié et de tester sur l’autre
Cela rappelle aussi que même les hedge funds peuvent battre le marché pendant 2 à 4 ans, mais qu’au-delà de 10 ans c’est presque impossible
Il faudrait réentraîner les modèles selon les périodes et faire du backtesting pour obtenir des résultats plus significatifs
J’ai travaillé autrefois sur une API de courtage pour le trading algorithmique, et il arrivait souvent que des stratégies qui fonctionnaient bien en backtest échouent sur le marché réel
Même le paper trading en temps réel fonctionne différemment du marché réel
DeepSeek a obtenu de bonnes performances en conservant beaucoup de valeurs technologiques sans vendre, mais une stratégie concentrée sur un seul secteur est risquée
Le fait de ne pouvoir trader qu’une fois par jour signifie que ce n’était pas une expérience de prise de décision en temps réel
Si un LLM pouvait réellement basculer d’un secteur à l’autre au bon moment, ce serait vraiment impressionnant
et il existe aussi un impact de marché (market impact), avec d’autres participants qui annulent ou suivent les ordres
Rien de tout cela n’existe en paper trading
S’il n’y a eu qu’une seule exécution par modèle, ce n’est pas un vrai backtest
Si on ne regarde qu’un seul point dans le temps, même une stratégie simple du type « achetez les valeurs liées à l’IA » peut paraître bonne par hasard
Il faudrait faire 100 exécutions indépendantes sur 10 périodes de marché différentes pour obtenir des statistiques significatives
Dans l’état actuel, cette expérience n’est rien d’autre qu’un générateur de nombres aléatoires très coûteux
Par exemple, Claude coûtait entre 200 et 300 dollars pour une exécution sur 8 mois
J’aurais aimé passer à une plus grande échelle pour obtenir des résultats statistiquement significatifs
Tel quel, cela ressemble presque à un article centré sur les résultats
Même en choisissant des actions au hasard, la probabilité de battre le S&P 500 reste élevée
Mais personne n’appliquerait ensuite cette stratégie telle quelle pendant les 15 années suivantes
Il existe aussi le classement nof1.ai, toujours en cours
Les résultats sont décevants, et la plupart des IA se concentrent sur du trading court terme des valeurs technologiques du Mag7, en subissant des pertes
Nous essayons de corriger cela avec une expérience similaire sur rallies.ai/arena
Cela dit, le tableau de bord de commentaires d’investissement en temps réel de nof1 est agréable à suivre
C’est l’auteur original (OP)
Je connaissais les limites du backtest et du capital fictif, mais je voulais quand même montrer comment les modèles perçoivent le marché
Cela ne veut pas dire qu’ils peuvent battre le marché sur le long terme
Avoir un portefeuille avec un bêta élevé en marché haussier n’a rien d’exceptionnel
Nous menons nous aussi une expérience en temps réel sur les actions et les options
Les modèles ont accès à divers outils, comme les déclarations SEC, les fondamentaux, les prix en temps réel et les données sur les options
À mon avis, les LLM ont déjà mémorisé la quasi-totalité des données historiques, ce qui rend le backtesting peu pertinent
C’est pourquoi nous faisons du forward testing, et même si nous avons encore peu de données, les premiers résultats sont intéressants
rallies.ai/arena
Une expérience similaire a déjà été menée sur les cryptomonnaies avec fonds réels et trading en temps réel
Lien associé
Je pense qu’il est pratiquement impossible d’empêcher les LLM de fuiter des données futures
Des recherches ont montré que c’était difficile, et j’en ai moi-même fait l’expérience en travaillant sur des modèles prédictifs
Le backtesting a peu d’intérêt parce qu’il est différent du trading réel
En plus, 8 mois, c’est beaucoup trop court
À mes yeux, le marché dans 8 ans compte davantage que celui des 8 derniers mois
Même si l’on efface les noms des titres, les modèles ont peut-être suffisamment appris pour deviner NVDA rien qu’à la forme du graphique
Il est difficile de faire confiance aux résultats de backtests de ce genre de modèles
Il faudrait une expérience en direct sur 8 mois, en tenant compte des coûts réels, pour que cela ait du sens
rallies.ai/arena
C’est une approche complètement erronée
Je travaille justement comme chercheur utilisant des LLM pour le trading
Les LLM sont naïfs, faciles à influencer et non déterministes (non-deterministic)
Si l’on répète la même expérience 10 fois, on peut obtenir un résultat différent à chaque fois
La bonne méthode consiste d’abord à construire un algorithme de trading déterministe, puis à ajouter le LLM comme outil auxiliaire
Mettre un LLM directement dans le pipeline de trading ne fait qu’ajouter de l’incertitude inutile
En revanche, cela peut être utile pour brancher rapidement de l’analyse de sentiment ou des tâches de ML d’appoint
Mais une expérience comme celle-ci est un cas typique d’ajout d’IA sans compréhension du domaine
Une recherche réellement utile contrôlerait des variables comme l’exposition sectorielle et répéterait l’expérience des milliers de fois afin d’analyser les schémas de biais propres à chaque LLM
Si un LLM annonçait vouloir « concevoir un algorithme quantitatif » et y parvenait réellement, ce serait alors vraiment remarquable