11 points par GN⁺ 2025-12-06 | 1 commentaires | Partager sur WhatsApp
  • Cinq grands modèles de langage, dont GPT-5, Claude, Gemini, Grok et DeepSeek, ont effectué du trading boursier virtuel pendant 8 mois à partir de données réelles de marché
  • Chaque modèle tradait quotidiennement des valeurs majeures avec 100 000 dollars de capital fictif, tandis que toutes les décisions et les évolutions de portefeuille étaient consignées
  • Au final, Grok a obtenu le meilleur rendement, DeepSeek a terminé de peu à la 2e place, et Gemini a fini dernier avec un portefeuille centré sur des valeurs non technologiques
  • L’expérience s’est déroulée du 3 février au 20 octobre 2025, avec un environnement d’API filtré dans le temps afin que les modèles n’accèdent qu’aux données postérieures à leur date d’entraînement
  • Les chercheurs comptent utiliser cette expérience comme point de départ pour vérifier de manière systématique les capacités d’analyse financière des LLM via des expériences de trading en temps réel et de contrôle des variables

Présentation d’AI Trade Arena

  • AI Trade Arena est une plateforme expérimentale conçue pour évaluer la capacité des LLM à analyser et prédire les données financières réelles
    • Développée conjointement par Kam et Josh
    • Pensée pour permettre aux modèles d’effectuer des opérations boursières à partir des actualités, des états financiers et des données de marché
  • La plateforme suit les positions détenues, l’historique des transactions et les performances de chaque modèle, et rend public l’ensemble du processus via une démo interactive

Première expérience : le trading boursier de 5 LLM

  • Les modèles testés sont GPT-5, Claude Sonnet 4.5, Gemini 2.5 Pro, Grok 4 et DeepSeek
    • Chacun a reçu 100 000 dollars de capital fictif
    • Le trading d’options est exclu, seules les principales actions sont négociées
  • Toutes les transactions sont effectuées sur la base des cours réels passés, et les modèles n’ont accès qu’aux informations disponibles à ce moment-là
    • L’API d’actualités, les informations financières des entreprises et les données de marché sont fournies avec un filtrage temporel
  • L’expérience s’est déroulée du 3 février 2025 au 20 octobre 2025, soit environ 8 mois

Le concept de backtesting et ses limites

  • Le backtest consiste à vérifier la performance d’un algorithme de trading à l’aide de données historiques
    • Il simule les décisions qu’un LLM aurait prises à un moment passé
    • Les API sont séparées selon la chronologie afin d’éviter toute fuite de données futures
  • Avantages
    • Évaluation possible de modèles à grande échelle
    • Test rapide de scénarios variés
    • Obtention de résultats statistiquement significatifs
  • Inconvénients
    • Impossible de reproduire parfaitement l’environnement concurrentiel et la liquidité d’un marché réel
    • Présence de risques liés au slippage, aux contraintes de volume de transaction et aux fuites de données futures
    • Possibilité de surapprentissage (overfitting) sur les données historiques

Résultats et observations

  • Tous les modèles ont été testés uniquement sur une période postérieure au cutoff de leurs données d’entraînement
    • Cela empêche les modèles de trader en mémorisant les résultats passés du marché
  • Grok a obtenu la meilleure performance, avec DeepSeek juste derrière à la 2e place
    • La plupart des modèles ont construit des portefeuilles centrés sur les valeurs technologiques, ce qui leur a permis d’obtenir de bons rendements
    • Gemini, avec une part plus importante de valeurs non technologiques, a affiché la plus mauvaise performance
  • Les chercheurs ont rendu publics l’ensemble du processus de trading et ses justifications afin de garantir la transparence
    • Il est possible de consulter directement dans l’interface les motifs de chaque transaction

Prochaines étapes

  • Les chercheurs prévoient d’étendre l’initiative au-delà du backtest vers des expériences de trading en temps réel
    • Approche en 3 étapes : backtest sur scénarios passés → trading simulé en temps réel → trading sur marché réel
  • L’objectif est de comprendre de façon systématique les capacités d’analyse des marchés financiers et la qualité de décision des LLM
    • Utiliser les données de marché comme indicateurs d’évaluation ancrés dans le réel
    • Tenter de distinguer la chance de la compétence via une analyse factorielle Barra, entre autres
  • Les historiques de transactions permettent d’identifier la différence entre un jugement fondé sur la mémorisation et un véritable raisonnement
    • Exemple : distinguer un achat de Nvidia fondé sur un simple souvenir d’un achat appuyé sur une analyse du rapport 10-K menant à une intuition fondamentale
  • Une telle analyse transparente de la prise de décision peut aussi aider à améliorer la composition des outils et les workflows des modèles

Participation et exploration des données

  • La démo interactive du site permet d’explorer directement les transactions, les stratégies et le raisonnement de chaque modèle
  • Les chercheurs préparent des expériences supplémentaires et recueillent déjà des avis via la communauté Discord et les DM Twitter

1 commentaires

 
GN⁺ 2025-12-06
Avis sur Hacker News
  • Grok a obtenu les meilleurs résultats et DeepSeek a pris une courte deuxième place
    La plupart des modèles semblaient avoir un portefeuille centré sur les valeurs technologiques, ce qui expliquerait leurs bonnes performances
    À l’inverse, Gemini était davantage exposé aux valeurs non technologiques et a terminé dernier
    Je ne suis ni investisseur ni chercheur, mais ces résultats donnent l’impression qu’il y a un problème avec la métrique mesurée

    • Si l’on croit que le secteur technologique va continuer à monter, on peut battre la moyenne du marché
      Mais le problème, c’est qu’on ne peut pas prévoir le moment de la correction
      Si les données ne contenaient pas de marché baissier, le modèle n’aurait pas pu apprendre ce scénario
      Il serait même plus intéressant de couper les données en deux, d’entraîner sur une moitié et de tester sur l’autre
      Cela rappelle aussi que même les hedge funds peuvent battre le marché pendant 2 à 4 ans, mais qu’au-delà de 10 ans c’est presque impossible
    • Une approche plus valable serait de créer 100 portefeuilles par modèle et d’exécuter une simulation de Monte Carlo pour en observer la performance moyenne
    • Il serait bien de refaire cette étude aussi en marché baissier (bear market)
    • Le S&P 500 est lui aussi fortement pondéré en valeurs technologiques, et c’est un indice difficile à battre sur le long terme
    • Cette expérience semble seulement montrer la performance récente sans tenir compte du contexte propre à chaque période
      Il faudrait réentraîner les modèles selon les périodes et faire du backtesting pour obtenir des résultats plus significatifs
  • J’ai travaillé autrefois sur une API de courtage pour le trading algorithmique, et il arrivait souvent que des stratégies qui fonctionnaient bien en backtest échouent sur le marché réel
    Même le paper trading en temps réel fonctionne différemment du marché réel
    DeepSeek a obtenu de bonnes performances en conservant beaucoup de valeurs technologiques sans vendre, mais une stratégie concentrée sur un seul secteur est risquée
    Le fait de ne pouvoir trader qu’une fois par jour signifie que ce n’était pas une expérience de prise de décision en temps réel
    Si un LLM pouvait réellement basculer d’un secteur à l’autre au bon moment, ce serait vraiment impressionnant

    • Sur le marché réel, les ordres peuvent être servis en priorité par des market makers (front running),
      et il existe aussi un impact de marché (market impact), avec d’autres participants qui annulent ou suivent les ordres
      Rien de tout cela n’existe en paper trading
    • Quand de l’argent réel est en jeu, des facteurs émotionnels entrent en ligne de compte, ce qui rend difficile de faire totalement confiance au jugement d’une machine
    • Si l’on essaie un grand nombre de stratégies, on peut tomber par hasard sur une stratégie qui colle aux données historiques, ce qui rend le backtest seul dénué de sens
    • Moi aussi, quand je faisais du paper trading avec ThinkOrSwim, j’avais multiplié mon capital par deux ou trois, mais sur le marché réel ce fut un échec total
  • S’il n’y a eu qu’une seule exécution par modèle, ce n’est pas un vrai backtest
    Si on ne regarde qu’un seul point dans le temps, même une stratégie simple du type « achetez les valeurs liées à l’IA » peut paraître bonne par hasard
    Il faudrait faire 100 exécutions indépendantes sur 10 périodes de marché différentes pour obtenir des statistiques significatives
    Dans l’état actuel, cette expérience n’est rien d’autre qu’un générateur de nombres aléatoires très coûteux

    • Le budget étant limité, il n’a pas été possible de lancer les modèles plusieurs fois
      Par exemple, Claude coûtait entre 200 et 300 dollars pour une exécution sur 8 mois
      J’aurais aimé passer à une plus grande échelle pour obtenir des résultats statistiquement significatifs
    • L’article précise bien que les résultats ne sont pas statistiquement significatifs, mais ce point aurait dû être davantage mis en avant
      Tel quel, cela ressemble presque à un article centré sur les résultats
    • L’absence d’autres indicateurs (metrics) que le rendement total est aussi un problème
      Même en choisissant des actions au hasard, la probabilité de battre le S&P 500 reste élevée
    • À la limite, on pourrait faire une expérience du genre : « quelles actions fallait-il acheter le 1er janvier 2010 pour maximiser le rendement 15 ans plus tard ? »
      Mais personne n’appliquerait ensuite cette stratégie telle quelle pendant les 15 années suivantes
    • Le résultat d’une seule exécution n’est en pratique qu’une marche aléatoire (random walk)
  • Il existe aussi le classement nof1.ai, toujours en cours
    Les résultats sont décevants, et la plupart des IA se concentrent sur du trading court terme des valeurs technologiques du Mag7, en subissant des pertes

    • La limite de nof1, c’est qu’il utilise très peu de données d’analyse d’entreprise réellement utiles aux investisseurs
      Nous essayons de corriger cela avec une expérience similaire sur rallies.ai/arena
    • J’ai vu hier sur X (Twitter) que ça faisait beaucoup parler, et j’ai cru que c’étaient les résultats de nof1, mais c’était une expérience complètement différente
      Cela dit, le tableau de bord de commentaires d’investissement en temps réel de nof1 est agréable à suivre
    • En regardant le site, on dirait que les modèles ne peuvent trader qu’un petit nombre de valeurs technologiques et la pièce XYZ100
    • Je me demande si ce « modèle mystère » n’est pas en fait leur propre modèle
    • Comme l’information sur les prix se diffuse trop vite, les résultats dépendent énormément de l’architecture des agents et de la boucle de feedback
  • C’est l’auteur original (OP)
    Je connaissais les limites du backtest et du capital fictif, mais je voulais quand même montrer comment les modèles perçoivent le marché
    Cela ne veut pas dire qu’ils peuvent battre le marché sur le long terme

    • Ce serait bien de faire aussi une expérience contrôlée en comparaison avec des participants humains
    • Comme il ne s’agit pas de transactions avec de l’argent réel, il n’y a absolument aucun impact de marché
    • Sans publier le rendement ajusté du risque, la portée des résultats reste faible
      Avoir un portefeuille avec un bêta élevé en marché haussier n’a rien d’exceptionnel
    • Il faut dire « came in a close second » et non « DeepSeek came close to second »
    • En tant que docteur en recherche sur les marchés de capitaux, je pense qu’il faut calculer les rendements anormaux (alpha) pour juger d’une véritable surperformance
  • Nous menons nous aussi une expérience en temps réel sur les actions et les options
    Les modèles ont accès à divers outils, comme les déclarations SEC, les fondamentaux, les prix en temps réel et les données sur les options
    À mon avis, les LLM ont déjà mémorisé la quasi-totalité des données historiques, ce qui rend le backtesting peu pertinent
    C’est pourquoi nous faisons du forward testing, et même si nous avons encore peu de données, les premiers résultats sont intéressants
    rallies.ai/arena

    • Certains se demandent s’il est vraiment possible de faire confiance à cela si le code ou les prompts ne sont pas open source
    • Je me demande pourquoi Qwen a obtenu des performances bien pires que les autres modèles
  • Une expérience similaire a déjà été menée sur les cryptomonnaies avec fonds réels et trading en temps réel
    Lien associé
    Je pense qu’il est pratiquement impossible d’empêcher les LLM de fuiter des données futures
    Des recherches ont montré que c’était difficile, et j’en ai moi-même fait l’expérience en travaillant sur des modèles prédictifs

  • Le backtesting a peu d’intérêt parce qu’il est différent du trading réel
    En plus, 8 mois, c’est beaucoup trop court
    À mes yeux, le marché dans 8 ans compte davantage que celui des 8 derniers mois

    • Pour faire du backtesting avec des LLM, il faudrait complètement blanchir (white-wash) les données historiques
      Même si l’on efface les noms des titres, les modèles ont peut-être suffisamment appris pour deviner NVDA rien qu’à la forme du graphique
  • Il est difficile de faire confiance aux résultats de backtests de ce genre de modèles
    Il faudrait une expérience en direct sur 8 mois, en tenant compte des coûts réels, pour que cela ait du sens

    • Nous menons actuellement une expérience live sur les actions et les options
      rallies.ai/arena
  • C’est une approche complètement erronée
    Je travaille justement comme chercheur utilisant des LLM pour le trading
    Les LLM sont naïfs, faciles à influencer et non déterministes (non-deterministic)
    Si l’on répète la même expérience 10 fois, on peut obtenir un résultat différent à chaque fois
    La bonne méthode consiste d’abord à construire un algorithme de trading déterministe, puis à ajouter le LLM comme outil auxiliaire
    Mettre un LLM directement dans le pipeline de trading ne fait qu’ajouter de l’incertitude inutile
    En revanche, cela peut être utile pour brancher rapidement de l’analyse de sentiment ou des tâches de ML d’appoint
    Mais une expérience comme celle-ci est un cas typique d’ajout d’IA sans compréhension du domaine
    Une recherche réellement utile contrôlerait des variables comme l’exposition sectorielle et répéterait l’expérience des milliers de fois afin d’analyser les schémas de biais propres à chaque LLM
    Si un LLM annonçait vouloir « concevoir un algorithme quantitatif » et y parvenait réellement, ce serait alors vraiment remarquable