- Cinq grands modèles de langage, dont GPT-5, Claude, Gemini, Grok et DeepSeek, ont effectué du trading boursier virtuel pendant 8 mois à partir de données réelles de marché
- Chaque modèle tradait quotidiennement des valeurs majeures avec 100 000 dollars de capital fictif, tandis que toutes les décisions et les évolutions de portefeuille étaient consignées
- Au final, Grok a obtenu le meilleur rendement, DeepSeek a terminé de peu à la 2e place, et Gemini a fini dernier avec un portefeuille centré sur des valeurs non technologiques
- L’expérience s’est déroulée du 3 février au 20 octobre 2025, avec un environnement d’API filtré dans le temps afin que les modèles n’accèdent qu’aux données postérieures à leur date d’entraînement
- Les chercheurs comptent utiliser cette expérience comme point de départ pour vérifier de manière systématique les capacités d’analyse financière des LLM via des expériences de trading en temps réel et de contrôle des variables
Présentation d’AI Trade Arena
- AI Trade Arena est une plateforme expérimentale conçue pour évaluer la capacité des LLM à analyser et prédire les données financières réelles
- Développée conjointement par Kam et Josh
- Pensée pour permettre aux modèles d’effectuer des opérations boursières à partir des actualités, des états financiers et des données de marché
- La plateforme suit les positions détenues, l’historique des transactions et les performances de chaque modèle, et rend public l’ensemble du processus via une démo interactive
Première expérience : le trading boursier de 5 LLM
- Les modèles testés sont GPT-5, Claude Sonnet 4.5, Gemini 2.5 Pro, Grok 4 et DeepSeek
- Chacun a reçu 100 000 dollars de capital fictif
- Le trading d’options est exclu, seules les principales actions sont négociées
- Toutes les transactions sont effectuées sur la base des cours réels passés, et les modèles n’ont accès qu’aux informations disponibles à ce moment-là
- L’API d’actualités, les informations financières des entreprises et les données de marché sont fournies avec un filtrage temporel
- L’expérience s’est déroulée du 3 février 2025 au 20 octobre 2025, soit environ 8 mois
Le concept de backtesting et ses limites
- Le backtest consiste à vérifier la performance d’un algorithme de trading à l’aide de données historiques
- Il simule les décisions qu’un LLM aurait prises à un moment passé
- Les API sont séparées selon la chronologie afin d’éviter toute fuite de données futures
- Avantages
- Évaluation possible de modèles à grande échelle
- Test rapide de scénarios variés
- Obtention de résultats statistiquement significatifs
- Inconvénients
- Impossible de reproduire parfaitement l’environnement concurrentiel et la liquidité d’un marché réel
- Présence de risques liés au slippage, aux contraintes de volume de transaction et aux fuites de données futures
- Possibilité de surapprentissage (overfitting) sur les données historiques
Résultats et observations
- Tous les modèles ont été testés uniquement sur une période postérieure au cutoff de leurs données d’entraînement
- Cela empêche les modèles de trader en mémorisant les résultats passés du marché
- Grok a obtenu la meilleure performance, avec DeepSeek juste derrière à la 2e place
- La plupart des modèles ont construit des portefeuilles centrés sur les valeurs technologiques, ce qui leur a permis d’obtenir de bons rendements
- Gemini, avec une part plus importante de valeurs non technologiques, a affiché la plus mauvaise performance
- Les chercheurs ont rendu publics l’ensemble du processus de trading et ses justifications afin de garantir la transparence
- Il est possible de consulter directement dans l’interface les motifs de chaque transaction
Prochaines étapes
- Les chercheurs prévoient d’étendre l’initiative au-delà du backtest vers des expériences de trading en temps réel
- Approche en 3 étapes : backtest sur scénarios passés → trading simulé en temps réel → trading sur marché réel
- L’objectif est de comprendre de façon systématique les capacités d’analyse des marchés financiers et la qualité de décision des LLM
- Utiliser les données de marché comme indicateurs d’évaluation ancrés dans le réel
- Tenter de distinguer la chance de la compétence via une analyse factorielle Barra, entre autres
- Les historiques de transactions permettent d’identifier la différence entre un jugement fondé sur la mémorisation et un véritable raisonnement
- Exemple : distinguer un achat de Nvidia fondé sur un simple souvenir d’un achat appuyé sur une analyse du rapport 10-K menant à une intuition fondamentale
- Une telle analyse transparente de la prise de décision peut aussi aider à améliorer la composition des outils et les workflows des modèles
Participation et exploration des données
- La démo interactive du site permet d’explorer directement les transactions, les stratégies et le raisonnement de chaque modèle
- Les chercheurs préparent des expériences supplémentaires et recueillent déjà des avis via la communauté Discord et les DM Twitter
Aucun commentaire pour le moment.