6 points par huyng123 3 일 전 | 8 commentaires | Partager sur WhatsApp

Bonjour, je suis ingénieur IA depuis 10 ans et j’investis de temps en temps en bourse.
Personnellement, chaque fois que je faisais des recherches sur des actions, il était très pénible de devoir naviguer entre plusieurs applications de courtiers et les actualités des portails pour collecter des informations de façon fragmentée. Avec l’arrivée de l’IA, c’est devenu bien plus pratique, mais entre les hallucinations et les problèmes de fraîcheur des données, je devais interroger plusieurs IA puis synthétiser leurs réponses, ce qui était un processus très coûteux en énergie.
Pour résoudre cet inconfort personnel, j’ai créé avec une connaissance un service qui permet de voir en un coup d’œil des informations sur les actions ainsi que les résultats d’analyse de plusieurs IA (GPT, Gemini, Claude, DeepSeek).

Accéder au service
• Stock AI : https://jusikai.com.

Moments de réflexion
En développant ce service, nous avons inévitablement eu bien plus de réflexions et de choix à faire sur le plan des politiques que sur le plan technique.
• Sélection des modèles et des prompts : il existe certes déjà beaucoup d’études sur les modèles les plus performants pour l’analyse boursière, mais dans une période comme aujourd’hui où de nouveaux modèles continuent d’affluer, choisir les modèles et les prompts adaptés n’a pas été simple. Avec mon équipe, nous avons construit des données de backtesting par action et les avons utilisées activement pour sélectionner le meilleur modèle. Ce qui est intéressant, c’est qu’un bon modèle ne produit pas toujours de bonnes prédictions.
• Critères de recommandation des actions : ce n’est pas parce qu’une action est simplement bonne qu’elle montera aujourd’hui. C’est sans doute aussi pour cela que Warren Buffett insiste sur l’investissement à long terme. En réalité, cela ne correspondait pas à notre contrainte de devoir recommander chaque jour, nous avons donc défini des conditions court terme (1 semaine) et moyen/long terme (1 mois ou plus). C’était en pratique une méthode de recommandation très intuitive et efficace pour les utilisateurs.
• Publication du dashboard : nous publions en permanence, de manière transparente, les rendements des résultats de recommandation sous forme de dashboard pour chaque modèle. (Heureusement, les rendements d’avril à mai sont bons.)
• Montée en compétence des agents : à intervalles réguliers, les modèles progressent par marché et par action en évaluant leurs propres analyses. Cela permet aux LLM de mieux comprendre les caractéristiques propres à chaque action et à chaque marché, afin d’améliorer les performances.
• Limitation du nombre d’actions et coût de maintenance des LLM : pour l’instant, en raison de problèmes d’optimisation du pipeline, le service ne couvre qu’un nombre limité d’actions. En outre, malgré une optimisation poussée des prompts et l’application maximale du Context Caching pour réduire l’usage des tokens, les coûts de maintenance s’élèvent chaque mois à plusieurs centaines de milliers de wons, ce qui nous amène à nous interroger sur la durabilité du service, hélas.

Je serais reconnaissant de recevoir des retours francs et précis.
• J’aimerais solliciter les conseils des excellents ingénieurs et makers présents sur GeekNews.
• Du point de vue de l’utilisabilité : je me demande si notre méthode de recommandation et notre UI ne paraissent pas trop peu conviviales du point de vue des utilisateurs réels.
• Par ailleurs, je recevrai volontiers tout bug report ou toute critique sévère. Je continuerai à surveiller le service tout le week-end, et je corrigerai immédiatement tout bug pouvant l’être. Merci d’avoir lu ce long message !

8 commentaires

 
computerphilosopher 3 일 전

Peut-être que les fondements des prévisions à court, moyen et long terme reposent sur les rapports des analystes ?

 
huyng123 3 일 전

Oui, c’est exact ! C’est le résultat de l’intégration, lors de la rédaction du rapport, de scores de recommandation calculés séparément pour le court, le moyen et le long terme. Le court terme reflète davantage les signaux comme les indicateurs techniques et les actualités, tandis que le moyen et le long terme reflètent davantage l’amélioration des fondamentaux.

 
dydwls140 3 일 전

J’ai parcouru le service une fois. On voit les efforts fournis, mais puisque vous avez dit que vous accepteriez aussi des critiques sévères, je vais être franc.

Le postulat même selon lequel le consensus de quatre modèles augmenterait la fiabilité me paraît risqué. GPT, Gemini, Claude et DeepSeek ont au final été entraînés sur des données internet similaires, donc face à la même valeur ils tiennent des propos semblables. Qu’il y ait consensus ne signifie pas que la fiabilité est multipliée par quatre ; il est plus probable que le même biais ait été répété quatre fois. L’effet d’un ensemble apparaît quand les modèles sont indépendants les uns des autres, et entre LLM généralistes, rien ne le garantit.

 
huyng123 3 일 전

Merci pour votre retour ! Comme vous l’avez dit, le fait d’avoir quatre modèles ne multiplie absolument pas la fiabilité par quatre. En revanche, on peut considérer qu’ils sont capables de repérer les erreurs les uns des autres. Ce qui est intéressant, c’est que, même avec le même prompt et les mêmes données, la manière d’analyser et les points de vue diffèrent vraiment beaucoup d’un modèle à l’autre. Nous avons aussi beaucoup testé les quatre personas à partir de cet aspect afin d’éviter de les injecter artificiellement. Il y a encore des points à améliorer, mais nous allons continuer à faire évoluer le service pour le rendre plus fiable. Merci beaucoup d’avoir pris le temps de parcourir le service et de nous faire part de votre avis.

 
dydwls140 3 일 전

Merci pour votre réponse ! Pour préciser brièvement le point sur le fait que « les modèles se corrigent mutuellement », même si leurs angles d’approche diffèrent en surface, comme ils ont été entraînés à la même période et sur le même corpus, ils ont tendance à commettre ensemble des erreurs du même type. Dans ce cas, même s’il y a un consensus majoritaire, l’erreur n’est pas filtrée ; elle peut au contraire être renforcée.

Si possible, je vous recommande de le mesurer une fois. Si vous comparez, sur les données de backtest, la distribution des rendements ex post lorsque les 4 modèles (a) sont d’accord et lorsqu’ils (b) divergent, alors si (a) donne des résultats significativement meilleurs que (b), cela démontrerait empiriquement un effet positif du vote majoritaire. S’il n’y a pas de différence, ou si au contraire (b) est meilleur, ce serait plutôt un signal que l’on est face à un bruit consensuel. Comme c’est une hypothèse que vous pouvez tester immédiatement avec les données que vous avez déjà construites, je pense que cela pourrait être intéressant à examiner !

 
huyng123 3 일 전

Merci pour cette bonne suggestion. En réalité, ce n’est pas parce que tous les modèles recommandent une action que son rendement est élevé. Pour ma part, je reliais cela à la caractéristique des actions selon laquelle plus le risque est élevé, plus le rendement potentiel l’est aussi, donc merci pour cette proposition intéressante :)

 
jeongm 3 일 전

Oh… comme on parle d’acheter à fond, j’ai les doigts qui me démangent~
Je vais bien l’utiliser haha

 
huyng123 3 일 전

Oui, merci haha