Trump dixit : analyse en temps réel des déclarations de Trump et fil sur leur impact sur l’économie coréenne
(trump-saith.com)Bonjour ! J’ai créé « Trump-Saith », un service qui analyse en temps réel l’impact des déclarations de l’ancien président Trump sur l’économie et les marchés coréens.
Site web : https://trump-saith.com/ (https://trump-saith.com/)
Fonctionnalités principales : collecte en temps réel des déclarations de Trump -> résumé en coréen par LLM -> analyse de l’impact économique -> diffusion dans un fil après déduplication
💡 Pourquoi l’avoir créé ?
Ces derniers temps, une simple déclaration de Trump suffit souvent à faire tanguer la Bourse coréenne et le taux de change. Mais il est difficile de suivre les textes originaux publiés sur Truth Social et ailleurs, et les médias existants sont plus lents car ils passent par un travail éditorial.
J’ai donc lancé ce projet avec l’idée de « collecter directement les déclarations le plus vite possible, puis n’en montrer que l’essentiel du point de vue des développeurs et des investisseurs ».
🛠️ Stack technique et architecture
Comme il s’agit d’une communauté de développeurs, je voulais aussi partager la manière dont c’est implémenté. J’ai construit le pipeline en 4 couches indépendantes.
-
Data Collection (Python, APScheduler)
Surveillance de l’API Truth Social et des canaux RSS à une fréquence d’une minute pour collecter les données brutes.
Les données collectées sont stockées de façon persistante dans Oracle DB, puis transmises de manière asynchrone à la couche suivante via Redis Streams. -
Analysis (Gemini 2.0 Flash)
Les textes collectés sont analysés avec le modèle Gemini 2.0 Flash.
Il ne s’agit pas d’une simple traduction, mais de l’extraction d’un résumé et de mots-clés du point de vue de « l’impact sur l’économie et les marchés coréens ». (résumé en 3 à 5 phrases) -
Deduplication (Sentence-Transformers, Qdrant)
Traitement des déclarations de contenu identique collectées depuis plusieurs canaux.
Le modèle all-MiniLM-L6-v2 génère des embeddings de phrases, puis Qdrant (Vector DB) filtre les doublons sur la base d’une similarité cosinus de 0,85. -
API & Feed
Les données finales, une fois nettoyées, sont fournies au client.
✨ Différenciation
Rapidité : l’analyse commence dès que la déclaration originale de Trump est publiée, avant même la sortie des articles de presse.
Analyse de contexte : grâce au prompt LLM, on fait ressortir la question « que signifie cette déclaration pour l’industrie coréenne des semi-conducteurs ou de l’automobile ? ».
Fil propre : la déduplication fondée sur la similarité minimise le bruit lié à l’affichage répété d’une même information.
🚀 Suite du projet
Nous étendons actuellement les canaux de collecte et prévoyons d’ajouter par la suite des alertes push en temps réel sur des mots-clés spécifiques (par ex. Samsung Electronics, droits de douane).
J’espère que cela pourra être utile, même modestement, à celles et ceux qui s’intéressent au croisement entre IT et économie. Les retours sont toujours les bienvenus !
Merci.
8 commentaires
Ça a explosé : 403
Merci ! J’ai enregistré le projet !
« ancien » président
Je ne l’ai pas relu attentivement.. !
On dirait que c’est un texte rédigé avec un modèle dont les données d’entraînement vont de 01.2021 à 01.2025, lol
Classe.
Mais est-ce que cette analyse de l’impact économique correspond aux cartes avec une ou deux phrases chacune, comme un résumé ?
Si ce n’est pas le cas, de mon côté, l’information appelée analyse d’impact ne s’affiche pas pour le moment.
Ce n’est pas affiché séparément.
Il faudrait voir si l’on peut renforcer l’analyse d’impact dans le résumé.
Merci !