- Les modèles de fondation existants traitent le texte, l’image, l’audio et la vidéo, mais manquent de capacités de raisonnement temporel sur les données de séries temporelles qui pilotent le monde réel (signes vitaux, prix, télémétrie, logs, etc.)
- Les Time Series Language Models (TSLMs) prennent en charge les séries temporelles comme une modalité native au même titre que le texte, ce qui permet aux utilisateurs de poser des questions en langage naturel et d’obtenir des explications et des recommandations
- OpenTSLM est un nouveau modèle de langage conçu pour traiter conjointement des données de séries temporelles et du texte clinique dans le domaine médical
- Il adopte une architecture à cross-attention, ce qui lui permet de passer à l’échelle même avec de longues séries temporelles, et rend l’exploitation à grande échelle plus pratique que les approches existantes
- Deux architectures sont proposées : SoftPrompt (insertion des séries temporelles sous forme de tokens) et Flamingo (basée sur l’attention croisée), chacune avec ses avantages et ses limites
- Trois nouveaux jeux de données Chain-of-Thought (CoT) (HAR, Sleep, ECG-QA) sont introduits pour évaluer les performances de raisonnement du modèle
- Par rapport à GPT-4o, un modèle 200 fois plus petit atteint une précision 4,4 fois supérieure pour la classification des stades du sommeil, 6 fois supérieure pour la reconnaissance d’activité, et 2 fois supérieure pour l’interprétation d’ECG (avec une efficacité respective de 880x, 1 000x et 400x)
- Première dans le domaine médical : traitement simultané de signaux ECG à 12 dérivations et de texte, avec un raisonnement chain-of-thought validé par des cardiologues
- Traitement simultané de séries temporelles multiples à longueur variable et intégration avec le contexte textuel pour générer des explications interprétables validées par des experts du domaine
- L’étude montre un potentiel d’extension à divers domaines applicatifs des séries temporelles, au-delà de la santé : finance, supply chain, monitoring industriel, etc.
Aperçu de la recherche
- Le diagnostic clinique et le traitement reposent fondamentalement sur la compréhension des évolutions dans le temps
- Les LLM existants peuvent traiter diverses modalités comme l’image, le texte ou la voix, mais restaient limités dans l’interprétation de données de séries temporelles continues
- Pour répondre à ce problème, OpenTSLM propose d’intégrer les données de séries temporelles comme une nouvelle modalité native des LLM
Architecture du modèle
- OpenTSLM-SoftPrompt
- Les séries temporelles sont encodées puis injectées avec les tokens textuels
- Approche simple et économe en paramètres, mais avec une limite : sur les longues séquences, l’usage mémoire augmente brutalement
- OpenTSLM-Flamingo
- Les séries temporelles sont traitées comme une modalité distincte puis combinées au texte via la cross-attention
- L’usage mémoire reste stable même sur de longues séquences, ce qui la rend adaptée à un traitement généraliste
Jeux de données et apprentissage
- HAR-CoT : reconnaissance d’activité humaine à partir de capteurs d’accélération
- Sleep-CoT : classification des stades du sommeil à partir d’EEG
- ECG-QA-CoT : question-réponse exploitant des données d’électrocardiogramme
- Application d’un apprentissage par curriculum progressif : apprentissage de motifs temporels simples → extension vers les capacités de raisonnement
Principaux résultats
- SoftPrompt-Llama3.2-1B : 69,9 % de F1 sur Sleep-CoT et 65,4 % de F1 sur HAR-CoT
- Flamingo-Llama3.2-3B : meilleure performance sur ECG-QA-CoT avec 40,25 % de F1
- Supériorité face à GPT-4o : même un petit modèle (OpenTSLM-1B) obtient un score F1 supérieur à GPT-4o
- Évaluation par des médecins : 92,9 % des raisonnements sur ECG-QA ont été jugés corrects ou partiellement corrects
Efficacité mémoire
- SoftPrompt voit sa VRAM augmenter de manière exponentielle selon la longueur d’entrée (par ex. plus de 110 Go requis sur ECG-QA)
- Flamingo conserve une consommation mémoire stable (environ 60 à 70 Go même avec Llama-3B)
Discussion
- OpenTSLM montre qu’un petit modèle peut surpasser des modèles gigantesques
- SoftPrompt convient aux séries temporelles courtes, tandis que Flamingo est mieux adapté aux séries longues ou multiples
- Le modèle apporte une transparence du raisonnement sur les données médicales, ce qui contribue à renforcer la confiance
- Contrairement aux approches classiques basées sur des classifieurs, il concrétise la combinaison raisonnement en langage naturel + séries temporelles
Limites et travaux futurs
- La méthode actuelle de préservation de l’échelle et des unités des séries temporelles dans le texte n’est peut-être pas optimale
- Comme GPT-4o est intervenu dans le processus de création des jeux de données CoT, il existe un risque de biais des données
- Il reste nécessaire de concevoir une fonction de perte garantissant les bonnes prédictions, de simplifier l’architecture et de valider les performances de généralisation
Conclusion
- OpenTSLM présente un fort potentiel au-delà de la santé, notamment pour le traitement de données de long terme en finance, supply chain, monitoring industriel, etc.
- Cette recherche pose les bases du concept de Time Series Language Model (TSLM) et vise une extension vers un modèle généraliste de raisonnement sur séries temporelles
1 commentaires
Commentaires Hacker News
Je comprends l’idée de pouvoir interagir avec des données de séries temporelles via le langage naturel, mais je me demande quel avantage cela aurait par rapport à l’utilisation, via appel d’outils, de bibliothèques de traitement du signal ou d’algorithmes fondés sur des règles (ou de machine learning si les données sont variables).
Par exemple, si on demande à un LLM du commerce d’analyser des données ECG, le LLM pourrait appeler une bibliothèque d’analyse de séries temporelles ECG.
Cette bibliothèque parcourrait l’ensemble des données pour en extraire des statistiques et des événements — par exemple : « fréquence cardiaque moyenne 60 bpm, AFib détectée à un moment donné ».
Ainsi, le LLM obtiendrait toutes les informations nécessaires à l’analyse, avec un coût de calcul bien inférieur.
En plus, cette approche semble exiger de grands jeux de données annotés et des modèles préentraînés ; corrigez-moi si je me trompe, mais je pense qu’un modèle généraliste capable de traiter des séries temporelles « ordinaires » est impossible.
Autrement dit, un modèle entraîné sur des données ECG n’est pas compatible avec des données de marché boursier.
Un seul modèle capable de comprendre tous ces types de données différents n’est pas encore possible.
Faire tourner ce genre de système en edge est difficile.
L’enjeu, c’est de fonctionner de manière fiable en edge.
Personne n’a envie de confier la surveillance de son rythme cardiaque au cloud — les services distants ont de gros problèmes de panne et de fiabilité, sans parler des difficultés supplémentaires liées à l’inférence LLM.
Les fonctions de détection classiques fondées sur des règles sont déjà intégrées dans ce type d’appareils ; si on y ajoute les capacités avancées de détection de motifs d’un LLM, on peut réduire les alertes inutiles et détecter de nouveaux motifs complexes.
C’est le fait de fournir une interface permettant de dialoguer avec d’immenses volumes de données sur Internet (ChatGPT).
Mais je ne vois pas bien en quoi cette approche serait meilleure que Google Search, cliquer sur les premiers liens, éviter les pubs, accepter les cookies, lire l’en-tête, faire défiler, fermer la fenêtre d’abonnement, lire le reste de l’article, puis répéter le processus quatre fois — si c’est censé être plus efficace.
D’accord, je vois.
Il y avait la mention « Stanford Repo Released Sep 31, 2025 », ce qui donnait l’impression d’un échantillonnage depuis une distribution de probabilité où le lendemain du 30 septembre 2025 serait le 31.
Ils disent merci pour le retour.
Ils soulignent ironiquement que cet article porte justement sur un modèle qui comprend le temps.
L’erreur de date semble déjà avoir été corrigée.
La base de cette recherche est un système appelé « Flamingo ».
Ce système est spécialisé dans la compréhension, sous forme de séquence, de texte et d’images en alternance.
Autrement dit, il peut traiter ensemble deux modalités séquentielles.
Cette nouvelle recherche semble renforcer la capacité de perception du temps en insérant des tokens temporels dans un canal de modalité.
(À noter au passage : le design du site est beaucoup trop mignon — il y a même un effet de dégradé de gauche à droite dans le texte.)
Lien vers l’article sur Flamingo
C’est vraiment génial.
À la lecture de l’article, cette technique semble bien fonctionner pour les questions-réponses basées sur des données de séries temporelles.
Dans l’IA médicale, ce qui m’intéresse le plus, c’est la détection de signaux de maladie imperceptibles pour l’être humain.
Par exemple, l’estimation de la fraction d’éjection à partir d’un ECG, ce que même un cardiologue ne peut pas faire (alors que l’algorithme a déjà été validé par des RCT).
Lien vers l’article associé
Comme OpenTSLM tokenize les données de séries temporelles dans l’espace d’embedding d’un LLM, je me demande si ce processus peut capter ce genre de signaux subtils.
Ou bien si cette approche peut être étendue pour couvrir ce type de cas d’usage.
C’était la principale motivation au début de la recherche.
Dans le modèle, les données de séries temporelles brutes sont intégrées via cross-attention, et des représentations spécifiques des séries temporelles sont apprises par l’encodeur brut de séries temporelles.
Si le modèle a besoin de traiter des séries temporelles, il vaudrait mieux qu’il génère un script appelant une bibliothèque TS, puis qu’il le transmette à un exécuteur.
C’est probablement ainsi qu’un humain procéderait aussi.
Je ne suis pas sûr qu’il soit nécessaire d’intégrer cette capacité directement dans le modèle.
Je me demande si une capacité native de traitement TS dans le modèle permet de faire quelque chose qu’un tool calling ne permettrait pas.
Anthropic recommande aussi l’approche « laisser le modèle écrire des scripts » dans sa dernière présentation du Claude Agent SDK.
La génération de code est claire, réutilisable et hautement composable, ce qui la rend idéale pour exécuter des tâches complexes de manière fiable.
Lors du développement d’agents, réfléchir aux tâches qui se prêtent bien à une représentation en code ouvre de nouvelles possibilités.
Lien à propos du Claude Agent SDK
Je crois que vous passez à côté de l’essentiel.
Il suffit de se demander s’il vaut mieux appeler une bibliothèque d’analyse d’image pour décrire une image, ou comprendre directement l’image comme une série temporelle et raisonner dessus.
Les graphiques de l’article montrent ce que ce genre de modèles peut faire.
Fondamentalement, je me demande s’il y a une véritable « notion du temps » et une compréhension de la causalité.
Je vais absolument essayer ça dès que je rentre chez moi aujourd’hui.
Je travaille avec de grandes quantités de données audio sous forme de séries temporelles (pas forcément avec des mots, et avec beaucoup de variations subtiles), et j’ai envie de voir comment cette approche se compare aux méthodes statistiques traditionnelles.
Ils ont créé un dépôt sur huggingface et y ont déjà mis en ligne une partie des poids du modèle.
On ne voit pas encore ce lien sur le site officiel, l’article ou Github.
Page huggingface d’OpenTSLM
J’imagine claude code surveillant en temps réel la série temporelle de mon rythme cardiaque et détectant même combien de temps je me retourne dans mon lit.
Si je comprends bien, ce modèle semble avoir été entraîné pour la classification et l’interprétation de séries temporelles ; je me demande s’il a aussi été benchmarké sur la prédiction (forecasting).
Les explications et les recommandations sont souvent étroitement liées à la prévision, donc les caractéristiques du modèle devraient aussi apparaître sur cet aspect.
Comme test amusant, on pourrait retirer la tendance du S&P500 puis le décomposer en 500 composantes par action, afin d’analyser et de classer la contribution de chaque titre.
Mais ce genre d’exercice ne suffira probablement pas à décrocher un poste chez Rentec ou à la NSA.
Dans le commercial et le médical, les signaux sont le plus souvent stationnaires et utilisés avec du bruit blanc (non corrélé), tandis qu’à la NSA et chez Rentec on traite surtout des signaux non stationnaires, avec des changements de régime et du bruit corrélé.
Ces signaux ne peuvent pas être débruités sans perte d’information.
L’objectif de ce type d’analyse n’est pas tant de prédire le prochain tick que de détecter au plus vite les changements de motif (changements de régime) et de les faire correspondre à des schémas existants de trading boursier ou d’activités de renseignement.