1 points par GN⁺ 2024-07-18 | 1 commentaires | Partager sur WhatsApp

xLSTMTime: Long-term Time Series Forecasting With xLSTM

  • Ces dernières années, les modèles fondés sur les transformeurs ont affiché des performances remarquables en prévision multivariée de séries temporelles à long terme (LTSF). Ils restent toutefois confrontés à des problèmes tels que des besoins de calcul élevés, la difficulté à capturer les dynamiques temporelles et la gestion des dépendances de longue portée
  • L’émergence de LTSF-Linear, avec sa structure linéaire simple, a montré des performances supérieures à celles des modèles fondés sur les transformeurs, conduisant à réévaluer l’utilité des transformeurs pour la prévision de séries temporelles
  • Pour y répondre, cet article présente les résultats de l’application de l’architecture récente xLSTM (extended LSTM) à la LTSF. xLSTM présente un potentiel adapté à la LTSF grâce à un exponential gating et à une structure mémoire modifiée de plus grande capacité
  • L’architecture LTSF que nous avons adoptée, xLSTMTime, surpasse les approches actuelles. Une comparaison des performances entre divers modèles de pointe et xLSTMTime sur plusieurs jeux de données réels démontre ses excellentes capacités de prévision
  • Nos résultats suggèrent que des architectures récurrentes affinées peuvent constituer une alternative compétitive aux modèles fondés sur les transformeurs pour les tâches de LTSF, et qu’elles pourraient redéfinir le paysage de la prévision de séries temporelles

Le résumé de GN⁺

  • Cet article introduit xLSTM pour dépasser les limites des modèles fondés sur les transformeurs et montre d’excellentes performances en prévision de séries temporelles à long terme
  • xLSTMTime démontre des capacités de prévision supérieures aux modèles existants grâce à un exponential gating et à une structure mémoire modifiée
  • Cette recherche remet en lumière le potentiel des architectures récurrentes pour la prévision de séries temporelles et propose une nouvelle alternative aux modèles fondés sur les transformeurs
  • Parmi les projets aux fonctionnalités similaires, on peut citer Prophet de Facebook et DeepAR d’Amazon

1 commentaires

 
GN⁺ 2024-07-18
Avis de Hacker News
  • Il est vrai que ces dernières années, les modèles fondés sur les transformers ont attiré l’attention pour la prévision multivariée de séries temporelles à long terme, mais je me demande s’ils sont généralement meilleurs que les modèles qui ne reposent pas sur le deep learning.
    D’après ce que j’avais compris, ce n’était pas le cas, même si je ne suis pas ce domaine de très près.

    • D’après mon expérience en prévision des paiements/dépenses, le deep learning faisait généralement moins bien que les arbres à gradient boosting.
      Les modèles de deep learning sont bons pour apprendre la saisonnalité, mais ont tendance à mal gérer les tendances complexes ou les chocs.
      Les données économiques et financières ont souvent une saisonnalité simple et des tendances complexes, ce qui semble pénaliser assez fortement le deep learning.
      Je suis d’accord avec cet article. Les bonnes architectures de séries temporelles en deep learning que j’ai utilisées ressemblaient plutôt à de simples extensions de MLP ou de réseaux récurrents, comme DeepAR ou N-BEATS, tandis que les architectures fondées sur les transformers étaient vraiment médiocres, y compris les modèles de fondation fondés sur des transformers qui affluent ces temps-ci.
    • Dans le domaine de la sécurité aérienne, le deep learning faisait mieux que les modèles traditionnels non deep learning pour la prévision multivariée de séries temporelles.
      Cela dit, même entre modèles de deep learning, les écarts de performance étaient très importants entre transformers, LSTM bidirectionnels, MLP classiques, VAE, etc.
    • Je ne les ai pas utilisés moi-même, mais j’ai discuté de ce sujet avec un ami qui a récemment utilisé des modèles à base d’arbres comme XGBoost pour l’analyse de séries temporelles.
      Il disait que les architectures à base de transformers donnaient des performances correctes sur les tâches de séries temporelles avec relativement peu d’efforts par rapport aux modèles à arbres.
      D’après ce que j’ai compris, avec un réglage suffisant des paramètres, les modèles à base d’arbres peuvent généralement battre les transformers. Mais des modèles comme TimeGPT obtiennent des performances correctes sans réglage poussé, ce qui les rend attrayants pour une implémentation rapide.
    • C’est justement évoqué dans le paragraphe suivant de l’article. xLSTMTime n’est pas non plus fondé sur les transformers.
    • Ce n’est pas exceptionnel, mais les tentatives récentes de transfer learning semblaient prometteuses.
  • Une partie de mon travail consiste justement à construire des modèles de nowcasting et de prévision économiques. Je travaille sur des indicateurs économiques comme l’inflation et le PIB, ainsi que sur des indicateurs financiers comme la liquidité de marché.
    Je n’ai pas encore lu l’article, mais j’adhère totalement au ton général selon lequel « les transformers sont excellents dans ce qu’ils font bien, mais les modèles de la famille LSTM restent aussi très précieux ».

    • Je serais curieux de savoir si tu as eu l’occasion d’appliquer Mamba dans ton travail, et ce que tu en penses.
  • Quel est le rapport avec le modèle de prévision météo fondé sur l’IA de Google ?
    https://deepmind.google/discover/blog/graphcast-ai-model-for...

    • Aucun. Graphcast est un graph transformer entraîné sur les données de réanalyse atmosphérique ERA5, pas un modèle généraliste de prévision de séries temporelles.
      À noter que Graphcast surpasse toutes les prévisions déterministes globales traditionnelles, au moins pour la prédiction de grands motifs à l’échelle du globe. C’est sur des métriques comme Z500, pour des horizons d’environ 3 à 10 jours.
      L’ECMWF dispose d’AIFS, dérivé de Graphcast, et il est très probable que lui, ou quelque chose de similaire, soit mis en production opérationnelle d’ici quelques années.
  • Si c’est présenté comme un outil de prévision, est-ce que cela ne s’applique pas à la classification d’événements dans les séries temporelles ?

    • Je vois ça comme une tâche un peu différente. Je ne suis pas spécialiste du domaine, mais si le nombre d’événements n est très petit, on pourrait peut-être le traiter comme un problème de prévision multivariée où la valeur cible serait la probabilité de chaque événement.
    • Je me demande aussi où cette approche, ou les approches fondées sur les transformers/LLM, améliorent par exemple la détection d’anomalies.
  • Dommage que le lien vers le dataset dans l’article ne fonctionne pas. J’espère qu’il sera corrigé.

  • Les meilleurs modèles de séries temporelles en deep learning sont probablement internes aux hedge funds et non publics.

    • En réalité, l’essentiel du travail difficile n’est pas un gigantesque modèle unique, mais la conception des features. À ma connaissance, le gradient boosting reste dominant.
    • D’après le théorème du no free lunch, il n’existe pas vraiment de meilleur modèle en général.
      Ce qui fonctionne dans un hedge fund peut être mauvais dans d’autres domaines, où la quantité et la nature des données diffèrent et où les biais inductifs nécessaires sont moindres ou différents.
    • Je pense qu’au moins les hedge funds haut de gamme n’utilisent plus vraiment la modélisation de séries temporelles. C’est assez dépassé selon les standards actuels.
  • La prévision de séries temporelles fonctionne le mieux dans les domaines déterministes.
    Parmi les techniques publiques de LLM, d’IA, de deep learning et de machine learning, aucune ne marche bien sur le marché actions. Vraiment aucune. J’ai tout essayé.

  • Si la méthode de prévision de séries temporelles de quelqu’un fonctionnait vraiment, il ne la publierait pas.

    • Pas forcément. En réalité, beaucoup sont publiées. L’écrasante majorité des travaux sur les séries temporelles n’a rien à voir avec les prix d’actifs ni avec le fait de battre les rendements boursiers.
    • Les modèles Transformer ont aussi été parmi les modèles les plus réussis de l’histoire de l’IA, et pourtant ils ont été publiés sous forme d’article.
  • J’ai lu ça par erreur comme XSLT.

    • J’ai cliqué en me demandant à quel point un article sur XML pouvait être intéressant en 2024, et j’ai été à la fois déçu et satisfait.
    • Oui. Et ceci est aussi un article sur une transformation.
    • Moi aussi. Est-ce que je vieillis ?
  • J’ai hâte de voir quelqu’un essayer de faire de la prévision boursière avec ça et perdre toute sa fortune.