20 points par xguru 2025-01-06 | 2 commentaires | Partager sur WhatsApp
  • En 2024, des progrès majeurs ont eu lieu à la fois dans la génération de texte et d’images
  • Contrairement aux débuts où OpenAI dominait seul, la fin de l’année a vu divers laboratoires comme Anthropic, DeepSeek et Qwen étendre agressivement le champ de la concurrence
  • Cet article résume les tendances de recherche de 2024 à 2025 et présente brièvement les domaines prometteurs pour la suite

    « Le fossé défensif bâti uniquement sur du code source fermé ne durera pas longtemps
    Même OpenAI ne pourra pas empêcher les autres de le rattraper
    Au final, le véritable fossé défensif, c’est de faire grandir notre organisation et notre culture afin de former des talents capables d’innover »
    ─ Liang Wenfeng, CEO de DeepSeek

# Language

  • Les grands modèles de langage (LLM) sont au cœur de l’engouement actuel pour l’IA, et concentrent la plus grande part de la recherche et des investissements
  • En 2024, des avancées majeures ont eu lieu à la fois sur les performances des modèles et sur de nouveaux paradigmes de scaling
  • Architecture
    • De nouvelles architectures (Mamba, xLSTM, etc.) ont été testées, mais au moins pour l’instant, les Transformer decoder-only devraient rester dominants
    • Dense Transformer
      • Llama 3 en est l’exemple emblématique, Meta poussant l’optimisation du vanilla Dense Transformer à l’extrême
      • La forme dite Noam Transformer (Decoder-Only, RMSNorm, Group Query Attention, GLU, RoPE, etc.) s’impose de fait comme standard
      • Des approches comme le Multi Latent Attention (MLA) proposé par DeepSeek devraient attirer davantage l’attention, et l’émergence de techniques remplaçant ou modifiant RoPE est également possible
    • Mixture-of-Experts
      • La rumeur selon laquelle GPT-4 serait un immense MoE a contribué à remettre ce sujet au premier plan en 2024
      • Dans l’open source, Mixtral de Mistral et DeepSeek v2·v3 en sont des exemples représentatifs
      • Le principal inconvénient du MoE est que son serving n’est pas simple, mais DeepSeek mène des recherches actives sur le sujet
      • À l’avenir, on peut s’attendre à des travaux dans plusieurs directions autour des mécanismes de routage, de la manière d’appliquer le MoE à chaque couche et de l’interprétabilité des experts
  • Tokenization
    • Beaucoup estiment qu’une innovation est nécessaire pour remplacer Byte Pair Encoding, mais comme cela ne pose pas encore de problème majeur, son usage se poursuit
    • Meta a suscité l’intérêt en proposant deux pistes : traiter le CoT dans l’espace latent (byte-based) ou entraîner le Transformer directement au niveau des bytes
    • Le Byte Latent Transformer (BLT) utilise une structure Encoder/Decoder pour traiter les entrées en bytes
    • Des inquiétudes subsistent quant au risque que la qualité du byte decoder devienne un goulot d’étranglement
  • Reasoning
    • Au second semestre 2024, les capacités de raisonnement des modèles en mathématiques, sciences et code ont fortement progressé (o1, o3, DeepSeek r1, etc.)
    • Cela est lié à un nouveau paradigme de scaling appelé « inference-time compute »
      • Le modèle génère de très longues Chain of Thought, qu’il vérifie et exploite lui-même au cours du processus
    • La manière dont OpenAI a créé o1 et o3 n’est pas publique, mais il est probable qu’une approche RL inspirée d’articles comme « Let’s Verify Step by Step » ait été utilisée
    • On s’attend à voir Anthropic ou d’autres laboratoires présenter des reasoners similaires à l’avenir
    • La question est aussi de savoir si cette approche, aujourd’hui centrée sur les domaines STEM, pourra s’étendre à des domaines plus larges comme l’écriture créative
  • Distillation
    • Lors du lancement de o1, OpenAI n’a pas rendu public le Chain of Thought, ce qui alimente l’hypothèse que le réentraînement sur les sorties du modèle (comme dans DeepSeek v3, etc.) contribue fortement aux gains de performance
    • DeepSeek v3 ne reproduit pas tel quel les longues CoT caractéristiques des reasoners, mais semble distinguer des modes en interne afin de raisonner lorsque nécessaire
    • La question de savoir si de petits modèles (comme o1-mini) peuvent approcher les performances des grands modèles, ou s’il existe des techniques de distillation secrètes en interne, constitue aussi un sujet de recherche intéressant

# Image

  • Dans l’image, de nombreux laboratoires petits et moyens sont entrés dans la course, ce qui accélère fortement l’innovation
  • Les principaux modèles actuels (Flux, Stable Diffusion 3, MidJourney, Sora, etc.) reposent sur des Diffusion Transformer, et le framework dominant est celui du Flow Matching
  • Architecture
    • Les combinaisons de Diffusion Transformer avec normalisation adaptative, structure MM-DIT, etc. sont couramment utilisées
    • En 2025, les tentatives visant à remplacer CLIP comme text encoder par des LLM plus compacts devraient se multiplier
  • Framework
    • Une préférence se dessine pour les approches de type Flow Matching plutôt que pour les approches probabilistes traditionnelles
    • Les modèles AutoRegressive pourraient aussi revenir sur le devant de la scène, et l’article Visual Autoregressive Modelling a suscité un fort intérêt
    • La méthode de génération d’images publiée par xAI est également supposée être autoregressive, mais les raisons précises ne sont pas connues

# Multimodality

  • OpenAI, Anthropic et d’autres proposaient déjà l’entrée d’images dans leurs modèles, mais au premier semestre 2024, la recherche multimodale sous des formes plus ouvertes s’est fortement intensifiée
  • Visual Language Models
    • Divers VLM comme Qwen ou PaliGemma sont apparus et sont utilisés pour le captioning d’images ou le parsing de documents
    • L’architecture reliant un Vision Transformer à un LLM préentraîné s’est imposée comme standard
    • En 2025, ces VLM devraient être intégrés dans des Omni-Models
  • Omni-Modal Models
    • OpenAI a montré avec GPT-4o un cas de génération incluant aussi l’image, mais rien n’a été totalement rendu public
    • Des modèles comme Chameleon ont tenté une fusion précoce via un image tokenizer + detokenizer
    • Le traitement des sorties non textuelles sous forme de discrete tokens fait l’objet de débats
    • Des rumeurs indiquent que Llama 4 serait entraîné très tôt comme modèle omnimodal, ce qui suscite des attentes

# Agents and Human-AI Interfaces

  • La définition de « AI Agent » reste floue, mais ici le terme désigne provisoirement une approche où l’on donne à un LLM la capacité d’utiliser des outils pour atteindre lui-même un objectif
  • D’après le benchmark SWE-Bench, on peut s’attendre à ce que, d’ici fin 2025, le débogage de code et l’implémentation de fonctionnalités soient automatisés à un certain niveau
  • Il est toutefois encore trop tôt pour parler d’un remplacement des ingénieurs, et l’adoption devrait d’abord se faire dans des domaines où la tolérance à l’erreur est plus large, comme les itinéraires de voyage ou la recherche d’informations
  • Une UI de type éditeur comme Cursor pourrait être mieux adaptée à l’usage des agents
  • Les appels d’agents ont un coût élevé en tokens, si bien que l’efficacité coût/bénéfice d’agents totalement autonomes reste incertaine

# 2025

  • Il est devenu courant de dire que les progrès de l’IA sont très rapides, mais en réalité les changements sont d’une ampleur telle qu’il est même difficile d’en mesurer le rythme
  • Cet article n’aborde que brièvement la situation actuelle centrée sur le texte et l’image, ainsi que quelques attentes pour 2025. Parmi les domaines notables non couverts :
    • optimisation de l’entraînement (Muon, NanoGPT speedruns)
    • modèles vidéo (résolution des problèmes de cohérence et de vitesse de raisonnement)
    • quantification (quantification 1 bit, précision inférieure à FP8, etc.)
    • recherche sur l’interprétabilité des modèles
    • évaluation et benchmarks (avec l’espoir de voir davantage d’évaluations basées sur des tâches réelles comme SWE-Bench)
  • Espérons davantage de progrès en 2025

2 commentaires

 
lonzino 2025-01-06

Merci

 
zkdlfrlwl2 2025-01-06

Merci pour ce récapitulatif clair.