État des lieux des modèles génératifs

xguru · 2025-01-06T10:21:01+09:00

En 2024, des progrès majeurs ont eu lieu à la fois dans la génération de texte et d’images Contrairement aux débuts où OpenAI dominait seul, la fin de l’année a vu divers laboratoires comme Anthropic, DeepSeek et Qwen étendre agressivement le champ de la concurrence Cet article résume les tendances de recherche de 2024 à 2025 et présente brièvement les domaines prometteurs pour la suite « Le fossé défensif bâti uniquement sur du code source fermé ne durera pas longtemps Même OpenAI ne pourra pas empêcher les autres de le rattraper Au final, le véritable fossé défensif, c’est de faire grandir notre organisation et notre culture afin de former des talents capables d’innover » ─ Liang Wenfeng, CEO de DeepSeek # Language Les grands modèles de langage (LLM) sont au cœur de l’engouement actuel pour l’IA, et concentrent la plus grande part de la recherche et des investissements En 2024, des avancées majeures ont eu lieu à la fois sur les performances des modèles et sur de nouveaux paradigmes de scaling Architecture De nouvelles architectures (Mamba, xLSTM, etc.) ont été testées, mais au moins pour l’instant, les Transformer decoder-only devraient rester dominants Dense Transformer Llama 3 en est l’exemple emblématique, Meta poussant l’optimisation du vanilla Dense Transformer à l’extrême La forme dite Noam Transformer (Decoder-Only, RMSNorm, Group Query Attention, GLU, RoPE, etc.) s’impose de fait comme standard Des approches comme le Multi Latent Attention (MLA) proposé par DeepSeek devraient attirer davantage l’attention, et l’émergence de techniques remplaçant ou modifiant RoPE est également possible Mixture-of-Experts La rumeur selon laquelle GPT-4 serait un immense MoE a contribué à remettre ce sujet au premier plan en 2024 Dans l’open source, Mixtral de Mistral et DeepSeek v2·v3 en sont des exemples représentatifs Le principal inconvénient du MoE est que son serving n’est pas simple, mais DeepSeek mène des recherches actives sur le sujet À l’avenir, on peut s’attendre à des travaux dans plusieurs directions autour des mécanismes de routage, de la manière d’appliquer le MoE à chaque couche et de l’interprétabilité des experts Tokenization Beaucoup estiment qu’une innovation est nécessaire pour remplacer Byte Pair Encoding, mais comme cela ne pose pas encore de problème majeur, son usage se poursuit Meta a suscité l’intérêt en proposant deux pistes : traiter le CoT dans l’espace latent (byte-based) ou entraîner le Transformer directement au niveau des bytes Le Byte Latent Transformer (BLT) utilise une structure Encoder/Decoder pour traiter les entrées en bytes Des inquiétudes subsistent quant au risque que la qualité du byte decoder devienne un goulot d’étranglement Reasoning Au second semestre 2024, les capacités de raisonnement des modèles en mathématiques, sciences et code ont fortement progressé (o1, o3, DeepSeek r1, etc.) Cela est lié à un nouveau paradigme de scaling appelé « inference-time compute » Le modèle génère de très longues Chain of Thought, qu’il vérifie et exploite lui-même au cours du processus La manière dont OpenAI a créé o1 et o3 n’est pas publique, mais il est probable qu’une approche RL inspirée d’articles comme « Let’s Verify Step by Step » ait été utilisée On s’attend à voir Anthropic ou d’autres laboratoires présenter des reasoners similaires à l’avenir La question est aussi de savoir si cette approche, aujourd’hui centrée sur les domaines STEM, pourra s’étendre à des domaines plus larges comme l’écriture créative Distillation Lors du lancement de o1, OpenAI n’a pas rendu public le Chain of Thought, ce qui alimente l’hypothèse que le réentraînement sur les sorties du modèle (comme dans DeepSeek v3, etc.) contribue fortement aux gains de performance DeepSeek v3 ne reproduit pas tel quel les longues CoT caractéristiques des reasoners, mais semble distinguer des modes en interne afin de raisonner lorsque nécessaire La question de savoir si de petits modèles (comme o1-mini) peuvent approcher les performances des grands modèles, ou s’il existe des techniques de distillation secrètes en interne, constitue aussi un sujet de recherche intéressant # Image Dans l’image, de nombreux laboratoires petits et moyens sont entrés dans la course, ce qui accélère fortement l’innovation Les principaux modèles actuels (Flux, Stable Diffusion 3, MidJourney, Sora, etc.) reposent sur des Diffusion Transformer, et le framework dominant est celui du Flow Matching Architecture Les combinaisons de Diffusion Transformer avec normalisation adaptative, structure MM-DIT, etc. sont couramment utilisées En 2025, les tentatives visant à remplacer CLIP comme text encoder par des LLM plus compacts devraient se multiplier Framework Une préférence se dessine pour les approches de type Flow Matching plutôt que pour les approches probabilistes traditionnelles Les modèles AutoRegressive pourraient aussi revenir sur le devant de la scène, et l’article Visual Autoregressive Modelling a suscité un fort intérêt La méthode de génération d’images publiée par xAI est également supposée être autoregressive, mais les raisons précises ne sont pas connues # Multimodality OpenAI, Anthropic et d’autres proposaient déjà l’entrée d’images dans leurs modèles, mais au premier semestre 2024, la recherche multimodale sous des formes plus ouvertes s’est fortement intensifiée Visual Language Models Divers VLM comme Qwen ou PaliGemma sont apparus et sont utilisés pour le captioning d’images ou le parsing de documents L’architecture reliant un Vision Transformer à un LLM préentraîné s’est imposée comme standard En 2025, ces VLM devraient être intégrés dans des Omni-Models Omni-Modal Models OpenAI a montré avec GPT-4o un cas de génération incluant aussi l’image, mais rien n’a été totalement rendu public Des modèles comme Chameleon ont tenté une fusion précoce via un image tokenizer + detokenizer Le traitement des sorties non textuelles sous forme de discrete tokens fait l’objet de débats Des rumeurs indiquent que Llama 4 serait entraîné très tôt comme modèle omnimodal, ce qui suscite des attentes # Agents and Human-AI Interfaces La définition de « AI Agent » reste floue, mais ici le terme désigne provisoirement une approche où l’on donne à un LLM la capacité d’utiliser des outils pour atteindre lui-même un objectif D’après le benchmark SWE-Bench, on peut s’attendre à ce que, d’ici fin 2025, le débogage de code et l’implémentation de fonctionnalités soient automatisés à un certain niveau Il est toutefois encore trop tôt pour parler d’un remplacement des ingénieurs, et l’adoption devrait d’abord se faire dans des domaines où la tolérance à l’erreur est plus large, comme les itinéraires de voyage ou la recherche d’informations Une UI de type éditeur comme Cursor pourrait être mieux adaptée à l’usage des agents Les appels d’agents ont un coût élevé en tokens, si bien que l’efficacité coût/bénéfice d’agents totalement autonomes reste incertaine # 2025 Il est devenu courant de dire que les progrès de l’IA sont très rapides, mais en réalité les changements sont d’une ampleur telle qu’il est même difficile d’en mesurer le rythme Cet article n’aborde que brièvement la situation actuelle centrée sur le texte et l’image, ainsi que quelques attentes pour 2025. Parmi les domaines notables non couverts : optimisation de l’entraînement (Muon, NanoGPT speedruns) modèles vidéo (résolution des problèmes de cohérence et de vitesse de raisonnement) quantification (quantification 1 bit, précision inférieure à FP8, etc.) recherche sur l’interprétabilité des modèles évaluation et benchmarks (avec l’espoir de voir davantage d’évaluations basées sur des tâches réelles comme SWE-Bench) Espérons davantage de progrès en 2025

(nrehiew.github.io)

20 points par xguru 2025-01-06 | 2 commentaires | Partager sur WhatsApp

En 2024, des progrès majeurs ont eu lieu à la fois dans la génération de texte et d’images
Contrairement aux débuts où OpenAI dominait seul, la fin de l’année a vu divers laboratoires comme Anthropic, DeepSeek et Qwen étendre agressivement le champ de la concurrence
Cet article résume les tendances de recherche de 2024 à 2025 et présente brièvement les domaines prometteurs pour la suite

« Le fossé défensif bâti uniquement sur du code source fermé ne durera pas longtemps
Même OpenAI ne pourra pas empêcher les autres de le rattraper
Au final, le véritable fossé défensif, c’est de faire grandir notre organisation et notre culture afin de former des talents capables d’innover »
─ Liang Wenfeng, CEO de DeepSeek

# Language

Les grands modèles de langage (LLM) sont au cœur de l’engouement actuel pour l’IA, et concentrent la plus grande part de la recherche et des investissements
En 2024, des avancées majeures ont eu lieu à la fois sur les performances des modèles et sur de nouveaux paradigmes de scaling
Architecture
- De nouvelles architectures (Mamba, xLSTM, etc.) ont été testées, mais au moins pour l’instant, les Transformer decoder-only devraient rester dominants
- Dense Transformer
  - Llama 3 en est l’exemple emblématique, Meta poussant l’optimisation du vanilla Dense Transformer à l’extrême
  - La forme dite Noam Transformer (Decoder-Only, RMSNorm, Group Query Attention, GLU, RoPE, etc.) s’impose de fait comme standard
  - Des approches comme le Multi Latent Attention (MLA) proposé par DeepSeek devraient attirer davantage l’attention, et l’émergence de techniques remplaçant ou modifiant RoPE est également possible
- Mixture-of-Experts
  - La rumeur selon laquelle GPT-4 serait un immense MoE a contribué à remettre ce sujet au premier plan en 2024
  - Dans l’open source, Mixtral de Mistral et DeepSeek v2·v3 en sont des exemples représentatifs
  - Le principal inconvénient du MoE est que son serving n’est pas simple, mais DeepSeek mène des recherches actives sur le sujet
  - À l’avenir, on peut s’attendre à des travaux dans plusieurs directions autour des mécanismes de routage, de la manière d’appliquer le MoE à chaque couche et de l’interprétabilité des experts
Tokenization
- Beaucoup estiment qu’une innovation est nécessaire pour remplacer Byte Pair Encoding, mais comme cela ne pose pas encore de problème majeur, son usage se poursuit
- Meta a suscité l’intérêt en proposant deux pistes : traiter le CoT dans l’espace latent (byte-based) ou entraîner le Transformer directement au niveau des bytes
- Le Byte Latent Transformer (BLT) utilise une structure Encoder/Decoder pour traiter les entrées en bytes
- Des inquiétudes subsistent quant au risque que la qualité du byte decoder devienne un goulot d’étranglement
Reasoning
- Au second semestre 2024, les capacités de raisonnement des modèles en mathématiques, sciences et code ont fortement progressé (o1, o3, DeepSeek r1, etc.)
- Cela est lié à un nouveau paradigme de scaling appelé « inference-time compute »
  - Le modèle génère de très longues Chain of Thought, qu’il vérifie et exploite lui-même au cours du processus
- La manière dont OpenAI a créé o1 et o3 n’est pas publique, mais il est probable qu’une approche RL inspirée d’articles comme « Let’s Verify Step by Step » ait été utilisée
- On s’attend à voir Anthropic ou d’autres laboratoires présenter des reasoners similaires à l’avenir
- La question est aussi de savoir si cette approche, aujourd’hui centrée sur les domaines STEM, pourra s’étendre à des domaines plus larges comme l’écriture créative
Distillation
- Lors du lancement de o1, OpenAI n’a pas rendu public le Chain of Thought, ce qui alimente l’hypothèse que le réentraînement sur les sorties du modèle (comme dans DeepSeek v3, etc.) contribue fortement aux gains de performance
- DeepSeek v3 ne reproduit pas tel quel les longues CoT caractéristiques des reasoners, mais semble distinguer des modes en interne afin de raisonner lorsque nécessaire
- La question de savoir si de petits modèles (comme o1-mini) peuvent approcher les performances des grands modèles, ou s’il existe des techniques de distillation secrètes en interne, constitue aussi un sujet de recherche intéressant

# Image

Dans l’image, de nombreux laboratoires petits et moyens sont entrés dans la course, ce qui accélère fortement l’innovation
Les principaux modèles actuels (Flux, Stable Diffusion 3, MidJourney, Sora, etc.) reposent sur des Diffusion Transformer, et le framework dominant est celui du Flow Matching
Architecture
- Les combinaisons de Diffusion Transformer avec normalisation adaptative, structure MM-DIT, etc. sont couramment utilisées
- En 2025, les tentatives visant à remplacer CLIP comme text encoder par des LLM plus compacts devraient se multiplier
Framework
- Une préférence se dessine pour les approches de type Flow Matching plutôt que pour les approches probabilistes traditionnelles
- Les modèles AutoRegressive pourraient aussi revenir sur le devant de la scène, et l’article Visual Autoregressive Modelling a suscité un fort intérêt
- La méthode de génération d’images publiée par xAI est également supposée être autoregressive, mais les raisons précises ne sont pas connues

# Multimodality

OpenAI, Anthropic et d’autres proposaient déjà l’entrée d’images dans leurs modèles, mais au premier semestre 2024, la recherche multimodale sous des formes plus ouvertes s’est fortement intensifiée
Visual Language Models
- Divers VLM comme Qwen ou PaliGemma sont apparus et sont utilisés pour le captioning d’images ou le parsing de documents
- L’architecture reliant un Vision Transformer à un LLM préentraîné s’est imposée comme standard
- En 2025, ces VLM devraient être intégrés dans des Omni-Models
Omni-Modal Models
- OpenAI a montré avec GPT-4o un cas de génération incluant aussi l’image, mais rien n’a été totalement rendu public
- Des modèles comme Chameleon ont tenté une fusion précoce via un image tokenizer + detokenizer
- Le traitement des sorties non textuelles sous forme de discrete tokens fait l’objet de débats
- Des rumeurs indiquent que Llama 4 serait entraîné très tôt comme modèle omnimodal, ce qui suscite des attentes

# Agents and Human-AI Interfaces

La définition de « AI Agent » reste floue, mais ici le terme désigne provisoirement une approche où l’on donne à un LLM la capacité d’utiliser des outils pour atteindre lui-même un objectif
D’après le benchmark SWE-Bench, on peut s’attendre à ce que, d’ici fin 2025, le débogage de code et l’implémentation de fonctionnalités soient automatisés à un certain niveau
Il est toutefois encore trop tôt pour parler d’un remplacement des ingénieurs, et l’adoption devrait d’abord se faire dans des domaines où la tolérance à l’erreur est plus large, comme les itinéraires de voyage ou la recherche d’informations
Une UI de type éditeur comme Cursor pourrait être mieux adaptée à l’usage des agents
Les appels d’agents ont un coût élevé en tokens, si bien que l’efficacité coût/bénéfice d’agents totalement autonomes reste incertaine

# 2025

Il est devenu courant de dire que les progrès de l’IA sont très rapides, mais en réalité les changements sont d’une ampleur telle qu’il est même difficile d’en mesurer le rythme
Cet article n’aborde que brièvement la situation actuelle centrée sur le texte et l’image, ainsi que quelques attentes pour 2025. Parmi les domaines notables non couverts :
- optimisation de l’entraînement (Muon, NanoGPT speedruns)
- modèles vidéo (résolution des problèmes de cohérence et de vitesse de raisonnement)
- quantification (quantification 1 bit, précision inférieure à FP8, etc.)
- recherche sur l’interprétabilité des modèles
- évaluation et benchmarks (avec l’espoir de voir davantage d’évaluations basées sur des tâches réelles comme SWE-Bench)
Espérons davantage de progrès en 2025

2 commentaires

lonzino 2025-01-06

Merci

zkdlfrlwl2 2025-01-06

Merci pour ce récapitulatif clair.