I-DLM - Modèles de langage à diffusion introspective (Introspective Diffusion Language Models)
(introspective-diffusion.github.io)- I-DLM est le premier cas où un modèle de langage à diffusion atteint à la fois une qualité au niveau des modèles AR (Autoregressive) et une vitesse de génération parallèle
- Grâce à Introspective Strided Decoding (ISD), il génère de nouveaux tokens et vérifie les tokens précédents en un seul passage avant
- I-DLM-8B améliore les résultats de +26 points sur AIME-24 et de +15 points sur LiveCodeBench-v6 par rapport à LLaDA-2.1-mini (16B), avec deux fois moins de paramètres
- Avec Gated LoRA, il met en œuvre une accélération sans perte au niveau bit à bit (lossless) et reste entièrement compatible avec l’infrastructure SGLang
- Les modèles de langage à diffusion démontrent un potentiel de déploiement pratique à grande échelle grâce à l’apprentissage de la cohérence interne et à l’optimisation du décodage parallèle
Aperçu
- I-DLM (Introspective Diffusion Language Model) est un modèle qui conserve la capacité de génération parallèle de tokens des modèles de langage à diffusion (DLM) existants, tout en résolvant le problème de cohérence introspective (introspective consistency) pour atteindre une qualité au niveau des modèles AR
- Grâce à Introspective Strided Decoding (ISD), il génère de nouveaux tokens tout en vérifiant les tokens précédents en un seul passage avant
- I-DLM-8B est le premier DLM à atteindre une qualité équivalente à celle d’un modèle AR de taille comparable ; avec moitié moins de paramètres que LLaDA-2.1-mini (16B), il progresse de +26 points sur AIME-24 et de +15 points sur LiveCodeBench-v6
- Dans un environnement à forte concurrence (C=64), il atteint un throughput 2,9 à 4,1 fois supérieur et prend en charge une accélération sans perte au niveau bit à bit (lossless) via Gated LoRA
Pourquoi la cohérence introspective est nécessaire
- Les modèles AR effectuent la génération et l’auto-vérification en même temps lors d’un seul passage avant, alors que les DLM existants n’apprennent que le denoising, ce qui entraîne un manque de cohérence introspective
- Les trois goulets d’étranglement des DLM existants
- Faible cohérence introspective : SDAR 0.699 vs I-DLM 0.984
- Calcul inefficace : surcharge d’environ 7,8x pour TiDAR vs environ 2,5x pour I-DLM
- Incompatibilité d’infrastructure : SDAR slope=84 vs I-DLM=549
Méthodologie d’I-DLM
-
Entraînement à la cohérence introspective
- Transformation d’un modèle AR préentraîné via l’attention causale (causal attention), un logit shift et une fonction objectif entièrement masquée (all-masked)
-
Introspective Strided Decoding (ISD)
- Exécute en parallèle la génération de N tokens et la vérification des tokens précédents en un seul passage avant
- Vérifie les résultats générés à l’aide du critère d’acceptation p/q (acceptance criterion)
-
Serving compatible AR
- Intégration directe dans l’infrastructure SGLang grâce à une structure d’attention causale stricte
- Fonctionne dans le même environnement de serving qu’un modèle AR, sans infrastructure custom séparée
Résultats de performance
- I-DLM est le premier DLM dont la qualité égale celle d’un modèle AR de même taille, et dépasse les DLM existants sur 15 benchmarks
-
Principaux résultats de benchmark
- Connaissances et raisonnement : ARC-C 96.8, MMLU-Pro 79.7, GPQA-D 62.1
- Mathématiques : AIME-24 83.3, AIME-25 80.0, MATH-500 97.6
- Code : HumanEval 96.3, MBPP 94.6, LCB-v6 57.1
- Exécution d’instructions : IFEval 84.7
- I-DLM-32B affiche des performances supérieures à LLaDA-2.1-flash (100B)
Throughput
- Il atteint un throughput 2,9 à 4,1 fois supérieur à celui de LLaDA-2.1-mini et de SDAR pour des tailles de batch de 1 à 64
- En environnement memory-bound, le TPF (Token Per Forward) approxime le gain de vitesse réel
- I-DLM(N=4, p=0.9) : TPF≈2.9, efficacité 1.22
- SDAR(N=4, p=0.5) : TPF≈1.1, efficacité 0.31
- Une efficacité supérieure à 1 signifie que le décodage parallèle réduit la quantité totale de calcul par rapport à AR
Speedup Factor Explorer
- Taux d’acceptation p=0.9, surcharge R-ISD LoRA α=1.12
-
Formule d’approximation du gain de vitesse :
- Memory-bound :
Speedup ≈ TPF = (2+p+...+pN-2)/(2-pN-1) - R-ISD (sans perte) :
Speedup ≈ TPF/α - Gated LoRA n’est activé qu’aux positions MASK, ce qui garantit une identité bit à bit avec la sortie AR
- Memory-bound :
Documentation et ressources
- L’ensemble du processus — installation, entraînement, inférence, serving, R-ISD sans perte, modèles et benchmarks — est fourni sous forme de documentation web
-
Installation
- Cloner le dépôt GitHub puis exécuter
install.sh
- Cloner le dépôt GitHub puis exécuter
-
Quick Start
- Il est possible d’envoyer des requêtes de chat completion via l’API REST après avoir lancé un serveur SGLang
-
Training
- Entraînement en combinant des séquences entièrement masquées et des séquences propres
- 4.5B tokens, 8×H100 GPU, 2 epochs, curriculum de stride (N=2→3)
-
Inference & ISD
- Proposition de nouveaux tokens (q) aux positions MASK, vérification (p) aux positions propres
- Le critère d’acceptation
min(1, p(x)/q(x))garantit la distribution AR - Avec un stride N=4, TPF=2.96, soit un gain de vitesse d’environ 3x
-
Serving (SGLang)
-
Cache KV paginé**,** capture de graphe CUDA (+42~76%), boucle de décodage stationary-batch (+11~21%), proposition Argmax (+11~15%), noyau d’attention paged-only (+10~14%)
- L’ensemble du système améliore le throughput de 2,1 à 2,5 fois par rapport à la base
-
-
Lossless R-ISD
- Gated LoRA (rank=128) n’est appliqué qu’aux positions MASK
- La sortie est strictement identique à celle du modèle AR de base
- Surcharge d’environ 1.12x
-
Model Zoo
- I-DLM-8B : basé sur Qwen3-8B, qualité équivalente à AR
- I-DLM-32B : basé sur Qwen3-32B, dépasse LLaDA-2.1-flash (100B)
- I-DLM-8B-LoRA : avec application de Gated LoRA (rank=128)
-
Benchmarks
- Évalué sur 15 benchmarks (connaissances, mathématiques, code, exécution d’instructions)
- Scripts de reproduction fournis
Informations de citation
- Article : Introspective Diffusion Language Models (arXiv:2604.11035, 2026)
- Institutions de recherche : Together AI, UIUC, Princeton, Stanford, UT Austin
- Auteurs : Yifan Yu et 14 autres
Conclusion
- I-DLM est le premier exemple d’un modèle de langage à diffusion qui atteint à la fois la qualité et la vitesse d’un modèle AR
- Il dépasse les limites de la génération parallèle grâce à l’apprentissage de la cohérence introspective et au décodage ISD
- Sa compatibilité avec SGLang, son accélération sans perte et sa forte montée en charge en throughput démontrent sa viabilité pour un déploiement pratique
Aucun commentaire pour le moment.