I-DLM - Modèles de langage à diffusion introspective (Introspective Diffusion Language Models)

(introspective-diffusion.github.io)

1 points par GN⁺ 14 일 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp

I-DLM est le premier cas où un modèle de langage à diffusion atteint à la fois une qualité au niveau des modèles AR (Autoregressive) et une vitesse de génération parallèle
Grâce à Introspective Strided Decoding (ISD), il génère de nouveaux tokens et vérifie les tokens précédents en un seul passage avant
I-DLM-8B améliore les résultats de +26 points sur AIME-24 et de +15 points sur LiveCodeBench-v6 par rapport à LLaDA-2.1-mini (16B), avec deux fois moins de paramètres
Avec Gated LoRA, il met en œuvre une accélération sans perte au niveau bit à bit (lossless) et reste entièrement compatible avec l’infrastructure SGLang
Les modèles de langage à diffusion démontrent un potentiel de déploiement pratique à grande échelle grâce à l’apprentissage de la cohérence interne et à l’optimisation du décodage parallèle

Aperçu

I-DLM (Introspective Diffusion Language Model) est un modèle qui conserve la capacité de génération parallèle de tokens des modèles de langage à diffusion (DLM) existants, tout en résolvant le problème de cohérence introspective (introspective consistency) pour atteindre une qualité au niveau des modèles AR
Grâce à Introspective Strided Decoding (ISD), il génère de nouveaux tokens tout en vérifiant les tokens précédents en un seul passage avant
I-DLM-8B est le premier DLM à atteindre une qualité équivalente à celle d’un modèle AR de taille comparable ; avec moitié moins de paramètres que LLaDA-2.1-mini (16B), il progresse de +26 points sur AIME-24 et de +15 points sur LiveCodeBench-v6
Dans un environnement à forte concurrence (C=64), il atteint un throughput 2,9 à 4,1 fois supérieur et prend en charge une accélération sans perte au niveau bit à bit (lossless) via Gated LoRA

Pourquoi la cohérence introspective est nécessaire

Les modèles AR effectuent la génération et l’auto-vérification en même temps lors d’un seul passage avant, alors que les DLM existants n’apprennent que le denoising, ce qui entraîne un manque de cohérence introspective
Les trois goulets d’étranglement des DLM existants
- Faible cohérence introspective : SDAR 0.699 vs I-DLM 0.984
- Calcul inefficace : surcharge d’environ 7,8x pour TiDAR vs environ 2,5x pour I-DLM
- Incompatibilité d’infrastructure : SDAR slope=84 vs I-DLM=549

Méthodologie d’I-DLM

Entraînement à la cohérence introspective
- Transformation d’un modèle AR préentraîné via l’attention causale (causal attention), un logit shift et une fonction objectif entièrement masquée (all-masked)
Introspective Strided Decoding (ISD)
- Exécute en parallèle la génération de N tokens et la vérification des tokens précédents en un seul passage avant
- Vérifie les résultats générés à l’aide du critère d’acceptation p/q (acceptance criterion)
Serving compatible AR
- Intégration directe dans l’infrastructure SGLang grâce à une structure d’attention causale stricte
- Fonctionne dans le même environnement de serving qu’un modèle AR, sans infrastructure custom séparée

Résultats de performance

I-DLM est le premier DLM dont la qualité égale celle d’un modèle AR de même taille, et dépasse les DLM existants sur 15 benchmarks
Principaux résultats de benchmark
- Connaissances et raisonnement : ARC-C 96.8, MMLU-Pro 79.7, GPQA-D 62.1
- Mathématiques : AIME-24 83.3, AIME-25 80.0, MATH-500 97.6
- Code : HumanEval 96.3, MBPP 94.6, LCB-v6 57.1
- Exécution d’instructions : IFEval 84.7
- I-DLM-32B affiche des performances supérieures à LLaDA-2.1-flash (100B)

Throughput

Il atteint un throughput 2,9 à 4,1 fois supérieur à celui de LLaDA-2.1-mini et de SDAR pour des tailles de batch de 1 à 64
En environnement memory-bound, le TPF (Token Per Forward) approxime le gain de vitesse réel
- I-DLM(N=4, p=0.9) : TPF≈2.9, efficacité 1.22
- SDAR(N=4, p=0.5) : TPF≈1.1, efficacité 0.31
Une efficacité supérieure à 1 signifie que le décodage parallèle réduit la quantité totale de calcul par rapport à AR

Speedup Factor Explorer

Taux d’acceptation p=0.9, surcharge R-ISD LoRA α=1.12
Formule d’approximation du gain de vitesse :
- Memory-bound : Speedup ≈ TPF = (2+p+...+pN-2)/(2-pN-1)
- R-ISD (sans perte) : Speedup ≈ TPF/α
- Gated LoRA n’est activé qu’aux positions MASK, ce qui garantit une identité bit à bit avec la sortie AR

Documentation et ressources

L’ensemble du processus — installation, entraînement, inférence, serving, R-ISD sans perte, modèles et benchmarks — est fourni sous forme de documentation web
Installation
- Cloner le dépôt GitHub puis exécuter install.sh
Quick Start
- Il est possible d’envoyer des requêtes de chat completion via l’API REST après avoir lancé un serveur SGLang
Training
- Entraînement en combinant des séquences entièrement masquées et des séquences propres
- 4.5B tokens, 8×H100 GPU, 2 epochs, curriculum de stride (N=2→3)
Inference & ISD
- Proposition de nouveaux tokens (q) aux positions MASK, vérification (p) aux positions propres
- Le critère d’acceptation min(1, p(x)/q(x)) garantit la distribution AR
- Avec un stride N=4, TPF=2.96, soit un gain de vitesse d’environ 3x
Serving (SGLang)
- Cache KV paginé**,** capture de graphe CUDA (+42~76%), boucle de décodage stationary-batch (+11~21%), proposition Argmax (+11~15%), noyau d’attention paged-only (+10~14%)
  - L’ensemble du système améliore le throughput de 2,1 à 2,5 fois par rapport à la base
Lossless R-ISD
- Gated LoRA (rank=128) n’est appliqué qu’aux positions MASK
- La sortie est strictement identique à celle du modèle AR de base
- Surcharge d’environ 1.12x
Model Zoo
- I-DLM-8B : basé sur Qwen3-8B, qualité équivalente à AR
- I-DLM-32B : basé sur Qwen3-32B, dépasse LLaDA-2.1-flash (100B)
- I-DLM-8B-LoRA : avec application de Gated LoRA (rank=128)
Benchmarks
- Évalué sur 15 benchmarks (connaissances, mathématiques, code, exécution d’instructions)
- Scripts de reproduction fournis

Informations de citation

Article : Introspective Diffusion Language Models (arXiv:2604.11035, 2026)
Institutions de recherche : Together AI, UIUC, Princeton, Stanford, UT Austin
Auteurs : Yifan Yu et 14 autres

Conclusion

I-DLM est le premier exemple d’un modèle de langage à diffusion qui atteint à la fois la qualité et la vitesse d’un modèle AR
Il dépasse les limites de la génération parallèle grâce à l’apprentissage de la cohérence introspective et au décodage ISD
Sa compatibilité avec SGLang, son accélération sans perte et sa forte montée en charge en throughput démontrent sa viabilité pour un déploiement pratique

I-DLM - Modèles de langage à diffusion introspective (Introspective Diffusion Language Models)

Aperçu

Pourquoi la cohérence introspective est nécessaire

Méthodologie d’I-DLM

Entraînement à la cohérence introspective

Introspective Strided Decoding (ISD)

Serving compatible AR

Résultats de performance

Principaux résultats de benchmark

Throughput

Speedup Factor Explorer

Formule d’approximation du gain de vitesse :

Documentation et ressources

Installation

Quick Start

Training

Inference & ISD

Serving (SGLang)

Cache KV paginé**,** capture de graphe CUDA (+42~76%), boucle de décodage stationary-batch (+11~21%), proposition Argmax (+11~15%), noyau d’attention paged-only (+10~14%)

Lossless R-ISD

Model Zoo

Benchmarks

Informations de citation

Conclusion

À lire aussi

Aucun commentaire pour le moment.

Cache KV paginé, capture de graphe CUDA (+42~76%), boucle de décodage stationary-batch (+11~21%), proposition Argmax (+11~15%), noyau d’attention paged-only (+10~14%)