1 points par GN⁺ 14 일 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • I-DLM est le premier cas où un modèle de langage à diffusion atteint à la fois une qualité au niveau des modèles AR (Autoregressive) et une vitesse de génération parallèle
  • Grâce à Introspective Strided Decoding (ISD), il génère de nouveaux tokens et vérifie les tokens précédents en un seul passage avant
  • I-DLM-8B améliore les résultats de +26 points sur AIME-24 et de +15 points sur LiveCodeBench-v6 par rapport à LLaDA-2.1-mini (16B), avec deux fois moins de paramètres
  • Avec Gated LoRA, il met en œuvre une accélération sans perte au niveau bit à bit (lossless) et reste entièrement compatible avec l’infrastructure SGLang
  • Les modèles de langage à diffusion démontrent un potentiel de déploiement pratique à grande échelle grâce à l’apprentissage de la cohérence interne et à l’optimisation du décodage parallèle

Aperçu

  • I-DLM (Introspective Diffusion Language Model) est un modèle qui conserve la capacité de génération parallèle de tokens des modèles de langage à diffusion (DLM) existants, tout en résolvant le problème de cohérence introspective (introspective consistency) pour atteindre une qualité au niveau des modèles AR
  • Grâce à Introspective Strided Decoding (ISD), il génère de nouveaux tokens tout en vérifiant les tokens précédents en un seul passage avant
  • I-DLM-8B est le premier DLM à atteindre une qualité équivalente à celle d’un modèle AR de taille comparable ; avec moitié moins de paramètres que LLaDA-2.1-mini (16B), il progresse de +26 points sur AIME-24 et de +15 points sur LiveCodeBench-v6
  • Dans un environnement à forte concurrence (C=64), il atteint un throughput 2,9 à 4,1 fois supérieur et prend en charge une accélération sans perte au niveau bit à bit (lossless) via Gated LoRA

Pourquoi la cohérence introspective est nécessaire

  • Les modèles AR effectuent la génération et l’auto-vérification en même temps lors d’un seul passage avant, alors que les DLM existants n’apprennent que le denoising, ce qui entraîne un manque de cohérence introspective
  • Les trois goulets d’étranglement des DLM existants
    • Faible cohérence introspective : SDAR 0.699 vs I-DLM 0.984
    • Calcul inefficace : surcharge d’environ 7,8x pour TiDAR vs environ 2,5x pour I-DLM
    • Incompatibilité d’infrastructure : SDAR slope=84 vs I-DLM=549

Méthodologie d’I-DLM

  • Entraînement à la cohérence introspective

    • Transformation d’un modèle AR préentraîné via l’attention causale (causal attention), un logit shift et une fonction objectif entièrement masquée (all-masked)
  • Introspective Strided Decoding (ISD)

    • Exécute en parallèle la génération de N tokens et la vérification des tokens précédents en un seul passage avant
    • Vérifie les résultats générés à l’aide du critère d’acceptation p/q (acceptance criterion)
  • Serving compatible AR

    • Intégration directe dans l’infrastructure SGLang grâce à une structure d’attention causale stricte
    • Fonctionne dans le même environnement de serving qu’un modèle AR, sans infrastructure custom séparée

Résultats de performance

  • I-DLM est le premier DLM dont la qualité égale celle d’un modèle AR de même taille, et dépasse les DLM existants sur 15 benchmarks
  • Principaux résultats de benchmark

    • Connaissances et raisonnement : ARC-C 96.8, MMLU-Pro 79.7, GPQA-D 62.1
    • Mathématiques : AIME-24 83.3, AIME-25 80.0, MATH-500 97.6
    • Code : HumanEval 96.3, MBPP 94.6, LCB-v6 57.1
    • Exécution d’instructions : IFEval 84.7
    • I-DLM-32B affiche des performances supérieures à LLaDA-2.1-flash (100B)

Throughput

  • Il atteint un throughput 2,9 à 4,1 fois supérieur à celui de LLaDA-2.1-mini et de SDAR pour des tailles de batch de 1 à 64
  • En environnement memory-bound, le TPF (Token Per Forward) approxime le gain de vitesse réel
    • I-DLM(N=4, p=0.9) : TPF≈2.9, efficacité 1.22
    • SDAR(N=4, p=0.5) : TPF≈1.1, efficacité 0.31
  • Une efficacité supérieure à 1 signifie que le décodage parallèle réduit la quantité totale de calcul par rapport à AR

Speedup Factor Explorer

  • Taux d’acceptation p=0.9, surcharge R-ISD LoRA α=1.12
  • Formule d’approximation du gain de vitesse :

    • Memory-bound : Speedup ≈ TPF = (2+p+...+pN-2)/(2-pN-1)
    • R-ISD (sans perte) : Speedup ≈ TPF/α
    • Gated LoRA n’est activé qu’aux positions MASK, ce qui garantit une identité bit à bit avec la sortie AR

Documentation et ressources

  • L’ensemble du processus — installation, entraînement, inférence, serving, R-ISD sans perte, modèles et benchmarks — est fourni sous forme de documentation web
  • Installation

    • Cloner le dépôt GitHub puis exécuter install.sh
  • Quick Start

    • Il est possible d’envoyer des requêtes de chat completion via l’API REST après avoir lancé un serveur SGLang
  • Training

    • Entraînement en combinant des séquences entièrement masquées et des séquences propres
    • 4.5B tokens, 8×H100 GPU, 2 epochs, curriculum de stride (N=2→3)
  • Inference & ISD

    • Proposition de nouveaux tokens (q) aux positions MASK, vérification (p) aux positions propres
    • Le critère d’acceptation min(1, p(x)/q(x)) garantit la distribution AR
    • Avec un stride N=4, TPF=2.96, soit un gain de vitesse d’environ 3x
  • Serving (SGLang)

    • Cache KV paginé**,** capture de graphe CUDA (+42~76%), boucle de décodage stationary-batch (+11~21%), proposition Argmax (+11~15%), noyau d’attention paged-only (+10~14%)

      • L’ensemble du système améliore le throughput de 2,1 à 2,5 fois par rapport à la base
  • Lossless R-ISD

    • Gated LoRA (rank=128) n’est appliqué qu’aux positions MASK
    • La sortie est strictement identique à celle du modèle AR de base
    • Surcharge d’environ 1.12x
  • Model Zoo

    • I-DLM-8B : basé sur Qwen3-8B, qualité équivalente à AR
    • I-DLM-32B : basé sur Qwen3-32B, dépasse LLaDA-2.1-flash (100B)
    • I-DLM-8B-LoRA : avec application de Gated LoRA (rank=128)
  • Benchmarks

    • Évalué sur 15 benchmarks (connaissances, mathématiques, code, exécution d’instructions)
    • Scripts de reproduction fournis

Informations de citation

  • Article : Introspective Diffusion Language Models (arXiv:2604.11035, 2026)
  • Institutions de recherche : Together AI, UIUC, Princeton, Stanford, UT Austin
  • Auteurs : Yifan Yu et 14 autres

Conclusion

  • I-DLM est le premier exemple d’un modèle de langage à diffusion qui atteint à la fois la qualité et la vitesse d’un modèle AR
  • Il dépasse les limites de la génération parallèle grâce à l’apprentissage de la cohérence introspective et au décodage ISD
  • Sa compatibilité avec SGLang, son accélération sans perte et sa forte montée en charge en throughput démontrent sa viabilité pour un déploiement pratique

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.