BERT n’est qu’une étape de diffusion textuelle

(nathan.rs)

3 points par GN⁺ 2025-10-21 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Les modèles de langage masqué comme BERT et RoBERTa peuvent aussi être interprétés comme des modèles de diffusion textuelle.
Contrairement aux auto-régressifs (p. ex. GPT), la génération par blocs et une approche de restauration progressive sont possibles.
En entraînant avec un taux de masquage ajusté par étape, il a été vérifié expérimentalement que RoBERTa peut aussi générer un texte naturel.
Même sans changer la structure existante, il est possible d’obtenir des capacités de génération en ne modifiant que l’objectif d’entraînement.
En comparaison avec GPT-2, le modèle de diffusion basé sur RoBERTa produit aussi des résultats de génération de texte cohérents jusqu’à un certain niveau.

Aperçu

Le Gemini Diffusion publié par Google DeepMind est un modèle de langage basé sur la diffusion qui génère le texte en blocs en une seule passe, contrairement aux modèles de la famille GPT. Cette méthode approche la génération en affinant progressivement un bruit aléatoire. Selon l’examen de l’article Large Language Diffusion Models, la diffusion de langage discrète est une généralisation du Masked Language Modeling (MLM). Concrètement, cette idée a été explorée expérimentalement pour vérifier si les modèles de type BERT pouvaient également générer du texte.

Remarque : le papier DiffusionBERT valide ensuite ce même type d’idée de manière plus stricte.

Brève histoire du Transformer

Le Transformer, proposé initialement en 2017, avait une architecture encodeur-décodreur. En 2018, en séparant encodeur (BERT : bidirectionnel, centré sur la restauration masquée) et décodeur (GPT : auto-régressif, centré sur la prédiction séquentielle), deux familles de modèles spécialisées ont émergé.

Encodeur seul (famille BERT)
- Reçoit le contexte global et masque certaines parties avec <MASK> pour les reconstruire à partir du reste
- Forte performance pour les représentations de phrase, la classification, etc.
Décodeur seul (famille GPT)
- Prédit le token suivant à partir d’un ordre donné
- Marque ses performances en génération, résumé, traduction, etc.

BERT a été utilisé directement pour la classification, mais la famille GPT a fini par couvrir des usages plus variés grâce à de meilleures capacités de génération.

Modèles de diffusion de langage discret

Les modèles de diffusion ont été popularisés à l’origine pour la génération d’images.
Dans le cas des images :

Processus direct : ajout progressif d’un bruit gaussien à une image propre jusqu’à un état de bruit pur
Processus inverse : répéter le débruitage progressivement avec un modèle de deep learning pour restaurer les données d’origine

Pour les appliquer au texte, la méthode la plus simple est le processus de bruitage basé sur le masquage.

Direct (masquage)
- À t=0, texte d’origine ; le nombre d’étapes augmente et certains tokens sont remplacés aléatoirement par <MASK>
- À l’étape finale, tous les tokens sont remplacés par <MASK>
Inverse (débruitage)
- L’encodeur Transformer apprend à restaurer les tokens d’origine sous une configuration de masquage donnée
- La reconstruction est facile quand le taux de masquage est faible, et devient plus difficile à mesure que ce taux augmente
- En répétant du taux de masquage élevé vers un taux faible, on peut générer une séquence complète

Dans ce cadre de diffusion, le modèle apprend en sommant les pertes de débruitage sur plusieurs étapes et différents taux de masquage. L’objectif de reconstruction masquée de BERT est en réalité un sous-ensemble de la diffusion textuelle. En combinant un planning de taux de masquage avec un débruitage itératif, l’objectif de BERT peut être étendu à une procédure de génération en langage naturel.

Expérience RoBERTa Diffusion

RoBERTa, publiée en 2019, se caractérise par des hyperparamètres et des données étendus par rapport à BERT, ainsi qu’un objectif d’entraînement plus simple (MLM Only).
Dans les expériences, les poids de base de RoBERTa, le tokenizer et Trainer ont été utilisés avec les bibliothèques Hugging Face transformers et datasets.
Le fine-tuning sur le jeu de données WikiText s’est déroulé selon le processus suivant :

Pour chaque batch, un des 10 niveaux de l’échelle de diffusion (mask_probs: 1.0~0.1) est échantillonné puis utilisé pour le masquage
Avec un diffusion_collator personnalisé, le taux de masquage est choisi puis appliqué de manière probabiliste token par token
Pour conserver le contexte du prompt, les 16 premiers tokens sont toujours conservés

Masquage des données (collator personnalisé) :

Après padding de chaque lot de tokens d’un exemple, le taux de masquage est choisi aléatoirement
<MASK> est appliqué de manière probabiliste à tous les tokens sauf les 16 premiers
Les données masquées et l’ensemble des labels de vérité terrain sont renvoyés

Inférence (génération) :

Séquence d’entrée de longueur 256 tokens : 16 premiers tokens comme prompt, le reste en <MASK>
À chaque étape, les tokens prédis par le modèle sont échantillonnés puis remplis, puis une certaine proportion est à nouveau remasquée
Répéter en diminuant progressivement le taux de masquage, jusqu’à ce que la séquence entière soit restaurée à la fin

Résultats de génération d’exemple :

Le texte généré est en réalité assez cohérent, avec un contexte de continuation naturel après le prompt
Certaines particularités semblent dues au format de prétraitement des données WikiText (p. ex. le tiret @-@)

Comparaison avec GPT-2

GPT-2 est un peu plus rapide et légèrement plus cohérent, mais RoBERTa Diffusion montre déjà des performances inattendues (avec un fort potentiel d’amélioration incrémentale)
De nouvelles méthodes comme AR-Diffusion, Skip-Step Diffusion et des optimisations supplémentaires pourraient améliorer qualité et vitesse

Conclusion

Un modèle de langage masqué conçu comme RoBERTa, entraîné avec des taux de masquage ajustés étape par étape, peut devenir un moteur de génération de texte naturel
La méthode d’entraînement basée uniquement sur la dégradation/restauration progressive du texte via les tokens <MASK> permet de confirmer la possibilité de le transformer en modèle totalement génératif
En modifiant uniquement l’objectif d’entraînement sans changer l’architecture elle-même, on peut obtenir des capacités de génération
En fin de compte, les modèles de la famille BERT coïncident essentiellement avec un modèle de diffusion textuelle