BERT n’est qu’une étape de diffusion textuelle
(nathan.rs)- Les modèles de langage masqué comme BERT et RoBERTa peuvent aussi être interprétés comme des modèles de diffusion textuelle.
- Contrairement aux auto-régressifs (p. ex. GPT), la génération par blocs et une approche de restauration progressive sont possibles.
- En entraînant avec un taux de masquage ajusté par étape, il a été vérifié expérimentalement que RoBERTa peut aussi générer un texte naturel.
- Même sans changer la structure existante, il est possible d’obtenir des capacités de génération en ne modifiant que l’objectif d’entraînement.
- En comparaison avec GPT-2, le modèle de diffusion basé sur RoBERTa produit aussi des résultats de génération de texte cohérents jusqu’à un certain niveau.
Aperçu
Le Gemini Diffusion publié par Google DeepMind est un modèle de langage basé sur la diffusion qui génère le texte en blocs en une seule passe, contrairement aux modèles de la famille GPT. Cette méthode approche la génération en affinant progressivement un bruit aléatoire. Selon l’examen de l’article Large Language Diffusion Models, la diffusion de langage discrète est une généralisation du Masked Language Modeling (MLM). Concrètement, cette idée a été explorée expérimentalement pour vérifier si les modèles de type BERT pouvaient également générer du texte.
Remarque : le papier DiffusionBERT valide ensuite ce même type d’idée de manière plus stricte.
Brève histoire du Transformer
Le Transformer, proposé initialement en 2017, avait une architecture encodeur-décodreur. En 2018, en séparant encodeur (BERT : bidirectionnel, centré sur la restauration masquée) et décodeur (GPT : auto-régressif, centré sur la prédiction séquentielle), deux familles de modèles spécialisées ont émergé.
- Encodeur seul (famille BERT)
- Reçoit le contexte global et masque certaines parties avec
<MASK>pour les reconstruire à partir du reste - Forte performance pour les représentations de phrase, la classification, etc.
- Reçoit le contexte global et masque certaines parties avec
- Décodeur seul (famille GPT)
- Prédit le token suivant à partir d’un ordre donné
- Marque ses performances en génération, résumé, traduction, etc.
BERT a été utilisé directement pour la classification, mais la famille GPT a fini par couvrir des usages plus variés grâce à de meilleures capacités de génération.
Modèles de diffusion de langage discret
Les modèles de diffusion ont été popularisés à l’origine pour la génération d’images.
Dans le cas des images :
- Processus direct : ajout progressif d’un bruit gaussien à une image propre jusqu’à un état de bruit pur
- Processus inverse : répéter le débruitage progressivement avec un modèle de deep learning pour restaurer les données d’origine
Pour les appliquer au texte, la méthode la plus simple est le processus de bruitage basé sur le masquage.
- Direct (masquage)
- À t=0, texte d’origine ; le nombre d’étapes augmente et certains tokens sont remplacés aléatoirement par
<MASK> - À l’étape finale, tous les tokens sont remplacés par
<MASK>
- À t=0, texte d’origine ; le nombre d’étapes augmente et certains tokens sont remplacés aléatoirement par
- Inverse (débruitage)
- L’encodeur Transformer apprend à restaurer les tokens d’origine sous une configuration de masquage donnée
- La reconstruction est facile quand le taux de masquage est faible, et devient plus difficile à mesure que ce taux augmente
- En répétant du taux de masquage élevé vers un taux faible, on peut générer une séquence complète
Dans ce cadre de diffusion, le modèle apprend en sommant les pertes de débruitage sur plusieurs étapes et différents taux de masquage. L’objectif de reconstruction masquée de BERT est en réalité un sous-ensemble de la diffusion textuelle. En combinant un planning de taux de masquage avec un débruitage itératif, l’objectif de BERT peut être étendu à une procédure de génération en langage naturel.
Expérience RoBERTa Diffusion
RoBERTa, publiée en 2019, se caractérise par des hyperparamètres et des données étendus par rapport à BERT, ainsi qu’un objectif d’entraînement plus simple (MLM Only).
Dans les expériences, les poids de base de RoBERTa, le tokenizer et Trainer ont été utilisés avec les bibliothèques Hugging Face transformers et datasets.
Le fine-tuning sur le jeu de données WikiText s’est déroulé selon le processus suivant :
- Pour chaque batch, un des 10 niveaux de l’échelle de diffusion (
mask_probs: 1.0~0.1) est échantillonné puis utilisé pour le masquage - Avec un
diffusion_collatorpersonnalisé, le taux de masquage est choisi puis appliqué de manière probabiliste token par token - Pour conserver le contexte du prompt, les 16 premiers tokens sont toujours conservés
Masquage des données (collator personnalisé) :
- Après padding de chaque lot de tokens d’un exemple, le taux de masquage est choisi aléatoirement
<MASK>est appliqué de manière probabiliste à tous les tokens sauf les 16 premiers- Les données masquées et l’ensemble des labels de vérité terrain sont renvoyés
Inférence (génération) :
- Séquence d’entrée de longueur 256 tokens : 16 premiers tokens comme prompt, le reste en
<MASK> - À chaque étape, les tokens prédis par le modèle sont échantillonnés puis remplis, puis une certaine proportion est à nouveau remasquée
- Répéter en diminuant progressivement le taux de masquage, jusqu’à ce que la séquence entière soit restaurée à la fin
Résultats de génération d’exemple :
- Le texte généré est en réalité assez cohérent, avec un contexte de continuation naturel après le prompt
- Certaines particularités semblent dues au format de prétraitement des données WikiText (p. ex. le tiret
@-@)
Comparaison avec GPT-2
- GPT-2 est un peu plus rapide et légèrement plus cohérent, mais RoBERTa Diffusion montre déjà des performances inattendues (avec un fort potentiel d’amélioration incrémentale)
- De nouvelles méthodes comme AR-Diffusion, Skip-Step Diffusion et des optimisations supplémentaires pourraient améliorer qualité et vitesse
Conclusion
- Un modèle de langage masqué conçu comme RoBERTa, entraîné avec des taux de masquage ajustés étape par étape, peut devenir un moteur de génération de texte naturel
- La méthode d’entraînement basée uniquement sur la dégradation/restauration progressive du texte via les tokens
<MASK>permet de confirmer la possibilité de le transformer en modèle totalement génératif - En modifiant uniquement l’objectif d’entraînement sans changer l’architecture elle-même, on peut obtenir des capacités de génération
- En fin de compte, les modèles de la famille BERT coïncident essentiellement avec un modèle de diffusion textuelle
Aucun commentaire pour le moment.