BERT suivait déjà le modèle de diffusion de texte : créer une IA générative en 30 minutes avec RoBERTa
(aisparkup.com)La méthode d'entraînement de BERT utilisée depuis 2018 repose en fait sur le même principe qu'un modèle de diffusion textuelle récent.
Cela va au-delà d'une découverte académique : elle démontre qu'il est possible de convertir de manière pratique un modèle BERT existant en modèle de génération de texte comparable à GPT.
Points clés :
- Le mask language modeling (MLM) de BERT est un processus de diffusion à taux de masquage fixe : la méthode d'entraînement de BERT utilisée pendant 7 ans suit en réalité le même principe qu'un processus de diffusion basé sur la suppression de bruit. En ajustant de façon variable le taux de masquage, la conversion en modèle entièrement génératif devient possible.
- Génération de texte au niveau de GPT-2 après seulement 30 minutes d'entraînement : un modèle RoBERTa existant est transformé en modèle de génération de texte avec un léger fine-tuning. Il fonctionne en restaurant progressivement la phrase entière, contrairement à l'approche GPT qui prédit les mots un par un.
- Nouvelles possibilités pour la génération de texte : proposition d'une approche alternative basée sur la génération par diffusion en plus de la méthode auto-régressive de GPT. C'est le début d'une nouvelle dynamique, à l'instar de Gemini Diffusion de Google DeepMind.
Aucun commentaire pour le moment.