Diffusion Forcing
Présentation de Diffusion Forcing
- « Diffusion Forcing » est un nom dérivé de « teacher forcing » et des « diffusion models »
- Diffusion Forcing peut exploiter à la fois les principaux atouts des modèles de prédiction du token suivant et des modèles de diffusion sur séquence complète
- Un seul entraînement permet un fonctionnement flexible à différents temps d’échantillonnage
Principe de fonctionnement de Diffusion Forcing
- Entraîne une diffusion de séquence en appliquant un niveau de bruit différent à chaque token
- Le bruit de diffusion peut être vu comme un masquage à différents niveaux
- Au moment de l’échantillonnage, un comportement flexible peut être obtenu en utilisant des niveaux de bruit différents sur l’ensemble de la séquence
Prédiction vidéo
- La prédiction vidéo avec Diffusion Forcing fournit des résultats stables et cohérents
- Sur les jeux de données DMLab et Minecraft, Diffusion Forcing montre de meilleures performances que les méthodes existantes
Stabilisation des rollouts infinis sans fenêtre glissante
- Diffusion Forcing peut effectuer des rollouts vidéo bien plus longs que la longueur de séquence maximale vue à l’entraînement
- Permet de dérouler un RNN sans fenêtre glissante
- Des rollouts de plus de 2000 frames sont possibles sur les jeux de données DMLab et Minecraft
Diffusion Planning
- Diffusion Forcing peut être utilisé comme planificateur au moment du test à l’aide du guidage
- Définit chaque token comme
[a_t, o_{t+1}] afin de modéliser explicitement les relations causales
- Peut être mis à jour par inférence a posteriori après l’obtention de nouvelles observations
Apprentissage par imitation à long horizon
- De nombreuses tâches réelles ne possèdent pas de propriété markovienne et nécessitent une mémoire à long terme
- Montre des résultats concluants sur une tâche où un bras robotique échange deux emplacements de fruits
- Diffusion Forcing peut fonctionner de manière robuste face à des perturbations non vues pendant les tests
L’avis de GN⁺
- Diffusion Forcing combine les avantages des modèles de prédiction du token suivant et des modèles de diffusion sur séquence complète pour permettre un échantillonnage flexible
- Il montre de meilleures performances que les méthodes existantes en prédiction vidéo et en rollout, ce qui renforce son potentiel d’application pratique
- Son succès en apprentissage par imitation à long horizon met en évidence les fortes capacités de contrôle par rétroaction de Diffusion Forcing
- Son effet de stabilisation accroît son potentiel d’utilisation sur des séquences de longueurs variées
- Lors de l’adoption de cette nouvelle technique, il faut prendre en compte la complexité du modèle et son coût de calcul
1 commentaires
Commentaires sur Hacker News
Une nouvelle approche est proposée, combinant l’idée du masquage de séquence avec les modèles de diffusion
Je me demande s’il existe des recherches ou des outils permettant de combiner des LLM de génération de texte existants avec des techniques de diffusion, sans nouvel entraînement préalable
Russ étudie actuellement la diffusion ; cela semble très applicable à la robotique
En tant que personne travaillant dans ce domaine, je trouve que la recherche a été présentée de manière très obscure
Je me demande si j’ai raté quelque chose concernant le temps d’entraînement ; ajouter du bruit par token ralentit-il fortement l’entraînement ?
Recherche très intéressante, mais je me demande pourquoi cela s’appelle « diffusion forcing »