1 points par GN⁺ 2024-07-06 | 1 commentaires | Partager sur WhatsApp

Diffusion Forcing

Présentation de Diffusion Forcing

  • « Diffusion Forcing » est un nom dérivé de « teacher forcing » et des « diffusion models »
  • Diffusion Forcing peut exploiter à la fois les principaux atouts des modèles de prédiction du token suivant et des modèles de diffusion sur séquence complète
  • Un seul entraînement permet un fonctionnement flexible à différents temps d’échantillonnage

Principe de fonctionnement de Diffusion Forcing

  • Entraîne une diffusion de séquence en appliquant un niveau de bruit différent à chaque token
  • Le bruit de diffusion peut être vu comme un masquage à différents niveaux
  • Au moment de l’échantillonnage, un comportement flexible peut être obtenu en utilisant des niveaux de bruit différents sur l’ensemble de la séquence

Prédiction vidéo

  • La prédiction vidéo avec Diffusion Forcing fournit des résultats stables et cohérents
  • Sur les jeux de données DMLab et Minecraft, Diffusion Forcing montre de meilleures performances que les méthodes existantes

Stabilisation des rollouts infinis sans fenêtre glissante

  • Diffusion Forcing peut effectuer des rollouts vidéo bien plus longs que la longueur de séquence maximale vue à l’entraînement
  • Permet de dérouler un RNN sans fenêtre glissante
  • Des rollouts de plus de 2000 frames sont possibles sur les jeux de données DMLab et Minecraft

Diffusion Planning

  • Diffusion Forcing peut être utilisé comme planificateur au moment du test à l’aide du guidage
  • Définit chaque token comme [a_t, o_{t+1}] afin de modéliser explicitement les relations causales
  • Peut être mis à jour par inférence a posteriori après l’obtention de nouvelles observations

Apprentissage par imitation à long horizon

  • De nombreuses tâches réelles ne possèdent pas de propriété markovienne et nécessitent une mémoire à long terme
  • Montre des résultats concluants sur une tâche où un bras robotique échange deux emplacements de fruits
  • Diffusion Forcing peut fonctionner de manière robuste face à des perturbations non vues pendant les tests

L’avis de GN⁺

  • Diffusion Forcing combine les avantages des modèles de prédiction du token suivant et des modèles de diffusion sur séquence complète pour permettre un échantillonnage flexible
  • Il montre de meilleures performances que les méthodes existantes en prédiction vidéo et en rollout, ce qui renforce son potentiel d’application pratique
  • Son succès en apprentissage par imitation à long horizon met en évidence les fortes capacités de contrôle par rétroaction de Diffusion Forcing
  • Son effet de stabilisation accroît son potentiel d’utilisation sur des séquences de longueurs variées
  • Lors de l’adoption de cette nouvelle technique, il faut prendre en compte la complexité du modèle et son coût de calcul

1 commentaires

 
GN⁺ 2024-07-06
Commentaires sur Hacker News
  • Une nouvelle approche est proposée, combinant l’idée du masquage de séquence avec les modèles de diffusion

    • Le niveau d’« incertitude » de chaque pixel est suivi et utilisé comme niveau de « bruit » du modèle de diffusion
    • Il est possible de fixer certaines parties de l’image en premier, ce qui permet des usages comme la résolution de labyrinthes
    • Cela a aussi été utilisé pour contrôler un bras robotique
    • Le titre sous-estime l’idée ; c’est une manière d’effectuer un « masquage fractionnaire »
    • Beaucoup de questions sur la base de code ; par exemple, comment sont configurées la tâche de parcours de labyrinthe et celle d’extension vidéo, ou encore comment le bras robotique est connecté
    • L’architecture elle-même nécessite davantage de recherche et d’explications
  • Je me demande s’il existe des recherches ou des outils permettant de combiner des LLM de génération de texte existants avec des techniques de diffusion, sans nouvel entraînement préalable

    • Il existe des approches similaires comme Tree of Thoughts et MCTS, mais je cherche quelque chose de plus proche de la génération au niveau du token
    • Je me demande si cela pourrait fonctionner avec de petits modèles GPT / Phi 3 / Gwen
  • Russ étudie actuellement la diffusion ; cela semble très applicable à la robotique

  • En tant que personne travaillant dans ce domaine, je trouve que la recherche a été présentée de manière très obscure

    • Je me demande quel problème elle cherche à résoudre, et s’il s’agit de proposer un nouveau modèle génératif
  • Je me demande si j’ai raté quelque chose concernant le temps d’entraînement ; ajouter du bruit par token ralentit-il fortement l’entraînement ?

    • Super article
  • Recherche très intéressante, mais je me demande pourquoi cela s’appelle « diffusion forcing »