5 points par GN⁺ 2024-12-05 | 1 commentaires | Partager sur WhatsApp
  • Genie 2 est un modèle fondamental du monde qui génère divers environnements 3D pouvant être manipulés par des humains ou des agents IA à l’aide d’un clavier et d’une souris
  • Les jeux jouent un rôle important dans la recherche en IA, et Genie 2 permet d’entraîner et d’évaluer des agents dans de nouveaux mondes à curriculum infini
  • Fonctionnalités
    • Prototypage rapide : Genie 2 permet de prototyper rapidement diverses expériences interactives, afin que les chercheurs puissent expérimenter de nouveaux environnements.
    • Déploiement d’agents : Genie 2 permet de générer rapidement des environnements riches et variés pour des agents IA.
    • Architecture du modèle : entraîné sur de vastes jeux de données vidéo, Genie 2 peut modéliser diverses interactions d’objets, des animations de personnages complexes, la physique, etc.
    • Développement responsable : Genie 2 montre le potentiel des modèles fondamentaux du monde pour générer divers environnements 3D et accélérer la recherche sur les agents.
  • Capacités émergentes
    • Genie 2 peut générer divers mondes 3D et modéliser des interactions d’objets, des animations de personnages complexes, la physique, etc.
    • Les utilisateurs peuvent décrire un monde en texte, sélectionner un rendu de cette idée, puis interagir avec le monde nouvellement généré.
    • Contrôle des actions : Genie 2 identifie correctement les personnages et les déplace en fonction des entrées clavier.
    • Génération d’expériences contrefactuelles : à partir d’une même image initiale, il peut générer différents parcours afin de simuler des expériences contrefactuelles pour l’entraînement des agents.
    • Mémoire à long terme : Genie 2 peut se souvenir de parties du monde sorties du champ de vision et les restituer fidèlement lorsqu’elles redeviennent observables.
    • Environnements variés : Genie 2 peut générer divers points de vue, notamment en vue à la première personne, en projection isométrique ou en vidéo de conduite à la troisième personne.
    • Structure 3D : il peut générer des scènes visuelles 3D complexes.
    • Interactions d’objets : il peut modéliser diverses interactions d’objets, comme éclater des ballons, ouvrir des portes ou lancer des explosifs.
    • Animation de personnages : il peut animer des personnages engagés dans diverses activités.
    • NPC : il peut modéliser des interactions complexes avec d’autres agents.
    • Physique : il peut modéliser les effets de l’eau, de la fumée, la gravité, l’éclairage, etc.
    • Jouabilité à partir d’images réelles : à partir de prompts issus d’images réelles, il peut modéliser de l’eau s’écoulant dans l’herbe ou de l’herbe ondulant dans le vent.
  • Prototypage rapide de diverses expériences interactives
    • Genie 2 aide à expérimenter rapidement de nouveaux environnements et à entraîner et tester des agents IA incarnés
      • Exemple : simulation de divers environnements où l’on contrôle un avion en papier, un dragon, un faucon ou un parachute à l’aide d’images générées par Imagen 3
    • Grâce à sa capacité de généralisation hors distribution, Genie 2 peut convertir du concept art et des illustrations en environnements interactifs complets
      • Le prototypage rapide permet d’amorcer le processus créatif et d’accélérer la conception des environnements
  • Génération d’environnements d’évaluation avec Genie 2
    • Genie 2 peut rapidement générer des environnements riches et variés pour des agents IA
      • Création de nouvelles tâches d’évaluation, jamais rencontrées pendant l’entraînement, pour tester les agents
    • L’agent SIMA, développé par DeepMind en collaboration avec des développeurs de jeux, exécute des tâches dans des mondes de jeu 3D à partir d’instructions en langage naturel
      • Genie 2 génère un environnement 3D à partir d’un prompt d’image unique, et l’agent SIMA interagit via des entrées clavier et souris
    • Bien qu’il s’agisse d’une recherche à un stade précoce, Genie 2 devrait apporter diversité et généralité aux environnements d’entraînement et contribuer à résoudre les problèmes d’entraînement sûr des agents incarnés
    • L’entraînement généralisé des agents IA pose les bases des avancées vers l’AGI (intelligence artificielle générale)
  • Modèle du monde par diffusion
    • Genie 2 est un modèle de diffusion latent entraîné sur de vastes jeux de données vidéo
    • Les images passent par un autoencodeur pour être converties dans un espace latent, puis sont transmises à un modèle dynamique basé sur des transformers
    • Lors de l’entraînement, un masque causal similaire à celui utilisé dans les modèles de langage est appliqué
    • Inférence autorégressive
      • Lors de l’inférence, Genie 2 échantillonne de manière autorégressive les images latentes passées et les données d’action, image par image
      • Il utilise la technique Classifier-Free Guidance afin d’améliorer la contrôlabilité par l’action
    • Genie 2 génère efficacement des environnements 3D haute résolution tout en conservant la contrôlabilité des actions
    • En combinant modèles de diffusion et approche autorégressive, il fournit une technologie de nouvelle génération pour des environnements virtuels immersifs
  • Développement technologique responsable
    • Genie 2 montre le potentiel des modèles fondamentaux du monde pour générer divers environnements 3D et accélérer la recherche sur les agents.

1 commentaires

 
GN⁺ 2024-12-05
Avis Hacker News
  • Curiosité sur la taille de ce modèle, avec regret du manque de détails techniques. Il est souligné que l’approche de Google reste toujours fermée. Malgré cela, la possibilité d’explorer un monde à partir de photos et de descriptions textuelles est étonnante.

  • Il est intéressant de voir que la pression autour de la génération de vidéos et de mondes se poursuit. Un intérêt est exprimé pour les jeux générant des histoires infinies, avec l’espoir d’un âge d’or futur du storytelling interactif.

  • Il est souligné que cette technologie pourrait ne pas être utile au développement de jeux. Dans les jeux, l’interaction est essentielle et les designers doivent garder un contrôle approfondi. La partie génération de monde est jugée la plus utile.

  • Il est mis en avant que cette technologie apportera une avancée majeure à l’AGI et à la robotique. Elle est vue comme un point de départ pour ajouter aux machines des fonctions similaires à la manière dont fonctionne le cerveau humain.

  • Il est expliqué que le véritable objectif de la recherche est de développer un modèle dépassant la compréhension humaine du monde en 3D. Cela contribuera aux progrès de la robotique et des voitures autonomes.

  • Une déception est exprimée face au fait que Genie2 ignore les détails du concept art. Il est reproché au système d’ignorer les magnifiques créatures extraterrestres d’origine.

  • Il est expliqué que l’IA générative offre de la flexibilité, mais exige beaucoup de calcul. Une interrogation est exprimée sur le rôle respectif de la programmation traditionnelle et de l’IA générative.

  • La valeur réelle de cette technologie est remise en question. Son coût de calcul élevé et son comportement irrégulier sont pointés comme des problèmes.

  • Comme le défilement ne fonctionnait pas dans MS Edge, Firefox a été utilisé, et il est mentionné que la qualité visuelle de la vidéo n’est pas bonne. Un doute est exprimé sur les raisons qui poussent les chercheurs en IA à vouloir remplacer des systèmes existants qui fonctionnent déjà bien.