6 points par GN⁺ 2026-01-30 | 1 commentaires | Partager sur WhatsApp
  • Le Project Genie de Google est un prototype de recherche expérimental qui permet aux utilisateurs de générer, explorer et remixer des mondes virtuels interactifs à l’aide de texte et d’images
  • Il repose sur le modèle Genie 3 et génère en temps réel les trajets et l’environnement en fonction des déplacements de l’utilisateur
  • Proposé sous la forme d’une web app, il intègre les modèles Nano Banana Pro et Gemini pour prendre en charge l’esquisse de mondes, l’exploration et le remix
  • En raison des limites du modèle, cette première version comporte des contraintes telles que des incohérences avec les lois de la physique, une latence dans le contrôle des personnages et une limite de 60 secondes
  • Il est actuellement accessible aux abonnés Google AI Ultra (18 ans et plus) aux États-Unis, avec une extension prévue à d’autres régions

Présentation de Project Genie

  • Project Genie est un prototype de recherche expérimental développé par Google DeepMind sur la base de Genie 3, qui offre un environnement où les utilisateurs peuvent créer, explorer et remixer eux-mêmes des mondes virtuels
    • Accessible aux abonnés Google AI Ultra (18 ans et plus) aux États-Unis
    • Les utilisateurs peuvent générer des mondes à partir de prompts textuels et d’images, puis les explorer en temps réel
  • Ce projet constitue une première étape pour rendre la technologie de génération de mondes immersifs accessible au grand public, et s’inscrit comme une extension de la recherche sur les world models

Progrès des world models

  • Les world models sont des systèmes capables de simuler les changements dynamiques d’un environnement et de prédire l’impact des actions
  • Google DeepMind vise à aller au-delà de la recherche sur des agents conçus pour des environnements spécifiques comme les échecs ou le go, avec l’objectif de développer des systèmes AGI capables d’explorer la diversité du monde réel
  • Genie 3 génère les trajets en temps réel en fonction des déplacements de l’utilisateur et simule les interactions physiques
    • Il prend en charge une génération de mondes dynamique, et non de simples instantanés 3D statiques
    • Il peut être utilisé dans divers scénarios comme la robotique, l’animation, la fiction ou l’exploration de lieux historiques
    Publicité

Fonctionnement de Project Genie

  • Il s’agit d’un prototype web, intégrant non seulement Genie 3 mais aussi les modèles Nano Banana Pro et Gemini
  • Il se compose de trois fonctions clés
  • 1. World Sketching (esquisse de monde)

    • Concevoir un environnement vivant à partir de texte et d’images (générées ou importées)
    • Il est possible de définir le personnage et la manière d’explorer, avec la prise en charge de différents modes de déplacement comme la marche, le vol ou la conduite
    • L’intégration de Nano Banana Pro permet de prévisualiser le monde et d’en ajuster les détails
    • Choix possible entre une vue à la première ou à la troisième personne
  • 2. World Exploration (exploration du monde)

    • Les mondes générés deviennent des environnements explorables, où les trajets sont créés en temps réel selon les actions de l’utilisateur
    • Il est possible d’ajuster le point de vue de la caméra pendant l’exploration
  • 3. World Remixing (remix du monde)

    • Il est possible de recomposer un nouveau monde avec une interprétation différente à partir du prompt d’un monde existant
    • Grâce à une galerie ou à une fonction d’exploration aléatoire, on peut explorer ou modifier les mondes d’autres utilisateurs
    • Les mondes terminés et le parcours d’exploration peuvent être téléchargés sous forme de vidéo
    Publicité

Construire une IA responsable

  • Project Genie est un prototype de recherche expérimental mené au sein de Google Labs, et il est exploité conformément aux principes de développement responsable de l’IA
  • En raison des limites actuelles du modèle, les contraintes suivantes sont précisées
    • Les mondes générés peuvent différer de la réalité ou être incohérents avec le prompt ou les lois de la physique
    • Une latence dans le contrôle des personnages ou une baisse de réactivité peuvent survenir
    • Une limite de génération de 60 secondes est imposée
  • La fonction de variation d’événements pilotée par prompt, annoncée en août 2025, n’est pas encore incluse
  • Les futures mises à jour et améliorations pourront être suivies sur la page officielle de DeepMind

Projets à venir et élargissement de l’accès

  • Project Genie a été développé sur la base d’une recherche collaborative avec des testeurs de confiance
  • Cette ouverture constitue une étape destinée à comprendre comment les utilisateurs emploient réellement les world models
  • Pour l’instant, il est réservé aux abonnés Google AI Ultra aux États-Unis, avec un élargissement prévu à davantage de régions
  • À long terme, Google prévoit de rendre la technologie de génération de mondes accessible à un plus grand nombre d’utilisateurs

1 commentaires

 
GN⁺ 2026-01-30
Commentaires sur Hacker News
  • Ces derniers temps, je repense sans arrêt à The Experience Machine d’Andy Clark
    C’est la théorie selon laquelle le cerveau humain ne perçoit pas directement le monde, mais fait l’expérience de la réalité à travers une simulation générée en interne, corrigée par les sensations
    Autrement dit, nous vivons dans un modèle génératif haute résolution, et les sens servent à ajuster les signaux d’erreur de ce modèle
    Tout comme Genie 3 prédit l’image suivante dans l’espace latent, le cerveau humain chercherait lui aussi, via l’« Active Inference », à minimiser l’écart entre attentes et expérience réelle
    Au fond, le sentiment de réalité ne serait pas un enregistrement direct du monde extérieur, mais une simulation interactive continuellement recalibrée

    • Sur le plan neurologique, c’est déjà une idée assez bien établie
      Par exemple, les rêves peuvent être vus comme un cas où le modèle interne fonctionne librement pendant que les entrées sensorielles sont coupées
    • Comme vidéos liées, je recommande Why Your Brain Blinds You For 2 Hours Every Day de kurzgesagt ainsi que sa liste de sources
    • Your Brain Hallucinates Your Conscious Reality d’Anil Seth va dans le même sens
      Ce type de sujet est abordé depuis longtemps aussi en philosophie et dans les religions, et je trouve fascinante l’idée que la conscience humaine construise la réalité comme sa propre projection
    • Le post-traitement des photos sur smartphone peut aussi servir d’analogie
      On en vient à se demander à partir de quel moment ce n’est plus une photo mais une œuvre impressionniste calculée
    • The Case Against Reality de Donald Hoffman mérite aussi le détour
  • Beaucoup de gens semblent prendre Genie pour un simple produit destiné aux jeux ou au cinéma
    Mais son véritable objectif est de construire le « moteur d’imagination » des prochaines générations d’IA et de robots, autrement dit un modèle du monde qui simule les conséquences d’actions pour aider à la prise de décision

    • Je suis d’accord. On disait que les LLM n’avaient pas de modèle du monde, et on passe maintenant à l’étape suivante
      J’imagine une architecture qui encode des vidéos du monde réel à une certaine fréquence d’images afin d’ancrer l’imagination du modèle dans des données réelles, puis explore différents scénarios d’action avant d’envoyer la meilleure prédiction au moteur
      Le réglage temporel ne sera pas simple, mais les grandes lignes sont déjà visibles
    • J’ai un avis un peu différent. Si on veut une vraie imagination, je ne pense pas qu’il soit nécessaire de décoder de la vidéo
      Genie génère de la vidéo comme interface que les humains peuvent comprendre et déboguer
      En ce sens, le but est différent : c’est plutôt un jeu d’expérimentation IA pour chercheurs
    • Mais une telle structure est beaucoup trop coûteuse. Pour la robotique, il faudra probablement une architecture complètement différente
    • Instagram aussi était au départ une appli pour partager des photos entre amis, et c’est devenu une plateforme addictive
      Si Genie se combine à la VR, on pourrait voir arriver un point de bascule dystopique du même genre
    • Ce mappage d’environnement et cette génération de résultats alternatifs par l’IA reviennent en fin de compte au concept de holodeck
      Mais je continue à préférer le danger et la vitalité du réel
  • Je suis vraiment ravi de voir Genie rendu public
    Il y a déjà des vidéos intéressantes de premiers utilisateurs :
    exploration urbaine, simulation d’hélicoptère, station spatiale et Dunkin Donuts, simulation d’ordinateur portable, loutre pilote

    • J’ai moi aussi participé en tant que testeur précoce
      J’ai créé toutes sortes de mondes : marcher sur la Lune, rencontrer Holmes et Watson au 221B Baker Street, ou encore explorer un bubble tea géant dans un marché de nuit de Taipei
      Il y a aussi une vidéo de démo
      Ce n’est encore qu’un prototype expérimental, mais on a l’impression d’apercevoir un indice du futur
    • C’est impressionnant sur le plan technique, mais ça manque d’immersion
      Pouvoir générer des assets Unreal 5 avec quelques mots, c’est cool, mais je n’ai pas vraiment envie de jouer comme ça
      Et je n’ai pas non plus envie de payer un coût de calcul à la seconde
    • J’aimerais vraiment voir une version qui recrée l’ère des dinosaures
    • Je serais curieux d’avoir des avis sur Project Genie
  • La vraie percée de Genie, c’est qu’on peut se retourner
    Les simulateurs d’autres labos n’arrivaient pas à maintenir la cohérence hors champ, alors que Genie y parvient

    • J’ai entendu dire que le labo de Fei-Fei Li générait un véritable monde 3D
      Cela dit, cette approche risque d’être plus limitée pour le rendu animé
    • Je trouve surprenant que les chercheurs en ML aient mis aussi longtemps à comprendre la nécessité d’une structure de cache explicite
    • Du coup, je me demande si, en revenant au même endroit une semaine plus tard, la scène serait toujours conservée
  • Il existe une interview vidéo de l’équipe Project Genie
    Lien YouTube
    Genie est un prototype de recherche permettant de générer, explorer et faire interagir en temps réel des mondes photoréalistes infiniment variés
    L’entretien traite du passage de la génération vidéo passive aux médias interactifs, des défis techniques liés à la cohérence du monde et à la persistance de la mémoire, ainsi que du rôle de terrain d’entraînement pour les agents IA

  • Plus je vois ce genre de technologie, plus j’ai envie au contraire de passer du temps dans le monde réel
    D’éteindre l’écran et de refaire les choses que j’aime

    • Moi aussi, ça me fait cet effet. Au moment où je vois quelqu’un taper sur un clavier dans la vidéo, je ressens une certaine amertume
      Un monde virtuel construit à partir de scènes réellement filmées provoque au contraire une forme de tristesse
    • J’adore l’IA, mais j’espère au contraire que ce genre de technologie nous rappellera la valeur de l’expérience humaine réelle
    • J’ai travaillé toute ma vie dans la tech, mais maintenant j’ai envie de tout éteindre
    • Ironiquement, ce genre de progrès me fait davantage croire à l’hypothèse de la simulation
      Peut-être que la réalité elle-même est déjà une simulation
    • Le ciel est bleu, il fait beau, mais comme j’ai la flemme, je me dis que je pourrais tout aussi bien lancer une simulation de promenade
  • Ça m’a rappelé un projet perso posté autrefois sur HN qui entraînait un modèle du monde à partir d’une vidéo de parc
    Il y avait aussi une démo interactive, et Genie donne l’impression de pousser cette idée un cran plus loin
    C’est dommage que les blogs et démos indé ne soient pas cités

    • Oui, le concept est similaire, mais la différence d’échelle est extrême
      Le modèle du parc avait 5 millions de paramètres et a été entraîné sur 15 minutes de vidéo, au point de tourner sur iPhone
      Genie 3, lui, est un modèle géant de plusieurs milliards de paramètres entraîné sur des millions d’heures de vidéo
      Des modèles intermédiaires commencent aussi à apparaître, donc dans 1 à 2 ans, une exécution locale sur GPU gaming semble plausible
      Exemples : LingBot-World, Waypoint 1
  • Tout cela ressemble beaucoup au thème du film The Thirteenth Floor
    Lien vers la bande-annonce

  • J’aimerais que quelqu’un crée un monde à partir de ce GIF

  • Je me pose la question depuis longtemps : pourquoi Meta (FB) n’est-il pas plus offensif sur les modèles du monde ?
    C’est pourtant le cœur même de la vision du métavers, et malgré ça ils ont laissé partir Yann LeCun

    • LeCun a provoqué des fractures internes à cause de l’absence de résultats et d’une orientation de recherche obstinée
      Il a refusé de participer à la course aux LLM et s’est concentré uniquement sur des théories non validées
      Résultat, Meta a décroché du groupe de tête de l’IA, et LeCun est parti en ayant sauvé son prestige
    • J’expliquerais la différence entre JEPA et Genie ainsi
      JEPA, comme un romancier, résume : « le chien court vers le facteur »
      Genie, comme un peintre, doit dessiner directement la scène suivante pour que l’histoire existe
      Autrement dit, Genie fait de la génération image par image, JEPA de la prédiction au niveau conceptuel
    • Je suis entièrement d’accord. Les modèles du monde sont la carte de la dernière chance pour rentabiliser les investissements de Reality Labs
      S’ils ne parviennent pas à en faire un produit, il faudra sans doute fermer le projet lui-même
    • Les échecs ne sont pas rendus publics. On ne sait donc pas vraiment où Meta a investi en pratique
    • Fondamentalement, les gens n’aiment pas porter des casques VR
      Même avec de très bons contenus, cela reste encore un marché de niche