6 points par GN⁺ 2026-02-07 | 1 commentaires | Partager sur WhatsApp
  • Un modèle de monde génératif pour la simulation autonome à grande échelle, capable de reproduire en temps réel des environnements proches de la réalité
  • Construit sur Genie 3, il peut recréer de manière réaliste des situations rares ou extrêmes (tornades, inondations, apparition d’animaux, etc.)
  • La simulation peut être ajustée finement via le contrôle de la conduite, de la composition de scène et par langage, avec génération simultanée des données caméra et lidar
  • Convertit des vidéos classiques ou de dashcam en simulation multi-capteurs pour reproduire fidèlement des scènes de conduite réelles
  • Ce modèle est un outil clé pour la validation de la sécurité et l’extension du service, en permettant de se préparer à des situations presque impossibles à rencontrer dans le monde réel

Présentation du modèle mondial de Waymo

  • Waymo Driver a parcouru environ 200 millions de miles en conduite entièrement autonome dans les principales villes américaines, ainsi que des milliards de miles en environnement virtuel
    • Le système est conçu pour apprendre à l’avance des situations complexes difficiles à rencontrer sur route réelle
  • Le modèle mondial de Waymo (Waymo World Model) est un système de génération de simulations hyperréalistes pour cette conduite virtuelle
    • Il constitue l’un des trois piliers clés de l’écosystème IA de Waymo et sert de base à la démonstration de la sécurité

Architecture et fonctions basées sur Genie 3

  • Il s’appuie sur Genie 3 de Google DeepMind et a été adapté aux besoins spécifiques de l’environnement de conduite
    • Genie 3 est un modèle de monde généraliste capable de générer des environnements 3D réalistes et interactifs
  • En exploitant la vaste connaissance du monde de Genie, il devient possible de simuler même des événements presque impossibles dans la réalité, comme une rencontre avec une tornade ou un éléphant
  • La simulation peut être contrôlée avec précision via des prompts en langage naturel, des entrées de conduite et le placement d’éléments de scène
  • Le système prend en charge une sortie multi-capteurs capable de générer à la fois des données caméra et lidar

Connaissance multimodale du monde

  • Alors que les simulateurs de conduite autonome classiques sont entraînés uniquement sur des données collectées en interne, le modèle de Waymo exploite les vastes données vidéo préentraînées de Genie 3
  • Il transfère une connaissance vidéo 2D vers une sortie 3D adaptée au système lidar de Waymo
    • Les caméras excellent dans le rendu des détails visuels, tandis que le lidar est fort sur l’information de profondeur précise
  • Il peut générer des scènes allant de la conduite quotidienne à des situations rares de long tail
  • Simulation de météo extrême et de catastrophes naturelles

    • Génération de scènes telles qu’une traversée du Golden Gate Bridge enneigé, une rencontre avec une tornade, une banlieue inondée, des rues enneigées dans une ville tropicale ou une fuite en pleine zone d’incendie
  • Événements rares et critiques pour la sécurité

    • Reproduction de scénarios liés à la sécurité comme des conducteurs agressifs, des véhicules heurtant des branches, des véhicules avec chargement instable ou des camions roulant à contresens
  • Objets de long tail et situations atypiques

    • Simulation de rencontres avec des objets inhabituels comme des éléphants, des Texas longhorns, des lions, des piétons en costume de dinosaure ou d’immenses moulins à vent

Fonctions de contrôle de la simulation

  • Le système peut être réglé de trois façons : contrôle des actions de conduite, contrôle de la composition de scène et contrôle par langage
  • Contrôle des actions de conduite

    • Mise en œuvre d’un simulateur interactif qui réagit à des entrées de conduite spécifiques
      • Exemple : tester le résultat d’une conduite plus proactive dans une situation donnée
    • Il conserve une cohérence visuelle et un réalisme supérieurs à ceux de l’approche 3DGS (3D Gaussian Splats)
  • Contrôle de la composition de scène

    • Il est possible de modifier librement la structure de la route, l’état des feux et le comportement des véhicules environnants
      • Prise en charge de la création de scénarios personnalisés et de la transformation de l’environnement routier
  • Contrôle par langage

    • Il est possible de modifier le moment de la journée, la météo et l’ensemble de la scène via des commandes textuelles
      • Exemple : passage de l’aube au matin, au midi, au soir ou à la nuit
      • Changement des conditions météorologiques : ciel couvert, brouillard, pluie, neige, temps clair, etc.

Conversion de vidéos en simulation

  • Le système prend en entrée des vidéos de caméra standard ou de dashcam et les convertit en simulation multi-capteurs du point de vue de Waymo Driver
    • Comme il s’appuie sur des vidéos réelles, le niveau de réalisme et de précision est élevé
  • Exemples : conversion de vidéos tournées dans des lieux réels comme la Norvège, le parc national des Arches dans l’Utah ou la Death Valley en Californie

Inférence évolutive (Scalable Inference)

  • Les simulations de scènes longues demandent beaucoup de calcul, mais des variantes optimisées du modèle permettent de réduire fortement la charge de calcul tout en maintenant une haute qualité
    • Prise en charge de scénarios de conduite prolongés comme le passage dans des voies étroites, des intersections complexes ou des montées
  • Exemples en lecture x4 : évitement d’un bouchon sur autoroute, conduite dans un quartier résidentiel complexe, évitement d’une moto en montée, demi-tour d’un SUV, etc.

Sécurité et extensibilité

  • Le système permet de reproduire virtuellement à l’avance des situations presque impossibles dans le monde réel
  • Il contribue à renforcer les standards de sécurité de Waymo Driver et à préparer l’extension du service vers de nouvelles zones et de nouveaux environnements
  • Le projet a mobilisé de nombreux chercheurs de Waymo et de Google DeepMind

1 commentaires

 
GN⁺ 2026-02-07
Commentaires sur Hacker News
  • Je comprends soudain pourquoi DeepMind se concentre autant sur les world models
    Je n’avais jamais vraiment pensé à Waymo comme à un « robot » à la manière des humanoïdes de Boston Dynamics, mais en pratique, c’en est un
    Google/Alphabet a atteint un niveau de vertical integration étonnamment abouti dans l’IA — production d’énergie en interne, puces, data centers, Search·Gmail·YouTube·Gemini·Workspace·Wallet, des milliards d’utilisateurs Android·Chromebook, réseau publicitaire, navigateur, Waymo, collaboration avec Boston Dynamics, recherche sur la fusion nucléaire, jusqu’à la découverte de médicaments
    À cette échelle, des chatbots comme ChatGPT ou Grok ne sont même pas comparables

    • Google s’est davantage concentré sur l’application interne et la R&D maison que sur la vente directe de l’IA comme produit
      Avant, je pensais que la recherche sur la voiture autonome servait surtout à Street View, mais maintenant je vois qu’il y avait une vision bien plus large
    • Google travaillait déjà sur les world models dès 2018
      L’article correspondant est disponible ici
    • Tesla a aussi construit un système similaire pour l’entraînement de son FSD, mais c’est dommage de ne pas l’avoir transformé en service de cartographie
      Ils auraient pu mettre à jour l’état des routes en temps réel depuis les véhicules, alors qu’aujourd’hui ils donnent l’impression d’avoir pris beaucoup de retard
    • J’ai aussi compris dans ce contexte pourquoi Tesla s’est lancé dans les robots humanoïdes
    • Si je ne viens de comprendre ce point de vue que maintenant, ça veut dire que j’ai au moins 3 ans de retard sur Tesla
      Voir la vidéo associée ici
  • On dit que le modèle Genie peut simuler des événements rares (tornades, rencontre avec des éléphants, etc.), mais je doute du réalisme des résultats générés
    Par exemple, même si le modèle prédit une route recouverte de billes d’acier de 5 mm, je me demande comment on peut vérifier que cette simulation repose sur des valeurs plausibles

    • Avec le temps, la qualité des world models va s’améliorer, ce qui permettra d’entraîner les systèmes de conduite autonome avec des données synthétiques “suffisamment réalistes”
      Il n’y a pas besoin que ce soit parfait : avec des usages répétés et de la validation, on peut créer une boucle vertueuse d’amélioration progressive
    • Il ne s’agit pas de déclarer « désormais la voiture est sûre même face à des billes d’acier », mais de vérifier, comme avec des tests unitaires, qu’elle réagit comme prévu dans certaines situations
      Par exemple, on peut aussi attraper en simulation des cas extrêmes comme une vache blanche en pleine tempête de neige
    • Si on peut simuler « de la tornade à l’éléphant », alors un jeu comme The Sims pourrait aussi être formidable
    • En réalité, cette incertitude vaut aussi pour les humains
      Une prédiction parfaite est impossible, mais on progresse par améliorations successives vers le meilleur jugement possible fondé sur la connaissance
    • Il faut une approche qui entraîne en simulation puis valide dans le monde réel
  • Le fait que le Waymo World Model puisse convertir de simples vidéos de caméra en simulation multimodale signifie que Waymo pourrait, s’il le voulait, rouler uniquement avec des caméras

    • Mais en pratique, il s’agit de les convertir vers des représentations bootstrappées à partir du LiDAR, de la vidéo et d’autres capteurs
      Tesla n’est pas passé par l’étape LiDAR, donc il lui est plus difficile d’obtenir ce type de résultat
    • Le LiDAR sert de correction d’erreur quand la précision des caméras baisse
      Il complète la perception de la profondeur, un peu comme la vision binoculaire chez l’humain
    • Il reste aussi important pour se prémunir contre des attaques de brouillage du LiDAR
    • La conversion vidéo → données capteurs, et la conduite à partir de ces données, sont deux étapes distinctes
      La première sert à l’entraînement, la seconde au véhicule réel
    • Pour être socialement acceptée, la voiture autonome doit être bien plus sûre qu’un humain
      C’est pour cela qu’une approche uniquement par caméras a ses limites
  • La technologie est impressionnante, mais je pense qu’il est plus urgent d’améliorer l’infrastructure ferroviaire

    • En vivant dans la Bay Area, je vois bien qu’il y a déjà des trains, mais les tarifs, la gestion et le maintien de l’ordre sont si mauvais qu’ils n’arrivent même pas à couvrir leurs coûts d’exploitation
      La fraude, la violence, l’insalubrité, etc. font fuir les usagers
      Ignorer cette réalité tout en répétant qu’il faut plus de transports publics sonne creux
      Donc si un service comme Waymo fournit réellement la qualité qu’il promet, il attirera forcément davantage l’attention
      Personnellement, je pense que les systèmes de vélos en libre-service sont la seule alternative qui tienne réellement ses promesses
    • Les trains finissent par devenir un enfer si les normes de comportement collectif ne sont pas maintenues
      Bruit, mendicité, drogues, etc. font des transports en commun quelque chose que les gens cherchent à éviter
    • Quoi qu’il arrive, la voiture garde encore une supériorité absolue
      Vu la réalité des infrastructures américaines, une réforme ferroviaire d’ampleur est irréaliste
      Même dans un pays comme le Japon, où le rail est très développé, le taux de possession automobile n’est pas si différent de celui des États-Unis
    • Je pense qu’un véhicule capable d’emmener quelqu’un où il veut, quand il veut, en toute sécurité et dans un environnement propre, est préférable
    • Cela dit, Waymo peut quand même devenir un point de bascule vers moins de conducteurs et moins de voitures possédées individuellement
  • Le point clé de cette annonce, c’est la technologie qui génère des données LiDAR 3D à partir de vidéos 2D
    L’accès à DeepMind et à l’infrastructure Google constitue l’avantage concurrentiel écrasant de Waymo

    • En réalité, les techniques d’estimation 3D à partir d’images 2D existent depuis des décennies
    • Il existe aussi des approches de monodepth comme Metric3D, mais les résultats de Waymo sont clairement au niveau de l’état de l’art (SOTA)
  • Les simulations d’inondations, de tornades ou d’incendies sont impressionnantes, mais il est étrange que Waymo se soit arrêté partout en même temps dans une situation pourtant courante comme une panne de courant généralisée
    Si ces scénarios de base ne sont pas bien gérés, l’intérêt de la simulation paraît limité

    • La simulation améliore les performances de chaque véhicule individuellement, mais la panne de courant relevait d’un problème système global dû à la surcharge des équipes d’assistance à distance
      Autrement dit, la simulation garde toute sa valeur, mais elle ne peut pas empêcher tous les échecs
    • D’ailleurs, Waymo est aussi déjà entré dans une zone inondée
      Vidéo associée
  • Le fait que Waymo utilise des situations contrefactuelles virtuelles dans l’entraînement paraît risqué
    Comme il y aura plus de vidéos où tout se passe bien que de cas réels tragiques, le système risque au final d’apprendre une confiance excessive

    • Mais en réalité, il ne s’agit pas tant de « contrefactuel » que de génération destinée à compléter les situations rares
      L’objectif est que Waymo ne reste pas simplement bloqué face à une tornade ou à un éléphant, mais sache réagir
    • La conduite est un problème d’équilibre entre vitesse et sécurité
      Si on ne cherche que la sécurité absolue, la voiture finit par ne plus bouger du tout
    • Ne pas s’engager à une intersection alors qu’on peut le faire sans danger, ou rouler uniquement à 5 miles/h, est aussi une mauvaise conduite
      L’idée selon laquelle « plus c’est lent, plus c’est sûr » ne tient pas vraiment
  • Les world models peuvent être dangereux dans des situations réelles de sécurité à cause de données biaisées
    Si l’apprentissage se fait sur des données contenant presque aucun échec, il se peut qu’on ne puisse pas reproduire correctement de vraies situations d’accident

    • Mais Waymo s’entraîne déjà sur plus de 100 millions de miles de conduite réelle
      La vidéo donnée en exemple montre un cas d’évitement de collision
    • Bien sûr, le risque de biais existe toujours, mais on peut gagner en diversité grâce à une génération de scénarios par prompt avec des LLM
      Cela dit, le critère de ce qui est « suffisamment réaliste » reste flou
      Puisqu’on ne peut déjà pas faire confiance à 100 % aux humains, une combinaison d’un niveau 10 fois plus sûr et de garde-fous vérifiables dans le code améliorerait probablement l’acceptabilité sociale
  • Le Project Genie de DeepMind semble être la technologie de base derrière Waymo
    Article lié : Genie 3: A new frontier for world models
    Discussions Hacker News : Genie 3, Project Genie

    • DeepMind n’est pas juste une filiale d’Alphabet : c’est l’organisation centrale avec laquelle Demis Hassabis pilote l’ensemble de Google AI
  • Cela me rappelle le mème de la courbe en cloche de l’apprentissage de la conduite autonome
    On commence avec des simulateurs fondés sur la physique, on collecte des données réelles, puis on revient à des simulateurs deep learning intégrant des informations physiques

    • Au final, on boucle entre simulation simple → données réelles → simulation pour les raretés du réel
      Cela ressemble à une étape d’évolution tellement naturelle qu’on devrait presque lui donner un nom