Modèle mondial de Waymo : une nouvelle frontière pour la simulation de la conduite autonome
(waymo.com)- Un modèle de monde génératif pour la simulation autonome à grande échelle, capable de reproduire en temps réel des environnements proches de la réalité
- Construit sur Genie 3, il peut recréer de manière réaliste des situations rares ou extrêmes (tornades, inondations, apparition d’animaux, etc.)
- La simulation peut être ajustée finement via le contrôle de la conduite, de la composition de scène et par langage, avec génération simultanée des données caméra et lidar
- Convertit des vidéos classiques ou de dashcam en simulation multi-capteurs pour reproduire fidèlement des scènes de conduite réelles
- Ce modèle est un outil clé pour la validation de la sécurité et l’extension du service, en permettant de se préparer à des situations presque impossibles à rencontrer dans le monde réel
Présentation du modèle mondial de Waymo
- Waymo Driver a parcouru environ 200 millions de miles en conduite entièrement autonome dans les principales villes américaines, ainsi que des milliards de miles en environnement virtuel
- Le système est conçu pour apprendre à l’avance des situations complexes difficiles à rencontrer sur route réelle
- Le modèle mondial de Waymo (Waymo World Model) est un système de génération de simulations hyperréalistes pour cette conduite virtuelle
- Il constitue l’un des trois piliers clés de l’écosystème IA de Waymo et sert de base à la démonstration de la sécurité
Architecture et fonctions basées sur Genie 3
- Il s’appuie sur Genie 3 de Google DeepMind et a été adapté aux besoins spécifiques de l’environnement de conduite
- Genie 3 est un modèle de monde généraliste capable de générer des environnements 3D réalistes et interactifs
- En exploitant la vaste connaissance du monde de Genie, il devient possible de simuler même des événements presque impossibles dans la réalité, comme une rencontre avec une tornade ou un éléphant
- La simulation peut être contrôlée avec précision via des prompts en langage naturel, des entrées de conduite et le placement d’éléments de scène
- Le système prend en charge une sortie multi-capteurs capable de générer à la fois des données caméra et lidar
Connaissance multimodale du monde
- Alors que les simulateurs de conduite autonome classiques sont entraînés uniquement sur des données collectées en interne, le modèle de Waymo exploite les vastes données vidéo préentraînées de Genie 3
- Il transfère une connaissance vidéo 2D vers une sortie 3D adaptée au système lidar de Waymo
- Les caméras excellent dans le rendu des détails visuels, tandis que le lidar est fort sur l’information de profondeur précise
- Il peut générer des scènes allant de la conduite quotidienne à des situations rares de long tail
-
Simulation de météo extrême et de catastrophes naturelles
- Génération de scènes telles qu’une traversée du Golden Gate Bridge enneigé, une rencontre avec une tornade, une banlieue inondée, des rues enneigées dans une ville tropicale ou une fuite en pleine zone d’incendie
-
Événements rares et critiques pour la sécurité
- Reproduction de scénarios liés à la sécurité comme des conducteurs agressifs, des véhicules heurtant des branches, des véhicules avec chargement instable ou des camions roulant à contresens
-
Objets de long tail et situations atypiques
- Simulation de rencontres avec des objets inhabituels comme des éléphants, des Texas longhorns, des lions, des piétons en costume de dinosaure ou d’immenses moulins à vent
Fonctions de contrôle de la simulation
- Le système peut être réglé de trois façons : contrôle des actions de conduite, contrôle de la composition de scène et contrôle par langage
-
Contrôle des actions de conduite
- Mise en œuvre d’un simulateur interactif qui réagit à des entrées de conduite spécifiques
- Exemple : tester le résultat d’une conduite plus proactive dans une situation donnée
- Il conserve une cohérence visuelle et un réalisme supérieurs à ceux de l’approche 3DGS (3D Gaussian Splats)
- Mise en œuvre d’un simulateur interactif qui réagit à des entrées de conduite spécifiques
-
Contrôle de la composition de scène
- Il est possible de modifier librement la structure de la route, l’état des feux et le comportement des véhicules environnants
- Prise en charge de la création de scénarios personnalisés et de la transformation de l’environnement routier
- Il est possible de modifier librement la structure de la route, l’état des feux et le comportement des véhicules environnants
-
Contrôle par langage
- Il est possible de modifier le moment de la journée, la météo et l’ensemble de la scène via des commandes textuelles
- Exemple : passage de l’aube au matin, au midi, au soir ou à la nuit
- Changement des conditions météorologiques : ciel couvert, brouillard, pluie, neige, temps clair, etc.
- Il est possible de modifier le moment de la journée, la météo et l’ensemble de la scène via des commandes textuelles
Conversion de vidéos en simulation
- Le système prend en entrée des vidéos de caméra standard ou de dashcam et les convertit en simulation multi-capteurs du point de vue de Waymo Driver
- Comme il s’appuie sur des vidéos réelles, le niveau de réalisme et de précision est élevé
- Exemples : conversion de vidéos tournées dans des lieux réels comme la Norvège, le parc national des Arches dans l’Utah ou la Death Valley en Californie
Inférence évolutive (Scalable Inference)
- Les simulations de scènes longues demandent beaucoup de calcul, mais des variantes optimisées du modèle permettent de réduire fortement la charge de calcul tout en maintenant une haute qualité
- Prise en charge de scénarios de conduite prolongés comme le passage dans des voies étroites, des intersections complexes ou des montées
- Exemples en lecture x4 : évitement d’un bouchon sur autoroute, conduite dans un quartier résidentiel complexe, évitement d’une moto en montée, demi-tour d’un SUV, etc.
Sécurité et extensibilité
- Le système permet de reproduire virtuellement à l’avance des situations presque impossibles dans le monde réel
- Il contribue à renforcer les standards de sécurité de Waymo Driver et à préparer l’extension du service vers de nouvelles zones et de nouveaux environnements
- Le projet a mobilisé de nombreux chercheurs de Waymo et de Google DeepMind
1 commentaires
Commentaires sur Hacker News
Je comprends soudain pourquoi DeepMind se concentre autant sur les world models
Je n’avais jamais vraiment pensé à Waymo comme à un « robot » à la manière des humanoïdes de Boston Dynamics, mais en pratique, c’en est un
Google/Alphabet a atteint un niveau de vertical integration étonnamment abouti dans l’IA — production d’énergie en interne, puces, data centers, Search·Gmail·YouTube·Gemini·Workspace·Wallet, des milliards d’utilisateurs Android·Chromebook, réseau publicitaire, navigateur, Waymo, collaboration avec Boston Dynamics, recherche sur la fusion nucléaire, jusqu’à la découverte de médicaments
À cette échelle, des chatbots comme ChatGPT ou Grok ne sont même pas comparables
Avant, je pensais que la recherche sur la voiture autonome servait surtout à Street View, mais maintenant je vois qu’il y avait une vision bien plus large
L’article correspondant est disponible ici
Ils auraient pu mettre à jour l’état des routes en temps réel depuis les véhicules, alors qu’aujourd’hui ils donnent l’impression d’avoir pris beaucoup de retard
Voir la vidéo associée ici
On dit que le modèle Genie peut simuler des événements rares (tornades, rencontre avec des éléphants, etc.), mais je doute du réalisme des résultats générés
Par exemple, même si le modèle prédit une route recouverte de billes d’acier de 5 mm, je me demande comment on peut vérifier que cette simulation repose sur des valeurs plausibles
Il n’y a pas besoin que ce soit parfait : avec des usages répétés et de la validation, on peut créer une boucle vertueuse d’amélioration progressive
Par exemple, on peut aussi attraper en simulation des cas extrêmes comme une vache blanche en pleine tempête de neige
Une prédiction parfaite est impossible, mais on progresse par améliorations successives vers le meilleur jugement possible fondé sur la connaissance
Le fait que le Waymo World Model puisse convertir de simples vidéos de caméra en simulation multimodale signifie que Waymo pourrait, s’il le voulait, rouler uniquement avec des caméras
Tesla n’est pas passé par l’étape LiDAR, donc il lui est plus difficile d’obtenir ce type de résultat
Il complète la perception de la profondeur, un peu comme la vision binoculaire chez l’humain
La première sert à l’entraînement, la seconde au véhicule réel
C’est pour cela qu’une approche uniquement par caméras a ses limites
La technologie est impressionnante, mais je pense qu’il est plus urgent d’améliorer l’infrastructure ferroviaire
La fraude, la violence, l’insalubrité, etc. font fuir les usagers
Ignorer cette réalité tout en répétant qu’il faut plus de transports publics sonne creux
Donc si un service comme Waymo fournit réellement la qualité qu’il promet, il attirera forcément davantage l’attention
Personnellement, je pense que les systèmes de vélos en libre-service sont la seule alternative qui tienne réellement ses promesses
Bruit, mendicité, drogues, etc. font des transports en commun quelque chose que les gens cherchent à éviter
Vu la réalité des infrastructures américaines, une réforme ferroviaire d’ampleur est irréaliste
Même dans un pays comme le Japon, où le rail est très développé, le taux de possession automobile n’est pas si différent de celui des États-Unis
Le point clé de cette annonce, c’est la technologie qui génère des données LiDAR 3D à partir de vidéos 2D
L’accès à DeepMind et à l’infrastructure Google constitue l’avantage concurrentiel écrasant de Waymo
Les simulations d’inondations, de tornades ou d’incendies sont impressionnantes, mais il est étrange que Waymo se soit arrêté partout en même temps dans une situation pourtant courante comme une panne de courant généralisée
Si ces scénarios de base ne sont pas bien gérés, l’intérêt de la simulation paraît limité
Autrement dit, la simulation garde toute sa valeur, mais elle ne peut pas empêcher tous les échecs
Vidéo associée
Le fait que Waymo utilise des situations contrefactuelles virtuelles dans l’entraînement paraît risqué
Comme il y aura plus de vidéos où tout se passe bien que de cas réels tragiques, le système risque au final d’apprendre une confiance excessive
L’objectif est que Waymo ne reste pas simplement bloqué face à une tornade ou à un éléphant, mais sache réagir
Si on ne cherche que la sécurité absolue, la voiture finit par ne plus bouger du tout
L’idée selon laquelle « plus c’est lent, plus c’est sûr » ne tient pas vraiment
Les world models peuvent être dangereux dans des situations réelles de sécurité à cause de données biaisées
Si l’apprentissage se fait sur des données contenant presque aucun échec, il se peut qu’on ne puisse pas reproduire correctement de vraies situations d’accident
La vidéo donnée en exemple montre un cas d’évitement de collision
Cela dit, le critère de ce qui est « suffisamment réaliste » reste flou
Puisqu’on ne peut déjà pas faire confiance à 100 % aux humains, une combinaison d’un niveau 10 fois plus sûr et de garde-fous vérifiables dans le code améliorerait probablement l’acceptabilité sociale
Le Project Genie de DeepMind semble être la technologie de base derrière Waymo
Article lié : Genie 3: A new frontier for world models
Discussions Hacker News : Genie 3, Project Genie
Cela me rappelle le mème de la courbe en cloche de l’apprentissage de la conduite autonome
On commence avec des simulateurs fondés sur la physique, on collecte des données réelles, puis on revient à des simulateurs deep learning intégrant des informations physiques
Cela ressemble à une étape d’évolution tellement naturelle qu’on devrait presque lui donner un nom