Modèle mondial de Waymo : une nouvelle frontière pour la simulation de la conduite autonome

(waymo.com)

6 points par GN⁺ 2026-02-07 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Un modèle de monde génératif pour la simulation autonome à grande échelle, capable de reproduire en temps réel des environnements proches de la réalité
Construit sur Genie 3, il peut recréer de manière réaliste des situations rares ou extrêmes (tornades, inondations, apparition d’animaux, etc.)
La simulation peut être ajustée finement via le contrôle de la conduite, de la composition de scène et par langage, avec génération simultanée des données caméra et lidar
Convertit des vidéos classiques ou de dashcam en simulation multi-capteurs pour reproduire fidèlement des scènes de conduite réelles
Ce modèle est un outil clé pour la validation de la sécurité et l’extension du service, en permettant de se préparer à des situations presque impossibles à rencontrer dans le monde réel

Présentation du modèle mondial de Waymo

Waymo Driver a parcouru environ 200 millions de miles en conduite entièrement autonome dans les principales villes américaines, ainsi que des milliards de miles en environnement virtuel
- Le système est conçu pour apprendre à l’avance des situations complexes difficiles à rencontrer sur route réelle
Le modèle mondial de Waymo (Waymo World Model) est un système de génération de simulations hyperréalistes pour cette conduite virtuelle
- Il constitue l’un des trois piliers clés de l’écosystème IA de Waymo et sert de base à la démonstration de la sécurité

Il s’appuie sur Genie 3 de Google DeepMind et a été adapté aux besoins spécifiques de l’environnement de conduite
- Genie 3 est un modèle de monde généraliste capable de générer des environnements 3D réalistes et interactifs
En exploitant la vaste connaissance du monde de Genie, il devient possible de simuler même des événements presque impossibles dans la réalité, comme une rencontre avec une tornade ou un éléphant
La simulation peut être contrôlée avec précision via des prompts en langage naturel, des entrées de conduite et le placement d’éléments de scène
Le système prend en charge une sortie multi-capteurs capable de générer à la fois des données caméra et lidar

Alors que les simulateurs de conduite autonome classiques sont entraînés uniquement sur des données collectées en interne, le modèle de Waymo exploite les vastes données vidéo préentraînées de Genie 3
Il transfère une connaissance vidéo 2D vers une sortie 3D adaptée au système lidar de Waymo
- Les caméras excellent dans le rendu des détails visuels, tandis que le lidar est fort sur l’information de profondeur précise
Il peut générer des scènes allant de la conduite quotidienne à des situations rares de long tail
Simulation de météo extrême et de catastrophes naturelles
- Génération de scènes telles qu’une traversée du Golden Gate Bridge enneigé, une rencontre avec une tornade, une banlieue inondée, des rues enneigées dans une ville tropicale ou une fuite en pleine zone d’incendie
Événements rares et critiques pour la sécurité
- Reproduction de scénarios liés à la sécurité comme des conducteurs agressifs, des véhicules heurtant des branches, des véhicules avec chargement instable ou des camions roulant à contresens
Objets de long tail et situations atypiques
- Simulation de rencontres avec des objets inhabituels comme des éléphants, des Texas longhorns, des lions, des piétons en costume de dinosaure ou d’immenses moulins à vent

Le système peut être réglé de trois façons : contrôle des actions de conduite, contrôle de la composition de scène et contrôle par langage
Contrôle des actions de conduite
- Mise en œuvre d’un simulateur interactif qui réagit à des entrées de conduite spécifiques
  - Exemple : tester le résultat d’une conduite plus proactive dans une situation donnée
- Il conserve une cohérence visuelle et un réalisme supérieurs à ceux de l’approche 3DGS (3D Gaussian Splats)
Contrôle de la composition de scène
- Il est possible de modifier librement la structure de la route, l’état des feux et le comportement des véhicules environnants
  - Prise en charge de la création de scénarios personnalisés et de la transformation de l’environnement routier
Contrôle par langage
- Il est possible de modifier le moment de la journée, la météo et l’ensemble de la scène via des commandes textuelles
  - Exemple : passage de l’aube au matin, au midi, au soir ou à la nuit
  - Changement des conditions météorologiques : ciel couvert, brouillard, pluie, neige, temps clair, etc.

Le système prend en entrée des vidéos de caméra standard ou de dashcam et les convertit en simulation multi-capteurs du point de vue de Waymo Driver
- Comme il s’appuie sur des vidéos réelles, le niveau de réalisme et de précision est élevé
Exemples : conversion de vidéos tournées dans des lieux réels comme la Norvège, le parc national des Arches dans l’Utah ou la Death Valley en Californie

Les simulations de scènes longues demandent beaucoup de calcul, mais des variantes optimisées du modèle permettent de réduire fortement la charge de calcul tout en maintenant une haute qualité
- Prise en charge de scénarios de conduite prolongés comme le passage dans des voies étroites, des intersections complexes ou des montées
Exemples en lecture x4 : évitement d’un bouchon sur autoroute, conduite dans un quartier résidentiel complexe, évitement d’une moto en montée, demi-tour d’un SUV, etc.

Le système permet de reproduire virtuellement à l’avance des situations presque impossibles dans le monde réel
Il contribue à renforcer les standards de sécurité de Waymo Driver et à préparer l’extension du service vers de nouvelles zones et de nouveaux environnements