OpenAI o3 bat un maître de Geoguessr en ignorant même des données EXIF falsifiées

(sampatt.com)

6 points par GN⁺ 2025-04-30 | 1 commentaires | Partager sur WhatsApp

Le tout dernier modèle o3 a battu un joueur Geoguessr de rang Master I
- Le rang Master I correspond à un niveau situé dans les 1 à 2 % supérieurs. Le niveau ultime est Champion, dans les 0,1 à 0,5 %
Même en injectant des données GPS EXIF falsifiées dans l’image, le modèle a correctement déduit la localisation réelle à partir des seuls indices visuels
Il a raisonné via une approche de Chain of Thought (COT) en analysant de façon globale des détails comme les bâtiments, le relief, les marquages routiers, la langue et la signalisation
Lors de certains rounds, il a utilisé la recherche web, mais de nouveaux essais ont montré qu’il pouvait trouver exactement la même bonne réponse sans recherche
Le temps moyen de raisonnement de o3 est plus long que celui d’un humain, mais son niveau de précision est au contraire supérieur

IA vs humain : le début du duel Geoguessr

L’auteur est un joueur Geoguessr classé Master I et a affronté l’IA sur 5 rounds, dans des conditions proches du jeu réel
Pour chaque round, seulement 2 images Street View étaient fournies, et il fallait déduire l’emplacement sans métadonnées
Le score suivait le système habituel de Geoguessr : un maximum de 5 000 points par round, pour un total de 25 000 points

Résumé des résultats par round

Round 1 (Bulgarie) : l’humain a gagné en trouvant un point légèrement plus proche, mais l’écart n’était que d’environ 100 points
Round 2 (Autriche) : o3 a recherché le nom de domaine d’un taxi pour identifier la ville réelle, puis a trouvé la localisation correcte avec une quasi-perfection, obtenant un score proche de 5 000 points
Round 3 (Irlande) : les deux ont livré une excellente analyse, et o3 a déduit avec précision la région du Burren à partir des marquages routiers et du terrain calcaire, remportant une courte victoire
Round 4 (Colombie) : o3 s’est montré plus précis que l’humain grâce aux marquages au sol, aux plaques d’immatriculation, aux enseignes de magasins et au relief, avec d’excellents résultats même sans recherche web
Round 5 (Slovaquie) : l’humain a gagné en trouvant un point légèrement plus proche, mais cela n’a pas suffi à combler l’écart au score total

Ainsi, o3 a correctement identifié les 5 pays au total, et s’est montré dans deux rounds plus précis que l’humain de plusieurs centaines de kilomètres.

Expérience de manipulation EXIF : l’IA ne s’est pas laissée tromper

Pour le test, des images contenant des données EXIF avec des coordonnées GPS sans rapport avec la localisation réelle ont été utilisées, mais o3 a compris que ces informations ne correspondaient pas au contenu réel de l’image et les a ignorées
Même lorsque les informations EXIF étaient fournies sous forme de texte, il a correctement déduit un emplacement totalement différent à partir de l’environnement visible sur la photo
Cela montre que l’IA ne se contente pas de dépendre des métadonnées, mais analyse en profondeur le contenu de l’image

Différences entre l’humain et l’IA

o3 prend en moyenne 2 à 6 minutes de raisonnement par round, tandis qu’un joueur humain termine la plupart de ses estimations en 1 à 2 minutes
L’IA passe parfois du temps sur des éléments moins importants comme les panneaux publicitaires, alors que l’humain repère rapidement les indices clés et les hiérarchise
Mais o3 fait preuve d’une grande précision en combinant finement signalisation routière, plaques d’immatriculation, style architectural, relief et végétation

Conclusion

o3 ne produit pas ses réponses grâce à une simple tricherie fondée sur les EXIF ou la recherche, mais sur de véritables capacités d’analyse visuelle
Il montre un niveau de jeu proche ou supérieur à celui d’un Geoguessr Master I
Les humains gardent encore un avantage en vitesse et en intuition, mais en précision, l’IA est déjà devenue une menace sérieuse
Au-delà d’une simple démonstration technique, ce cas montre où en est aujourd’hui une IA visuelle haute performance réellement exploitable

1 commentaires

GN⁺ 2025-04-30

Avis Hacker News

Il y a un autocollant « www.taxilinder.at » sur le véhicule. Une recherche web permet de voir que Taxi Linder GmbH est située à Dornbirn, en Autriche
- Utiliser la recherche web n’est pas équitable. On peut obtenir un score parfait dans des manches GeoGuessr en ville en recherchant certaines entreprises, mais ce n’est pas le but du jeu
L’auteur se dit heureux que le sujet intéresse les gens
- Il recommande à tout le monde d’essayer GeoGuessr. L’auteur adore ce jeu
- Beaucoup estiment qu’il est injuste que le modèle o3 ait utilisé la recherche web dans 2 manches sur 5, et que le résultat n’est donc pas valable
- Pour le vérifier, il a relancé les deux manches où la recherche avait été utilisée et a mis à jour les résultats
- Conclusion : les résultats étaient presque identiques. Les coordonnées GPS sont disponibles dans le billet
- Il donne un exemple du modèle identifiant une ville autrichienne à partir des montagnes en arrière-plan
- Il disposait déjà de beaucoup d’informations et n’avait pas besoin de faire une recherche
- La recherche peut être utile dans certains cas. Mais ici, ce n’était pas pertinent
C’est un joueur de niveau Master sur GeoGuessr. À ce niveau, il faut clairement savoir ce qu’on fait, mais ce n’est pas aussi élevé que le titre peut le laisser croire
- Master correspond à environ 800-1200 ELO, alors que les pros sont plutôt vers 1900-2000. Dans 95 % des manches, on peut identifier immédiatement le pays, mais en Russie ou au Brésil, sans indices, il est impossible de localiser plus précisément. Des scripteurs peuvent me battre
Il comprend que o3 a été entraîné sur des données multimodales, y compris des images. Il n’est pas déraisonnable de supposer que les données d’entraînement comprennent des images avec emplacements exacts et caractéristiques associées
- GeoGuessr utilise Google Maps, et Google Maps achète la plupart de ses images à des tiers. Il serait très surprenant que ces tiers ne vendent pas aussi à toutes les grandes entreprises d’IA
En dehors de GeoGuessr, il espère que cette technologie pourra un jour aider à sauver des enfants. Par exemple, elle pourrait aider l’ECAP du FBI
Commentaires du billet précédent :
- Il y aura probablement des zones où les estimations de localisation pourront être d’une précision effrayante. Par exemple, comme l’article qui a identifié le village exact en hypothèse de secours
- Mais si l’on suit le raisonnement, il y aura aussi de nombreuses zones où la précision chutera. Si on montre une photo d’un trailer park au Kansas, le modèle ne pourra probablement identifier que l’État
- Ce billet ne repose pas sur un très grand échantillon, mais il correspond à ce qu’on pouvait attendre de ce type de modèles. Même sur des photos contenant peu d’informations visuelles, il s’est montré fiable pour identifier le pays
- L’article précédent ne testait qu’une seule photo ; au deuxième essai, il a trouvé le village exact, et l’auteur a qualifié cela de « précision effrayante ». C’est une question d’appréciation
- Il semble que o3 avec recherche web activée puisse jouer à GeoGuessr à un niveau élevé. Maintenant, j’aimerais voir un bot GeoGuessr basé sur o3 disputer plusieurs parties pour mesurer son ELO
J’ai essayé de jouer avec o3 cette semaine et, fait intéressant, il semble davantage tenter du pattern matching. Par exemple, il peut facilement déduire des photos d’Europe et des États-Unis
- Mais pour les lieux où il y a peu de photos en ligne, il essaie de faire du pattern matching à partir de sa base de données / d’Internet sans aller plus loin dans l’exploration
- Par exemple, on peut citer un sentier populaire sur une île qui s’est développée depuis 2020. Au début, il a mentionné les rochers de l’île et la végétation brésilienne, mais il a essayé de trouver un lieu à Rio de Janeiro
- Un autre exemple est une plage connue pour ses piscines naturelles à marée basse. Quand la photo a été prise à marée haute, il a correctement identifié la végétation et l’État, mais a de nouveau tenté de retrouver un lieu plus populaire
Surprenant. Je suis plutôt positif vis-à-vis de l’IA, mais ici je pensais que l’humain gagnerait. Je m’attends à voir un déplacement des objectifs du type « ce n’est pas du vrai raisonnement »
Personnellement, je pense que c’est l’une des applications de LLM les moins impressionnantes. Il connaît déjà toutes les plantes, tous les panneaux routiers, etc. J’imagine qu’un réseau de neurones traditionnel s’en sortirait aussi bien ici
Cela pourrait changer la donne pour des tâches de type OSINT (Bellingcat / Trace an object). Je me demande si c’est déjà le cas
- Des compétitions de style GeoGuessr pourraient voir le jour, et cela pourrait grandement contribuer à l’identification de masse, au moins comme copilote