- Le tout dernier modèle o3 a battu un joueur Geoguessr de rang Master I
- Le rang Master I correspond à un niveau situé dans les 1 à 2 % supérieurs. Le niveau ultime est Champion, dans les 0,1 à 0,5 %
- Même en injectant des données GPS EXIF falsifiées dans l’image, le modèle a correctement déduit la localisation réelle à partir des seuls indices visuels
- Il a raisonné via une approche de Chain of Thought (COT) en analysant de façon globale des détails comme les bâtiments, le relief, les marquages routiers, la langue et la signalisation
- Lors de certains rounds, il a utilisé la recherche web, mais de nouveaux essais ont montré qu’il pouvait trouver exactement la même bonne réponse sans recherche
- Le temps moyen de raisonnement de o3 est plus long que celui d’un humain, mais son niveau de précision est au contraire supérieur
IA vs humain : le début du duel Geoguessr
- L’auteur est un joueur Geoguessr classé Master I et a affronté l’IA sur 5 rounds, dans des conditions proches du jeu réel
- Pour chaque round, seulement 2 images Street View étaient fournies, et il fallait déduire l’emplacement sans métadonnées
- Le score suivait le système habituel de Geoguessr : un maximum de 5 000 points par round, pour un total de 25 000 points
Résumé des résultats par round
- Round 1 (Bulgarie) : l’humain a gagné en trouvant un point légèrement plus proche, mais l’écart n’était que d’environ 100 points
- Round 2 (Autriche) : o3 a recherché le nom de domaine d’un taxi pour identifier la ville réelle, puis a trouvé la localisation correcte avec une quasi-perfection, obtenant un score proche de 5 000 points
- Round 3 (Irlande) : les deux ont livré une excellente analyse, et o3 a déduit avec précision la région du Burren à partir des marquages routiers et du terrain calcaire, remportant une courte victoire
- Round 4 (Colombie) : o3 s’est montré plus précis que l’humain grâce aux marquages au sol, aux plaques d’immatriculation, aux enseignes de magasins et au relief, avec d’excellents résultats même sans recherche web
- Round 5 (Slovaquie) : l’humain a gagné en trouvant un point légèrement plus proche, mais cela n’a pas suffi à combler l’écart au score total
Ainsi, o3 a correctement identifié les 5 pays au total, et s’est montré dans deux rounds plus précis que l’humain de plusieurs centaines de kilomètres.
Expérience de manipulation EXIF : l’IA ne s’est pas laissée tromper
- Pour le test, des images contenant des données EXIF avec des coordonnées GPS sans rapport avec la localisation réelle ont été utilisées, mais o3 a compris que ces informations ne correspondaient pas au contenu réel de l’image et les a ignorées
- Même lorsque les informations EXIF étaient fournies sous forme de texte, il a correctement déduit un emplacement totalement différent à partir de l’environnement visible sur la photo
- Cela montre que l’IA ne se contente pas de dépendre des métadonnées, mais analyse en profondeur le contenu de l’image
Différences entre l’humain et l’IA
- o3 prend en moyenne 2 à 6 minutes de raisonnement par round, tandis qu’un joueur humain termine la plupart de ses estimations en 1 à 2 minutes
- L’IA passe parfois du temps sur des éléments moins importants comme les panneaux publicitaires, alors que l’humain repère rapidement les indices clés et les hiérarchise
- Mais o3 fait preuve d’une grande précision en combinant finement signalisation routière, plaques d’immatriculation, style architectural, relief et végétation
Conclusion
- o3 ne produit pas ses réponses grâce à une simple tricherie fondée sur les EXIF ou la recherche, mais sur de véritables capacités d’analyse visuelle
- Il montre un niveau de jeu proche ou supérieur à celui d’un Geoguessr Master I
- Les humains gardent encore un avantage en vitesse et en intuition, mais en précision, l’IA est déjà devenue une menace sérieuse
- Au-delà d’une simple démonstration technique, ce cas montre où en est aujourd’hui une IA visuelle haute performance réellement exploitable
1 commentaires
Avis Hacker News
Il y a un autocollant « www.taxilinder.at » sur le véhicule. Une recherche web permet de voir que Taxi Linder GmbH est située à Dornbirn, en Autriche
L’auteur se dit heureux que le sujet intéresse les gens
C’est un joueur de niveau Master sur GeoGuessr. À ce niveau, il faut clairement savoir ce qu’on fait, mais ce n’est pas aussi élevé que le titre peut le laisser croire
Il comprend que o3 a été entraîné sur des données multimodales, y compris des images. Il n’est pas déraisonnable de supposer que les données d’entraînement comprennent des images avec emplacements exacts et caractéristiques associées
En dehors de GeoGuessr, il espère que cette technologie pourra un jour aider à sauver des enfants. Par exemple, elle pourrait aider l’ECAP du FBI
Commentaires du billet précédent :
J’ai essayé de jouer avec o3 cette semaine et, fait intéressant, il semble davantage tenter du pattern matching. Par exemple, il peut facilement déduire des photos d’Europe et des États-Unis
Surprenant. Je suis plutôt positif vis-à-vis de l’IA, mais ici je pensais que l’humain gagnerait. Je m’attends à voir un déplacement des objectifs du type « ce n’est pas du vrai raisonnement »
Personnellement, je pense que c’est l’une des applications de LLM les moins impressionnantes. Il connaît déjà toutes les plantes, tous les panneaux routiers, etc. J’imagine qu’un réseau de neurones traditionnel s’en sortirait aussi bien ici
Cela pourrait changer la donne pour des tâches de type OSINT (Bellingcat / Trace an object). Je me demande si c’est déjà le cas