Les suppositions de o3 sur le lieu d’une photo sont surréalistes, dystopiques et amusantes

(simonwillison.net)

6 points par GN⁺ 2025-04-27 | 2 commentaires | Partager sur WhatsApp

Le nouveau modèle o3 d’OpenAI est capable de deviner avec une précision étonnante l’endroit où une photo a été prise, simplement à partir de l’image
Il montre un processus consistant à analyser les indices visuels de la photo et à extraire davantage de détails via des opérations de zoom et de recadrage
Il a d’abord proposé Cambria, Californie, mais sa deuxième hypothèse, El Granada, était la bonne
En s’appuyant sur un système de raisonnement couplé à des outils, il montre un schéma d’analyse des images particulièrement innovant
Le texte souligne aussi la double face de la technologie et attire l’attention sur les risques liés au partage de photos

L’étonnante capacité du modèle o3 à deviner le lieu d’une photo

Le modèle o3 d’OpenAI est capable de regarder une photo et de deviner avec une précision remarquable où elle a été prise
L’utilisateur fournit une photo d’une rue ordinaire, sans repère évident, et demande : « Où cette photo a-t-elle été prise, à ton avis ? »
Le modèle pense d’abord à tort qu’il ne peut pas voir l’image, puis commence rapidement son analyse visuelle
Il réduit progressivement la zone possible en analysant divers indices visuels comme les maisons, les massifs de fleurs, les collines et les panneaux

Le processus d’analyse d’image de o3

Le modèle utilise le recadrage et le zoom pour examiner les plaques d’immatriculation
Il s’appuie sur du code Python pour découper certaines parties de l’image, puis analyser le résultat
À partir du design de la plaque, il déduit qu’il s’agit de la Californie, puis analyse aussi l’environnement et le style architectural
Il finit ainsi par proposer Cambria, Californie, puis Half Moon Bay–El Granada comme seconde possibilité

Précision de l’analyse et expériences supplémentaires

Le lieu réel était El Granada, et la deuxième hypothèse du modèle était correcte
Il a été confirmé qu’il pouvait inférer l’emplacement sans utiliser les métadonnées EXIF
Même après un test réalisé à partir d’une capture d’écran dont les informations EXIF avaient été supprimées, le raisonnement restait précis
Un autre modèle, Claude 3.5/3.7 Sonnet, a également montré de bonnes performances, mais sans prise en charge du zoom comme o3
Le modèle Gemini utilisait parfois des informations de localisation de manière imprécise ou faisait de mauvaises suppositions

Le raisonnement couplé aux outils et sa signification

o3 adopte une nouvelle approche de type Tool-augmented Chain-of-Thought, dans laquelle il utilise directement les outils nécessaires pendant sa « réflexion »
Ce schéma est performant non seulement pour l’analyse d’images, mais aussi pour d’autres tâches comme la recherche
On s’attend à voir des approches similaires se diffuser dans d’autres modèles d’IA à l’avenir

Le côté amusant et les risques de la technologie

Observer le processus de raisonnement du modèle offre une expérience très amusante et immersive
En même temps, cela rappelle qu’il est désormais possible de retracer un lieu à partir d’une photo de façon largement accessible
Puisque n’importe qui peut potentiellement retrouver la localisation d’une personne à partir de simples photos du quotidien, une prise de conscience des enjeux de vie privée et de sécurité est nécessaire

Informations supplémentaires sur l’accès de o3 à la localisation

o3 peut se référer à la localisation approximative de l’utilisateur, mais ce n’est pas l’élément principal qui explique la précision de ses déductions
Même sans métadonnées EXIF, il a analysé avec une assez bonne précision des photos prises à des milliers de kilomètres
D’autres utilisateurs ont également reproduit des tests dans divers lieux, confirmant à nouveau les capacités d’analyse de o3

2 commentaires

unsure4000 2025-04-27

Et si on ajoutait des informations trompeuses dans les EXIF ?

GN⁺ 2025-04-27

Commentaires Hacker News

Je joue à Geoguessr de manière compétitive à un haut niveau, et j’aimerais tester ce modèle
- Étonnamment performant
- Il a correctement identifié une photo de ma région et a mentionné qu’il avait utilisé l’information selon laquelle j’habite à proximité
- Il a aussi mieux identifié d’anciennes photos de vacances que des joueurs humains professionnels
- Cela incluait divers lieux en Europe, en Amérique centrale et aux États-Unis
- La manière d’arriver à la conclusion est similaire à celle d’un humain
- Il analyse les plantes, le relief, l’architecture, les infrastructures routières, les panneaux, etc.
- Un humain peut aussi le faire, mais cela demande des milliers de parties ou un apprentissage approfondi
- J’utilise des centaines de flashcards pour mémoriser les marquages au sol, les poteaux électriques, les bâtiments, etc.
- Ces modèles possèdent plus d’informations qu’un individu ne peut en mémoriser
Je suis certain qu’il n’a pas consulté les données EXIF
- Si c’était le cas, il n’aurait pas deviné Cambria au départ
- À un moment, il a dit qu’il ne pouvait pas du tout voir les données de l’image
- On ne peut absolument pas le croire sur ce point
- Il faudrait supprimer les données EXIF et relancer le test
Sur toutes les images que j’ai essayées, le modèle de base a identifié l’emplacement de la photo avec une précision d’environ 95 %
- Sur l’image initiale de l’OP, 4o a deviné Carmel-by-the-Sea plus précisément
- Dans le CoT, on peut voir un emplacement presque exact dès la première étape de raisonnement
- Le modèle l’ignore ensuite et tente un autre endroit
- Quand le modèle de base ne connaît pas les indices, o3 n’adopte pas un comportement intelligent
- Le modèle a été RL-ed pour amener la bonne réponse, quel que soit le nombre d’outils utilisés
J’ai essayé la même chose et le résultat était hilarant
- Il ne comprenait absolument aucun indice
- J’ai vu plusieurs fois le prompt indiquant que ce n’était pas la ville où je me trouvais
- Le moment le plus drôle a été quand il a commencé à analyser un asphaltage flou
- Six minutes plus tard, o3 était sûr de lui… et se trompait
o3 modélise approximativement la localisation de l’utilisateur
- Je pense que c’est pour prendre en charge la nouvelle fonction de recherche
- J’ai exécuté deux requêtes d’exemple supplémentaires, et toutes deux ont donné des résultats convaincants
Cela me rappelle les gens qui s’étonnent de voir sur YouTubeTV des publicités liées à ce dont ils parlaient
- En réalité, le ML moderne peut très bien deviner la pertinence publicitaire à partir de la localisation, des partenaires de données et des recherches récentes
- Même quand on leur explique cela, certaines personnes continuent de croire que l’ordinateur les écoute
Il y aura probablement des domaines où l’estimation de lieu sera effrayamment précise
- Mais en regardant le processus de raisonnement, il y aura aussi de nombreux domaines où ce sera moins précis
- Si on montre une photo de parc de caravanes au Kansas, le modèle n’identifiera probablement que l’État
- En cas d’apocalypse robotique, la Californie sera probablement la première en danger
Je suis certain qu’il n’a pas consulté les données EXIF
- S’il trichait sur une tâche similaire, il proposerait un emplacement légèrement erroné
- Il serait intéressant de voir comment il s’en sort sur la même image après suppression des données EXIF
D’autres jours, ce n’était pas si impressionnant
- Il n’a pas retrouvé les images fournies
- Il a répété des recadrages d’image et des recherches similaires
- Quand on utilise la génération d’images, on voit qu’il s’appuie sur une grande base de données d’images comme matériau de référence
Je ne suis pas sûr qu’o4-mini échoue vraiment à cette tâche
- Il ne s’en est pas bien sorti sur les photos que j’ai fournies
- Je lui ai donné une photo contenant le texte « Sprüngli » à la gare centrale de Bâle, et le modèle a proposé Zurich
- La deuxième photo était plus difficile
- C’était une photo de l’intérieur d’un musée à Metz, et le modèle s’est trompé dès le départ
- Globalement, sa capacité à comprendre les images et à raisonner reste impressionnante, mais il s’en sort mal sur les lieux moins exposés

Les suppositions de o3 sur le lieu d’une photo sont surréalistes, dystopiques et amusantes

L’étonnante capacité du modèle o3 à deviner le lieu d’une photo

Le processus d’analyse d’image de o3

Précision de l’analyse et expériences supplémentaires

Le raisonnement couplé aux outils et sa signification

Le côté amusant et les risques de la technologie

Informations supplémentaires sur l’accès de o3 à la localisation

À lire aussi

2 commentaires

Commentaires Hacker News