- Le nouveau modèle o3 d’OpenAI est capable de deviner avec une précision étonnante l’endroit où une photo a été prise, simplement à partir de l’image
- Il montre un processus consistant à analyser les indices visuels de la photo et à extraire davantage de détails via des opérations de zoom et de recadrage
- Il a d’abord proposé Cambria, Californie, mais sa deuxième hypothèse, El Granada, était la bonne
- En s’appuyant sur un système de raisonnement couplé à des outils, il montre un schéma d’analyse des images particulièrement innovant
- Le texte souligne aussi la double face de la technologie et attire l’attention sur les risques liés au partage de photos
L’étonnante capacité du modèle o3 à deviner le lieu d’une photo
- Le modèle o3 d’OpenAI est capable de regarder une photo et de deviner avec une précision remarquable où elle a été prise
- L’utilisateur fournit une photo d’une rue ordinaire, sans repère évident, et demande : « Où cette photo a-t-elle été prise, à ton avis ? »
- Le modèle pense d’abord à tort qu’il ne peut pas voir l’image, puis commence rapidement son analyse visuelle
- Il réduit progressivement la zone possible en analysant divers indices visuels comme les maisons, les massifs de fleurs, les collines et les panneaux
Le processus d’analyse d’image de o3
- Le modèle utilise le recadrage et le zoom pour examiner les plaques d’immatriculation
- Il s’appuie sur du code Python pour découper certaines parties de l’image, puis analyser le résultat
- À partir du design de la plaque, il déduit qu’il s’agit de la Californie, puis analyse aussi l’environnement et le style architectural
- Il finit ainsi par proposer Cambria, Californie, puis Half Moon Bay–El Granada comme seconde possibilité
Précision de l’analyse et expériences supplémentaires
- Le lieu réel était El Granada, et la deuxième hypothèse du modèle était correcte
- Il a été confirmé qu’il pouvait inférer l’emplacement sans utiliser les métadonnées EXIF
- Même après un test réalisé à partir d’une capture d’écran dont les informations EXIF avaient été supprimées, le raisonnement restait précis
- Un autre modèle, Claude 3.5/3.7 Sonnet, a également montré de bonnes performances, mais sans prise en charge du zoom comme o3
- Le modèle Gemini utilisait parfois des informations de localisation de manière imprécise ou faisait de mauvaises suppositions
Le raisonnement couplé aux outils et sa signification
- o3 adopte une nouvelle approche de type Tool-augmented Chain-of-Thought, dans laquelle il utilise directement les outils nécessaires pendant sa « réflexion »
- Ce schéma est performant non seulement pour l’analyse d’images, mais aussi pour d’autres tâches comme la recherche
- On s’attend à voir des approches similaires se diffuser dans d’autres modèles d’IA à l’avenir
Le côté amusant et les risques de la technologie
- Observer le processus de raisonnement du modèle offre une expérience très amusante et immersive
- En même temps, cela rappelle qu’il est désormais possible de retracer un lieu à partir d’une photo de façon largement accessible
- Puisque n’importe qui peut potentiellement retrouver la localisation d’une personne à partir de simples photos du quotidien, une prise de conscience des enjeux de vie privée et de sécurité est nécessaire
Informations supplémentaires sur l’accès de o3 à la localisation
- o3 peut se référer à la localisation approximative de l’utilisateur, mais ce n’est pas l’élément principal qui explique la précision de ses déductions
- Même sans métadonnées EXIF, il a analysé avec une assez bonne précision des photos prises à des milliers de kilomètres
- D’autres utilisateurs ont également reproduit des tests dans divers lieux, confirmant à nouveau les capacités d’analyse de o3
2 commentaires
Et si on ajoutait des informations trompeuses dans les EXIF ?
Commentaires Hacker News
Je joue à Geoguessr de manière compétitive à un haut niveau, et j’aimerais tester ce modèle
Je suis certain qu’il n’a pas consulté les données EXIF
Sur toutes les images que j’ai essayées, le modèle de base a identifié l’emplacement de la photo avec une précision d’environ 95 %
J’ai essayé la même chose et le résultat était hilarant
o3 modélise approximativement la localisation de l’utilisateur
Cela me rappelle les gens qui s’étonnent de voir sur YouTubeTV des publicités liées à ce dont ils parlaient
Il y aura probablement des domaines où l’estimation de lieu sera effrayamment précise
Je suis certain qu’il n’a pas consulté les données EXIF
D’autres jours, ce n’était pas si impressionnant
Je ne suis pas sûr qu’o4-mini échoue vraiment à cette tâche