6 points par GN⁺ 2025-04-27 | 2 commentaires | Partager sur WhatsApp
  • Le nouveau modèle o3 d’OpenAI est capable de deviner avec une précision étonnante l’endroit où une photo a été prise, simplement à partir de l’image
  • Il montre un processus consistant à analyser les indices visuels de la photo et à extraire davantage de détails via des opérations de zoom et de recadrage
  • Il a d’abord proposé Cambria, Californie, mais sa deuxième hypothèse, El Granada, était la bonne
  • En s’appuyant sur un système de raisonnement couplé à des outils, il montre un schéma d’analyse des images particulièrement innovant
  • Le texte souligne aussi la double face de la technologie et attire l’attention sur les risques liés au partage de photos

L’étonnante capacité du modèle o3 à deviner le lieu d’une photo

  • Le modèle o3 d’OpenAI est capable de regarder une photo et de deviner avec une précision remarquable où elle a été prise
  • L’utilisateur fournit une photo d’une rue ordinaire, sans repère évident, et demande : « Où cette photo a-t-elle été prise, à ton avis ? »
  • Le modèle pense d’abord à tort qu’il ne peut pas voir l’image, puis commence rapidement son analyse visuelle
  • Il réduit progressivement la zone possible en analysant divers indices visuels comme les maisons, les massifs de fleurs, les collines et les panneaux

Le processus d’analyse d’image de o3

  • Le modèle utilise le recadrage et le zoom pour examiner les plaques d’immatriculation
  • Il s’appuie sur du code Python pour découper certaines parties de l’image, puis analyser le résultat
  • À partir du design de la plaque, il déduit qu’il s’agit de la Californie, puis analyse aussi l’environnement et le style architectural
  • Il finit ainsi par proposer Cambria, Californie, puis Half Moon Bay–El Granada comme seconde possibilité

Précision de l’analyse et expériences supplémentaires

  • Le lieu réel était El Granada, et la deuxième hypothèse du modèle était correcte
  • Il a été confirmé qu’il pouvait inférer l’emplacement sans utiliser les métadonnées EXIF
  • Même après un test réalisé à partir d’une capture d’écran dont les informations EXIF avaient été supprimées, le raisonnement restait précis
  • Un autre modèle, Claude 3.5/3.7 Sonnet, a également montré de bonnes performances, mais sans prise en charge du zoom comme o3
  • Le modèle Gemini utilisait parfois des informations de localisation de manière imprécise ou faisait de mauvaises suppositions

Le raisonnement couplé aux outils et sa signification

  • o3 adopte une nouvelle approche de type Tool-augmented Chain-of-Thought, dans laquelle il utilise directement les outils nécessaires pendant sa « réflexion »
  • Ce schéma est performant non seulement pour l’analyse d’images, mais aussi pour d’autres tâches comme la recherche
  • On s’attend à voir des approches similaires se diffuser dans d’autres modèles d’IA à l’avenir

Le côté amusant et les risques de la technologie

  • Observer le processus de raisonnement du modèle offre une expérience très amusante et immersive
  • En même temps, cela rappelle qu’il est désormais possible de retracer un lieu à partir d’une photo de façon largement accessible
  • Puisque n’importe qui peut potentiellement retrouver la localisation d’une personne à partir de simples photos du quotidien, une prise de conscience des enjeux de vie privée et de sécurité est nécessaire

Informations supplémentaires sur l’accès de o3 à la localisation

  • o3 peut se référer à la localisation approximative de l’utilisateur, mais ce n’est pas l’élément principal qui explique la précision de ses déductions
  • Même sans métadonnées EXIF, il a analysé avec une assez bonne précision des photos prises à des milliers de kilomètres
  • D’autres utilisateurs ont également reproduit des tests dans divers lieux, confirmant à nouveau les capacités d’analyse de o3

2 commentaires

 
unsure4000 2025-04-27

Et si on ajoutait des informations trompeuses dans les EXIF ?

 
GN⁺ 2025-04-27
Commentaires Hacker News
  • Je joue à Geoguessr de manière compétitive à un haut niveau, et j’aimerais tester ce modèle

    • Étonnamment performant
    • Il a correctement identifié une photo de ma région et a mentionné qu’il avait utilisé l’information selon laquelle j’habite à proximité
    • Il a aussi mieux identifié d’anciennes photos de vacances que des joueurs humains professionnels
    • Cela incluait divers lieux en Europe, en Amérique centrale et aux États-Unis
    • La manière d’arriver à la conclusion est similaire à celle d’un humain
    • Il analyse les plantes, le relief, l’architecture, les infrastructures routières, les panneaux, etc.
    • Un humain peut aussi le faire, mais cela demande des milliers de parties ou un apprentissage approfondi
    • J’utilise des centaines de flashcards pour mémoriser les marquages au sol, les poteaux électriques, les bâtiments, etc.
    • Ces modèles possèdent plus d’informations qu’un individu ne peut en mémoriser
  • Je suis certain qu’il n’a pas consulté les données EXIF

    • Si c’était le cas, il n’aurait pas deviné Cambria au départ
    • À un moment, il a dit qu’il ne pouvait pas du tout voir les données de l’image
    • On ne peut absolument pas le croire sur ce point
    • Il faudrait supprimer les données EXIF et relancer le test
  • Sur toutes les images que j’ai essayées, le modèle de base a identifié l’emplacement de la photo avec une précision d’environ 95 %

    • Sur l’image initiale de l’OP, 4o a deviné Carmel-by-the-Sea plus précisément
    • Dans le CoT, on peut voir un emplacement presque exact dès la première étape de raisonnement
    • Le modèle l’ignore ensuite et tente un autre endroit
    • Quand le modèle de base ne connaît pas les indices, o3 n’adopte pas un comportement intelligent
    • Le modèle a été RL-ed pour amener la bonne réponse, quel que soit le nombre d’outils utilisés
  • J’ai essayé la même chose et le résultat était hilarant

    • Il ne comprenait absolument aucun indice
    • J’ai vu plusieurs fois le prompt indiquant que ce n’était pas la ville où je me trouvais
    • Le moment le plus drôle a été quand il a commencé à analyser un asphaltage flou
    • Six minutes plus tard, o3 était sûr de lui… et se trompait
  • o3 modélise approximativement la localisation de l’utilisateur

    • Je pense que c’est pour prendre en charge la nouvelle fonction de recherche
    • J’ai exécuté deux requêtes d’exemple supplémentaires, et toutes deux ont donné des résultats convaincants
  • Cela me rappelle les gens qui s’étonnent de voir sur YouTubeTV des publicités liées à ce dont ils parlaient

    • En réalité, le ML moderne peut très bien deviner la pertinence publicitaire à partir de la localisation, des partenaires de données et des recherches récentes
    • Même quand on leur explique cela, certaines personnes continuent de croire que l’ordinateur les écoute
  • Il y aura probablement des domaines où l’estimation de lieu sera effrayamment précise

    • Mais en regardant le processus de raisonnement, il y aura aussi de nombreux domaines où ce sera moins précis
    • Si on montre une photo de parc de caravanes au Kansas, le modèle n’identifiera probablement que l’État
    • En cas d’apocalypse robotique, la Californie sera probablement la première en danger
  • Je suis certain qu’il n’a pas consulté les données EXIF

    • S’il trichait sur une tâche similaire, il proposerait un emplacement légèrement erroné
    • Il serait intéressant de voir comment il s’en sort sur la même image après suppression des données EXIF
  • D’autres jours, ce n’était pas si impressionnant

    • Il n’a pas retrouvé les images fournies
    • Il a répété des recadrages d’image et des recherches similaires
    • Quand on utilise la génération d’images, on voit qu’il s’appuie sur une grande base de données d’images comme matériau de référence
  • Je ne suis pas sûr qu’o4-mini échoue vraiment à cette tâche

    • Il ne s’en est pas bien sorti sur les photos que j’ai fournies
    • Je lui ai donné une photo contenant le texte « Sprüngli » à la gare centrale de Bâle, et le modèle a proposé Zurich
    • La deuxième photo était plus difficile
    • C’était une photo de l’intérieur d’un musée à Metz, et le modèle s’est trompé dès le départ
    • Globalement, sa capacité à comprendre les images et à raisonner reste impressionnante, mais il s’en sort mal sur les lieux moins exposés