Gemini 3 Pro : la frontière de l'IA visuelle

(blog.google)

3 points par GN⁺ 2025-12-06 | 3 commentaires | Partager sur WhatsApp

Gemini 3 Pro dépasse le simple stade de reconnaissance pour réaliser un raisonnement visuel et spatial, en tant que modèle multimodal de nouvelle génération
Il enregistre des performances de pointe dans des domaines variés comme la compréhension de documents, d’espaces, d’écrans et de vidéos, et atteint le meilleur niveau sur des benchmarks de raisonnement visuel complexes
Pour la compréhension documentaire, il offre une OCR précise et une restauration de la structure (derendering), ainsi que des capacités de raisonnement avancées, notamment l’analyse multicritère de tableaux et de graphiques
En compréhension spatiale, d’écran et vidéo, des fonctionnalités comme le pointage basé sur les coordonnées, l’analyse à haute cadence d’images et le suivi des causes dans la vidéo renforcent l’interaction avec l’environnement réel
Il prend en charge une compréhension visuelle précise et une automatisation dans plusieurs secteurs comme l’éducation, la santé, le droit et la finance, et les développeurs peuvent ajuster performance et coût via le paramètre media_resolution

Aperçu de Gemini 3 Pro

Gemini 3 Pro est un modèle ayant évolué de la simple reconnaissance vers le raisonnement visuel et spatial, et constitue le modèle multimodal le plus puissant développé par Google
- Il affiche les meilleurs scores sur les benchmarks de pointe de compréhension documentaire, spatiale, d’écran et vidéo
- Il atteint une nouvelle performance record sur des tests de raisonnement visuel complexes comme MMMU Pro et Video MMMU

1. Compréhension documentaire

Les documents réels mélangent des éléments non structurés tels que images, écriture manuscrite, tableaux et formules, et Gemini 3 Pro les reconnaît et les structure avec précision
- La précision OCR et la capacité de raisonnement visuel sont fortement améliorées
Grâce à la fonction Derendering, les documents visuels peuvent être restaurés sous forme de code structuré en HTML, LaTeX ou Markdown
- Convertir un registre de marchand du XVIIIe siècle en tableau ou reconstruire une image d’équation en code LaTeX
- Reproduire le diagramme original de Florence Nightingale en graphique interactif
Avec des capacités de raisonnement complexes, Gemini 3 Pro analyse de manière progressive les tableaux et les graphiques d’un long rapport
- Il dépasse la performance humaine de référence (80,5 %) sur le benchmark CharXiv Reasoning
- Sur l’exemple d’un rapport du Census Bureau américain, il relie la variation de l’indice de Gini à des analyses chiffrées et de politiques pour identifier précisément les causes (arrêt de la politique ARPA, fin des mesures de relance économique)
- Il conclut également que la part des cinq tranches de revenu les plus basses a augmenté, d’après la comparaison de tableaux

2. Compréhension spatiale

Gemini 3 Pro est la version aux capacités de compréhension spatiale les plus fortes, optimisée pour comprendre le monde physique
- Sortie de coordonnées pixel par pixel pour indiquer précisément un emplacement donné dans une image
- Utilisation de points 2D continus pour réaliser des tâches comme l’estimation de pose humaine ou le suivi de trajectoire
Avec la référence open vocabulary, il identifie objets et intentions
- Génération possible d’une planification basée sur l’espace du type « classe les déchets de cette table » pour un robot
- Support de consignes visuelles sur appareils AR/XR, comme « indiquez la vis en suivant le manuel utilisateur »

3. Compréhension d’écran

Gemini 3 Pro reconnaît précisément les écrans des systèmes d’exploitation desktop et mobile pour prendre en charge l’automatisation de l’usage informatique
- Utilisation dans l’automatisation de tâches répétitives, les tests QA, l’onboarding des utilisateurs, l’analyse UX, etc.
- Identification des éléments de l’interface utilisateur et détermination précise des zones de clic

4. Compréhension vidéo

La vidéo est le format de données le plus complexe, et Gemini 3 Pro l’analyse rapide et à haute précision
- Traitement en taux de trames élevé (>1 FPS) pour détecter des mouvements rapides, rendant possible une analyse fine de gestes comme le swing de golf
- À 10 FPS, il capture jusqu’au transfert de poids et aux micro-mouvements du swing
Le mode « Thinking » fait passer du simple repérage d’objets au raisonnement vidéo de type cause à effet
- Comprendre non seulement le « quoi », mais aussi le « pourquoi »
Il peut analyser de longues vidéos et les convertir en code d’application ou en informations structurées, renforçant le lien entre vidéo et code

5. Cas d’usage concrets

Éducation : amélioration de la résolution de problèmes centrés sur des tableaux et graphiques en mathématiques et en sciences
- Traitement de problèmes de raisonnement multimodal du niveau collège jusqu’à l’université
- Analyse de puzzles mathématiques visuels comme [Math Kangaroo] et de diagrammes complexes de chimie et de physique
- Couplage avec [Nano Banana Pro] pour signaler visuellement les erreurs des devoirs d’étudiants
Santé et sciences de la vie : meilleures performances sur des benchmarks d’imagerie médicale comme MedXpertQA-MM, VQA-RAD, MicroVQA
- Utilisation pour le Q&A d’imagerie radiologique et pour la recherche biologique basée sur le microscope
Droit et finance : analyse de tableaux et de graphiques dans des rapports et contrats complexes pour soutenir l’automatisation du traitement documentaire professionnel

6. Contrôle de la résolution média

Lors du traitement des entrées visuelles, la préservation du format d’origine améliore la qualité
Le paramètre media_resolution permet d’ajuster le compromis entre performance et coût
- High resolution : adapté à l’OCR fine et à la compréhension de documents complexes
- Low resolution : optimise le coût et la latence pour la reconnaissance de scène et le traitement de longs contextes
Les paramètres détaillés sont consultables dans le [Guide de documentation Gemini 3.0]

Accès développeur

Gemini 3 Pro peut être expérimenté directement dans Google AI Studio,
la documentation développeur prend en charge l’intégration API et l’exploitation du modèle

3 commentaires

y15un 2025-12-06

Tout est très bien, mais j’aimerais qu’ils corrigent le fait d’insérer sans arrêt des vidéos YouTube à l’encontre des consignes de l’utilisateur. Ça coupe constamment ma concentration avec l’autoplay en plein milieu de la réponse, donc j’ai même interdit les vidéos dans le personal context, mais parfois il ignore quand même cela et me colle des vidéos. C’est agaçant...

colus001 2025-12-08

Quand je lui ai demandé de me faire une liste, il m'a soudainement dit de connecter Google Drive, haha.

GN⁺ 2025-12-06

Avis sur Hacker News

Pour la première fois, un modèle a obtenu un score partiel dans mon test d’images pour LLM
Le test consiste à compter le nombre de pattes d’un chien qui en a 5, et la plupart des LLM ont obstinément affirmé qu’il y en avait 4
GPT-5 a même écrit lui-même un script de détection de contours pour trouver la frontière entre les « pattes dorées du chien » et « l’herbe vert clair », afin de prouver qu’il y en avait 4, mais lorsqu’il en a en réalité trouvé 5, il a prétendu que c’était un bug et a ajusté la sensibilité
Gemini 3 s’est d’abord trompé sur le nombre de pattes, mais a identifié une « structure anatomique masculine » dans la photo. Autrement dit, la 5e patte se trouvait à cet endroit
Cela reste malgré tout difficile à qualifier d’impressionnant
À noter que l’image slicer de Meta a correctement identifié les 5 pattes. Tous les chiens avec trop de pattes ont été générés avec nano-banana
- J’ai aussi demandé à Gemini de générer l’image d’un chien à 5 pattes, mais il n’y arrive pas correctement. En général, il crée un chien normal ou transforme la queue en un appendice bizarre
  J’ai demandé à Gemini et à Grok de compter les pattes, et tous deux ont insisté sur 4
  Quand je lui ai dit que j’avais raison, Grok est tombé dans une confusion ontologique et a fini par conclure : « C’est une célèbre image d’illusion d’optique ; on dirait un chien sans tête, mais il n’a en fait que trois pattes »
  Ce genre de test ramène à la réalité chaque fois qu’un LLM commence vraiment à paraître « intelligent »
- Je ne suis pas expert en IA, mais j’ai un test d’image de labyrinthe auquel tous les modèles ont échoué
  Si on demande au LLM de tracer le chemin optimal, ils échouent tous
  Voici le résultat de Nano Banana : lien du test
- J’ai l’impression que ces tests sont une approche biaisée qui évalue les LLM selon des critères de cognition humaine
  Ils ne prouvent pas grand-chose, si ce n’est que les modèles ne pensent pas comme des humains
  Je me demande si le prompt précise explicitement au modèle de « prendre cette image de façon très littérale », ou s’il a été conçu avec l’intention délibérée de piéger
  Il n’est pas non plus clair si le critère de réussite consiste simplement à répondre « 5 », ou s’il inclut aussi le contexte de la conversation
  Au final, ces tests ressemblent à une analyse peu productive pour évaluer le niveau cognitif des LLM
- Nano Banana 2 a en réalité généré une image de chien à 5 pattes assez crédible
  Lien du résultat
  Mais le modèle ne « pensait » pas l’avoir fait
  Lors de l’étape finale de raisonnement, il a reconnu ses propres limites en disant que « la cinquième patte continue d’être omise », avant de conclure qu’il « reconnaissait le défaut mais fournissait malgré tout la meilleure image possible »
- Quand il faut surmonter des concepts représentés de manière déséquilibrée dans les données d’entraînement, les modèles ont du mal
  Par exemple, si on essaie de générer une araignée à qui il manque une patte, une étoile à 9 branches, un trèfle à 5 feuilles ou des personnes avec un nombre de doigts différent, le taux de réussite est inférieur à 25 %
  Le problème des doigts est particulièrement ironique quand on pense aux efforts déployés autrefois pour corriger les erreurs anatomiques de SD 1.5
Je travaille sur des schémas électriques de construction et je donne parfois de petites tâches à des LLM
Même en lui fournissant un harnais approximatif, il a presque du premier coup complété l’agencement des prises dans une pièce
Avec un contrôle un peu plus fin, on pourrait bientôt remplacer une part importante du travail de mes collègues
- J’aimerais qu’il existe une baguette magique qui rende des outils comme AVEVA ou AutoCAD moins pénibles
  Ce ne devrait pas être aux ingénieurs utilisateurs d’améliorer ce genre d’outils, mais aux entreprises qui les ont créés
  Dépendre d’accélérateurs tiers peu fiables est risqué
- J’aimerais voir un exemple du harnais utilisé. J’aimerais tester moi-même
- L’idée que « l’IA ne pourra jamais remplacer la créativité humaine » ressemble de plus en plus à des poteaux de but qu’on déplace sans cesse
  Le champ s’étend progressivement, de l’art numérique à la gestion de projet, à l’ingénierie et même au travail manuel
  On dirait que plus personne ne se souvient qu’autrefois le test de Turing faisait l’objet de discussions sérieuses
Si l’amélioration des performances en OCR était appliquée à Google Books, ce serait énorme
À long terme, cela pourrait même permettre de stocker compressés des livres rares pour moins de 5 000 $
Le billet de blog d’Anna’s Archive vaut aussi le détour
Ce serait bien qu’archive.org utilise cela à la place de Tesseract. Je me demande simplement combien cela coûte
- C’est une structure typique de data flywheel — meilleurs modèles → meilleures données → meilleurs modèles
- « Plus de données pour le dieu des données ! »
Les résultats de ScreenSpot Pro sont intéressants
```
72.7% Gemini 3 Pro
11.4% Gemini 2.5 Pro
49.9% Claude Opus 4.5
3.50% GPT-5.1
```
Il s’agit d’un test d’utilisation d’ordinateur à haute résolution basé sur une interface GUI
Lien vers l’article
- J’avais été surpris, il y a quelques mois, de voir GPT-5 afficher des performances très faibles dans un simple test d’OCR, bien en dessous d’Opus 4.1 et de Gemini 2.5
  Je compte refaire le test avec les modèles les plus récents
  Blog associé
- Le résultat de GPT-5.1 est extrêmement bas. Est-ce qu’il pourrait y avoir une perte d’information due au downscaling ?
- À ce rythme, on devrait bientôt atteindre une précision dans les 90 %
Message à l’auteur de l’article — le lien « HTML transcription » est cassé
Il renvoie vers une adresse Google interne
- C’est amusant de voir que le design des portails internes d’entreprise n’a pratiquement pas changé depuis des décennies. Ce style old school a quelque chose de nostalgique
- C’est Rohan, l’auteur de l’article. Merci pour le signalement, c’est corrigé à l’instant
- Il est étonnant que le lien d’aide à la connexion soit accessible sans connexion
- Le lien « See prompt in Google AI Studio » renvoie lui aussi vers un prompt privé
Nano Banana Pro n’arrive toujours pas à résoudre parfaitement une grille de mots mêlés
En revanche, Gemini 3 Pro with Code Execution trouve la bonne réponse du premier coup et indique même précisément l’emplacement des mots
Image du puzzle, résultat Nano Banana 1, résultat 2
Nano Banana n’a trouvé que deux mots, mais c’est un grand progrès par rapport à avant
C’est un type de problème qui demande un prétraitement fin, comme respecter la casse ou supprimer les espaces
- Quand on utilise l’application web Gemini, mieux vaut ne pas commencer directement en mode génération d’image ; il vaut mieux d’abord établir un flux de prompt précis en mode conversation normal, puis demander la génération d’image
On disait que « Gemini 3 Pro représente un saut générationnel, de la simple reconnaissance au raisonnement spatial », mais
quand je lui demande un « verre de vin plein », il dessine un verre rempli aux deux tiers
Le vrai raisonnement spatial est encore loin
- Gemini 3 Pro est différent de Nano Banana Pro, et la robustesse de son modèle de décodage d’image peut être plus faible
  Nano Banana Pro est meilleur pour raisonner sur l’emplacement des erreurs dans une image
- J’ai essayé le même prompt, et en ajoutant une fois de plus « remplis le verre jusqu’à ce qu’il soit sur le point de déborder », j’ai obtenu un verre parfaitement plein
- À l’inverse, si on lui donne une image et qu’on lui demande « ce verre est-il plein ? », il répondrait probablement juste. Qwen-VL fonctionne déjà bien de cette manière
Cette annonce ne porte pas sur un nouveau modèle, mais met simplement en avant des cas d’usage concrets de la vision dans Gemini 3
On dit que la fonction de sortie de coordonnées de Gemini 3 permet l’estimation de pose ou le suivi de trajectoire,
mais c’est frustrant de ne pas avoir de prompts concrets ni de documentation
- Dans un CMS, j’aimerais une fonction qui cadre automatiquement les photos selon différents ratios
  Par exemple, un modèle capable de recadrer une photo en large, carré, vertical ou 4:3 ? Je n’ai rien trouvé sur Hugging Face
- Le blog associé de Simon Willison peut aider : Bounding Box Visualization
Si YouTube avec audiodescription devenait possible, ce serait vraiment impressionnant
On pourrait écouter une description narrative façon playthrough où Gemini décrit les scènes sans même avoir à jouer soi-même
- J’ai analysé une vidéo de Zelda TOTK toutes les 5 secondes pour créer une description vocale narrative
  Vidéo d’origine, script, voix TTS
  Comme la vidéo était en 144p, certaines descriptions de détails étaient légèrement à côté, mais la description des scènes était globalement assez précise
- J’ai aussi traité une vidéo d’une heure de Witcher 3 en 144p, et il a été facile de générer des descriptions scène par scène pour environ 300 000 tokens
- J’ai téléversé dans l’application Gemini les 5 premières minutes de l’introduction de Zelda: Breath of the Wild pour demander une description scène par scène
  Vidéo d’origine, gist du résultat
  C’était assez précis comme description destinée aux personnes malvoyantes