Gemini 3 Pro : la frontière de l'IA visuelle
(blog.google)- Gemini 3 Pro dépasse le simple stade de reconnaissance pour réaliser un raisonnement visuel et spatial, en tant que modèle multimodal de nouvelle génération
- Il enregistre des performances de pointe dans des domaines variés comme la compréhension de documents, d’espaces, d’écrans et de vidéos, et atteint le meilleur niveau sur des benchmarks de raisonnement visuel complexes
- Pour la compréhension documentaire, il offre une OCR précise et une restauration de la structure (derendering), ainsi que des capacités de raisonnement avancées, notamment l’analyse multicritère de tableaux et de graphiques
- En compréhension spatiale, d’écran et vidéo, des fonctionnalités comme le pointage basé sur les coordonnées, l’analyse à haute cadence d’images et le suivi des causes dans la vidéo renforcent l’interaction avec l’environnement réel
- Il prend en charge une compréhension visuelle précise et une automatisation dans plusieurs secteurs comme l’éducation, la santé, le droit et la finance, et les développeurs peuvent ajuster performance et coût via le paramètre media_resolution
Aperçu de Gemini 3 Pro
- Gemini 3 Pro est un modèle ayant évolué de la simple reconnaissance vers le raisonnement visuel et spatial, et constitue le modèle multimodal le plus puissant développé par Google
- Il affiche les meilleurs scores sur les benchmarks de pointe de compréhension documentaire, spatiale, d’écran et vidéo
- Il atteint une nouvelle performance record sur des tests de raisonnement visuel complexes comme MMMU Pro et Video MMMU
1. Compréhension documentaire
- Les documents réels mélangent des éléments non structurés tels que images, écriture manuscrite, tableaux et formules, et Gemini 3 Pro les reconnaît et les structure avec précision
- La précision OCR et la capacité de raisonnement visuel sont fortement améliorées
- Grâce à la fonction Derendering, les documents visuels peuvent être restaurés sous forme de code structuré en HTML, LaTeX ou Markdown
- Convertir un registre de marchand du XVIIIe siècle en tableau ou reconstruire une image d’équation en code LaTeX
- Reproduire le diagramme original de Florence Nightingale en graphique interactif
- Avec des capacités de raisonnement complexes, Gemini 3 Pro analyse de manière progressive les tableaux et les graphiques d’un long rapport
- Il dépasse la performance humaine de référence (80,5 %) sur le benchmark CharXiv Reasoning
- Sur l’exemple d’un rapport du Census Bureau américain, il relie la variation de l’indice de Gini à des analyses chiffrées et de politiques pour identifier précisément les causes (arrêt de la politique ARPA, fin des mesures de relance économique)
- Il conclut également que la part des cinq tranches de revenu les plus basses a augmenté, d’après la comparaison de tableaux
2. Compréhension spatiale
- Gemini 3 Pro est la version aux capacités de compréhension spatiale les plus fortes, optimisée pour comprendre le monde physique
- Sortie de coordonnées pixel par pixel pour indiquer précisément un emplacement donné dans une image
- Utilisation de points 2D continus pour réaliser des tâches comme l’estimation de pose humaine ou le suivi de trajectoire
- Avec la référence open vocabulary, il identifie objets et intentions
- Génération possible d’une planification basée sur l’espace du type « classe les déchets de cette table » pour un robot
- Support de consignes visuelles sur appareils AR/XR, comme « indiquez la vis en suivant le manuel utilisateur »
3. Compréhension d’écran
- Gemini 3 Pro reconnaît précisément les écrans des systèmes d’exploitation desktop et mobile pour prendre en charge l’automatisation de l’usage informatique
- Utilisation dans l’automatisation de tâches répétitives, les tests QA, l’onboarding des utilisateurs, l’analyse UX, etc.
- Identification des éléments de l’interface utilisateur et détermination précise des zones de clic
4. Compréhension vidéo
- La vidéo est le format de données le plus complexe, et Gemini 3 Pro l’analyse rapide et à haute précision
- Traitement en taux de trames élevé (>1 FPS) pour détecter des mouvements rapides, rendant possible une analyse fine de gestes comme le swing de golf
- À 10 FPS, il capture jusqu’au transfert de poids et aux micro-mouvements du swing
- Le mode « Thinking » fait passer du simple repérage d’objets au raisonnement vidéo de type cause à effet
- Comprendre non seulement le « quoi », mais aussi le « pourquoi »
- Il peut analyser de longues vidéos et les convertir en code d’application ou en informations structurées, renforçant le lien entre vidéo et code
5. Cas d’usage concrets
- Éducation : amélioration de la résolution de problèmes centrés sur des tableaux et graphiques en mathématiques et en sciences
- Traitement de problèmes de raisonnement multimodal du niveau collège jusqu’à l’université
- Analyse de puzzles mathématiques visuels comme [Math Kangaroo] et de diagrammes complexes de chimie et de physique
- Couplage avec [Nano Banana Pro] pour signaler visuellement les erreurs des devoirs d’étudiants
- Santé et sciences de la vie : meilleures performances sur des benchmarks d’imagerie médicale comme MedXpertQA-MM, VQA-RAD, MicroVQA
- Utilisation pour le Q&A d’imagerie radiologique et pour la recherche biologique basée sur le microscope
- Droit et finance : analyse de tableaux et de graphiques dans des rapports et contrats complexes pour soutenir l’automatisation du traitement documentaire professionnel
6. Contrôle de la résolution média
- Lors du traitement des entrées visuelles, la préservation du format d’origine améliore la qualité
- Le paramètre media_resolution permet d’ajuster le compromis entre performance et coût
- High resolution : adapté à l’OCR fine et à la compréhension de documents complexes
- Low resolution : optimise le coût et la latence pour la reconnaissance de scène et le traitement de longs contextes
- Les paramètres détaillés sont consultables dans le [Guide de documentation Gemini 3.0]
Accès développeur
- Gemini 3 Pro peut être expérimenté directement dans Google AI Studio,
la documentation développeur prend en charge l’intégration API et l’exploitation du modèle
3 commentaires
Tout est très bien, mais j’aimerais qu’ils corrigent le fait d’insérer sans arrêt des vidéos YouTube à l’encontre des consignes de l’utilisateur. Ça coupe constamment ma concentration avec l’autoplay en plein milieu de la réponse, donc j’ai même interdit les vidéos dans le personal context, mais parfois il ignore quand même cela et me colle des vidéos. C’est agaçant...
Quand je lui ai demandé de me faire une liste, il m'a soudainement dit de connecter Google Drive, haha.
Avis sur Hacker News
Pour la première fois, un modèle a obtenu un score partiel dans mon test d’images pour LLM
Le test consiste à compter le nombre de pattes d’un chien qui en a 5, et la plupart des LLM ont obstinément affirmé qu’il y en avait 4
GPT-5 a même écrit lui-même un script de détection de contours pour trouver la frontière entre les « pattes dorées du chien » et « l’herbe vert clair », afin de prouver qu’il y en avait 4, mais lorsqu’il en a en réalité trouvé 5, il a prétendu que c’était un bug et a ajusté la sensibilité
Gemini 3 s’est d’abord trompé sur le nombre de pattes, mais a identifié une « structure anatomique masculine » dans la photo. Autrement dit, la 5e patte se trouvait à cet endroit
Cela reste malgré tout difficile à qualifier d’impressionnant
À noter que l’image slicer de Meta a correctement identifié les 5 pattes. Tous les chiens avec trop de pattes ont été générés avec nano-banana
J’ai demandé à Gemini et à Grok de compter les pattes, et tous deux ont insisté sur 4
Quand je lui ai dit que j’avais raison, Grok est tombé dans une confusion ontologique et a fini par conclure : « C’est une célèbre image d’illusion d’optique ; on dirait un chien sans tête, mais il n’a en fait que trois pattes »
Ce genre de test ramène à la réalité chaque fois qu’un LLM commence vraiment à paraître « intelligent »
Si on demande au LLM de tracer le chemin optimal, ils échouent tous
Voici le résultat de Nano Banana : lien du test
Ils ne prouvent pas grand-chose, si ce n’est que les modèles ne pensent pas comme des humains
Je me demande si le prompt précise explicitement au modèle de « prendre cette image de façon très littérale », ou s’il a été conçu avec l’intention délibérée de piéger
Il n’est pas non plus clair si le critère de réussite consiste simplement à répondre « 5 », ou s’il inclut aussi le contexte de la conversation
Au final, ces tests ressemblent à une analyse peu productive pour évaluer le niveau cognitif des LLM
Lien du résultat
Mais le modèle ne « pensait » pas l’avoir fait
Lors de l’étape finale de raisonnement, il a reconnu ses propres limites en disant que « la cinquième patte continue d’être omise », avant de conclure qu’il « reconnaissait le défaut mais fournissait malgré tout la meilleure image possible »
Par exemple, si on essaie de générer une araignée à qui il manque une patte, une étoile à 9 branches, un trèfle à 5 feuilles ou des personnes avec un nombre de doigts différent, le taux de réussite est inférieur à 25 %
Le problème des doigts est particulièrement ironique quand on pense aux efforts déployés autrefois pour corriger les erreurs anatomiques de SD 1.5
Je travaille sur des schémas électriques de construction et je donne parfois de petites tâches à des LLM
Même en lui fournissant un harnais approximatif, il a presque du premier coup complété l’agencement des prises dans une pièce
Avec un contrôle un peu plus fin, on pourrait bientôt remplacer une part importante du travail de mes collègues
Ce ne devrait pas être aux ingénieurs utilisateurs d’améliorer ce genre d’outils, mais aux entreprises qui les ont créés
Dépendre d’accélérateurs tiers peu fiables est risqué
Le champ s’étend progressivement, de l’art numérique à la gestion de projet, à l’ingénierie et même au travail manuel
On dirait que plus personne ne se souvient qu’autrefois le test de Turing faisait l’objet de discussions sérieuses
Si l’amélioration des performances en OCR était appliquée à Google Books, ce serait énorme
À long terme, cela pourrait même permettre de stocker compressés des livres rares pour moins de 5 000 $
Le billet de blog d’Anna’s Archive vaut aussi le détour
Ce serait bien qu’archive.org utilise cela à la place de Tesseract. Je me demande simplement combien cela coûte
Les résultats de ScreenSpot Pro sont intéressants
Il s’agit d’un test d’utilisation d’ordinateur à haute résolution basé sur une interface GUI
Lien vers l’article
Je compte refaire le test avec les modèles les plus récents
Blog associé
Message à l’auteur de l’article — le lien « HTML transcription » est cassé
Il renvoie vers une adresse Google interne
Nano Banana Pro n’arrive toujours pas à résoudre parfaitement une grille de mots mêlés
En revanche, Gemini 3 Pro with Code Execution trouve la bonne réponse du premier coup et indique même précisément l’emplacement des mots
Image du puzzle, résultat Nano Banana 1, résultat 2
Nano Banana n’a trouvé que deux mots, mais c’est un grand progrès par rapport à avant
C’est un type de problème qui demande un prétraitement fin, comme respecter la casse ou supprimer les espaces
On disait que « Gemini 3 Pro représente un saut générationnel, de la simple reconnaissance au raisonnement spatial », mais
quand je lui demande un « verre de vin plein », il dessine un verre rempli aux deux tiers
Le vrai raisonnement spatial est encore loin
Nano Banana Pro est meilleur pour raisonner sur l’emplacement des erreurs dans une image
Cette annonce ne porte pas sur un nouveau modèle, mais met simplement en avant des cas d’usage concrets de la vision dans Gemini 3
On dit que la fonction de sortie de coordonnées de Gemini 3 permet l’estimation de pose ou le suivi de trajectoire,
mais c’est frustrant de ne pas avoir de prompts concrets ni de documentation
Par exemple, un modèle capable de recadrer une photo en large, carré, vertical ou 4:3 ? Je n’ai rien trouvé sur Hugging Face
Si YouTube avec audiodescription devenait possible, ce serait vraiment impressionnant
On pourrait écouter une description narrative façon playthrough où Gemini décrit les scènes sans même avoir à jouer soi-même
Vidéo d’origine, script, voix TTS
Comme la vidéo était en 144p, certaines descriptions de détails étaient légèrement à côté, mais la description des scènes était globalement assez précise
Vidéo d’origine, gist du résultat
C’était assez précis comme description destinée aux personnes malvoyantes