Présentation de Gemini 3 Deep Think

(blog.google)

7 points par GN⁺ 2026-02-13 | 1 commentaires | Partager sur WhatsApp

Le modèle d’IA de Google Gemini 3 Deep Think, conçu pour la résolution de problèmes en science, recherche et ingénierie, a reçu une mise à niveau majeure
Cette nouvelle version a été conçue en collaboration avec des scientifiques et des chercheurs afin de traiter des problèmes complexes avec des données incomplètes ou sans réponse clairement définie
Elle a atteint un niveau médaille d’or dans diverses olympiades internationales et benchmarks en mathématiques, programmation, physique et chimie
Elle prend en charge la recherche réelle et les applications d’ingénierie, avec des fonctions pratiques comme la génération de modèles imprimables en 3D à partir d’un croquis
Disponible pour les abonnés Google AI Ultra et via le programme d’accès anticipé à l’API Gemini, avec une extension prévue pour les chercheurs et les entreprises

Aperçu principal de Gemini 3 Deep Think

Gemini 3 Deep Think est un mode de raisonnement spécialisé conçu pour relever les défis modernes dans les domaines de la science, de la recherche et de l’ingénierie
- Google a travaillé en étroite collaboration avec des scientifiques et des chercheurs pour renforcer sa capacité à traiter des problèmes sans réponse claire ou avec des données incomplètes
- En combinant connaissances théoriques et utilité pratique en ingénierie, le modèle a évolué vers une approche centrée sur les usages réels
Cette mise à niveau est proposée aux abonnés Google AI Ultra via l’application Gemini, et les chercheurs, ingénieurs et entreprises peuvent demander un accès anticipé via l’API Gemini

Premiers cas d’usage

Lisa Carbone, mathématicienne à Rutgers University, a utilisé Deep Think pour examiner un article de mathématiques lié à la physique des hautes énergies, et a détecté une erreur logique ayant échappé à la relecture humaine
Le Wang Lab de Duke University a optimisé un processus complexe de croissance cristalline pour l’exploration de matériaux semi-conducteurs, en concevant une recette de croissance de film mince de plus de 100 μm
Anupam Pathak, de la division Platforms & Devices de Google, a testé Deep Think pour accélérer la conception de composants physiques

Amélioration de la précision mathématique et algorithmique

Deep Think a obtenu des résultats de niveau médaille d’or à l’Olympiade internationale de mathématiques et à l’International Collegiate Programming Contest
La dernière version a atteint les meilleurs scores sur les benchmarks académiques suivants
- Humanity’s Last Exam : 48,4 % (sans utilisation d’outils)
- ARC-AGI-2 : 84,6 % (vérifié par ARC Prize Foundation)
- Codeforces : Elo 3455
- International Math Olympiad 2025 : niveau médaille d’or
Deep Think est également utilisé pour développer des agents spécialisés capables d’exploration mathématique

Exploration de domaines scientifiques complexes

Au-delà des mathématiques et de la programmation, ses performances progressent aussi dans l’ensemble des sciences, notamment en chimie et en physique
- Dans les épreuves écrites des Olympiades internationales 2025 de physique et de chimie, il a atteint un niveau médaille d’or
- Il a obtenu un score de 50,5 % sur le benchmark de physique théorique CMT-Benchmark
Ces résultats démontrent l’extension des capacités de raisonnement scientifique de Deep Think

Accélération de l’ingénierie réelle

Deep Think prend en charge l’interprétation de données complexes et la modélisation de systèmes physiques, avec pour objectif un usage concret par les chercheurs et les ingénieurs
Son accessibilité dans des environnements de recherche réels est en cours d’extension via l’API Gemini
Par exemple, l’utilisateur peut fournir un croquis pour générer un modèle imprimable en 3D ; Deep Think se charge alors de l’analyse, de la modélisation et de la génération du fichier

Accès et disponibilité

Les abonnés Google AI Ultra peuvent utiliser Deep Think immédiatement dans l’application Gemini
Les chercheurs, ingénieurs et entreprises peuvent demander à participer au programme d’accès anticipé via l’API Gemini
Google espère que Deep Think favorisera l’émergence de nouvelles découvertes scientifiques et de nouveaux cas d’usage

1 commentaires

GN⁺ 2026-02-13

Avis sur Hacker News

Un score de 84,6 % sur Arc-AGI-2, c’est impressionnant
Le billet de blog officiel donne des détails sur Gemini 3 Deep Think
- Depuis un moment déjà, j’ai l’impression que Gemini 3 est incroyablement généraliste (general)
  Il a réussi à gagner à Balatro (ante 8) uniquement à partir d’une description textuelle. Ce n’est pas difficile pour un humain, mais c’est surprenant qu’un LLM y arrive sans entraînement spécifique
  Je l’ai testé sur Balatro Bench, et DeepSeek est totalement incapable de jouer à ce jeu
- Il y a à peine un an, on était encore autour de 1 à 10 % sur ce benchmark, et maintenant on est presque à un niveau qu’on pourrait qualifier d’AGI
- La progression du score ARC-AGI est intéressante, mais c’est exagéré d’y voir un bond de “l’intelligence générale”
  Je plaisante en disant que le G de ARC-AGI veut dire “graphical”. Jusqu’ici, les modèles étaient faibles en raisonnement spatial, et il semble que ce point ait été résolu cette fois
  J’espère qu’ARC-AGI 3 ajoutera des tâches de type jeu fondées sur l’essai-erreur
- Si l’on regarde le classement ARC Prize, le coût actuel est d’environ 13,62 $ par tâche
  En pratique, il faudra sans doute encore 5 à 10 ans avant que le coût d’exécution devienne raisonnable
  Je me demande quand même si le modèle n’est pas surajusté (fitting) au benchmark
- Pour une comparaison équitable, il faudrait le comparer à un modèle de même catégorie, comme GPT-5.x Pro
J’ai l’impression que le rythme de sortie des modèles devient anormalement rapide
Rien qu’aujourd’hui, on a eu Gemini 3 Deep Think et GPT 5.3 Codex Spark, et il y a quelques jours il y avait Opus 4.6, GLM5 et MiniMax M2.5
- La période du Nouvel An chinois semble avoir un effet
  Les labos chinois publient leurs modèles à ce moment-là, et les labos américains semblent se dépêcher de sortir des modèles plus puissants pour éviter un impact du type DeepSeek R1 (20 janvier 2025)
- En ce moment, il y a tellement de modèles qu’il devient difficile même de les distinguer
  Gemini 3 Deep Think ressemble moins à un modèle entièrement nouveau qu’à une version de Gemini 3 Pro avec une couche de raisonnement (subagent) ajoutée par-dessus
  Comme il peut aussi se connecter à des frameworks d’agents externes comme OpenClaw, le débat sur les “workflows d’agents” me paraît exagéré
- Ces dernières semaines ont vraiment été une période de sorties explosives
- En un mot, c’est un Fast takeoff
Google est clairement en train de prendre de l’avance
Beaucoup pensaient qu’ils étaient en retard, mais c’était peut-être au contraire la meilleure stratégie
- Les modèles sont impressionnants, mais la qualité produit est lamentable
  J’ai utilisé Gemini web/CLI pendant deux mois, et il perd le fil du contexte en pleine conversation ; si on lui demande comment améliorer la qualité de l’air, il répond sans contexte en listant simplement des purificateurs d’air
  Il cite même parfois des sites de propagande russe ou bascule en chinois au milieu d’une phrase
  À 20 euros par mois, cette qualité n’est pas acceptable
- En temps normal, Google est lent et bureaucratique, mais le Google en mode guerre travaille à une vitesse impressionnante
- OpenAI va sûrement sortir encore quelque chose quelques heures plus tard, donc cette compétition est amusante
  Ceux qui disaient qu’ARC-AGI-2 marquait la limite des LLM vont maintenant encore déplacer les critères
  L’essentiel des efforts humains va sans doute servir à prouver que “l’IA n’est toujours pas une AGI”
- Malgré tout, en termes d’utilité concrète dans le monde réel, Google reste encore en retard
  Gemini 3 Pro a toujours beaucoup de problèmes
J’utilise Gemini 3 Pro pour un projet de numérisation d’archives historiques
Je scanne des procès-verbaux manuscrits en allemand de 1885 à 1974, puis je les transcris et les traduis page par page
J’ai traité environ 2 370 pages, avec une précision de 95 % et un coût API d’environ 50 $
Une vérification manuelle reste nécessaire, mais le gain de temps est énorme
- Un seul passage pourrait déjà suffire, donc il faudrait peut-être réévaluer l’efficacité globale après relecture
Mon intuition est qu’il existe trois spectres de modèles
sans raisonnement, avec raisonnement et best-of-N (Deep Think, GPT Pro)
La complexité de calcul augmente à peu près de façon linéaire, quadratique puis cubique
Les modèles avec raisonnement peuvent résoudre des problèmes qui nécessitent la rédaction d’un scratchpad
- L’étape suivante sera sans doute un essaim d’agents (agent swarm)
  Un modèle manager recevra le prompt, créera plusieurs sous-agents pour essayer des approches en parallèle, puis évaluera et redistribuera les résultats
- Pour les modèles best-of-N, la capacité à exploiter un long contexte est essentielle
  Depuis la version 2.5, Google gère de manière réellement efficace les longs contextes
  Le concept de pass@N est aussi intéressant, notamment pour les tâches exploratoires où l’on transforme du temps en argent, comme la recherche de failles de sécurité ou les problèmes d’optimisation
- À la question de savoir si un gros modèle sans raisonnement peut égaler un petit modèle avec raisonnement, les modèles d’Anthropic donnent un bon exemple
  Dans cette image, Opus 4.6 montre de hautes performances même sans raisonnement
Le PDF sur la méthodologie d’évaluation de tous les benchmarks est ici
Le score de 84,6 % sur ARC-AGI-2 est basé sur l’ensemble semi-privé,
et si le modèle dépasse 85 % sur l’ensemble privé, il est considéré comme “solved” et reçoit une récompense de 700 K$
Voir le guide ARC Prize
- Vu que le titre du document est “Gemini 3.1 Pro”, il semble qu’une nouvelle version arrive bientôt
- Mais il me paraît difficile de dépasser 85 % sur l’ensemble privé, car cela pourrait indiquer une fuite de données
Les modèles progressent tellement vite en ce moment que je me dis que mon travail pourrait disparaître dans 3 à 5 ans
On dirait que les LLM sont désormais entrés dans une phase où ils s’améliorent eux-mêmes
C’est dommage qu’il ne soit pas sur OpenRouter
En ce moment, les meilleurs modèles Deep Think sont souvent bloqués sur leur propre plateforme
- OpenRouter est bien, mais litellm est une simple bibliothèque Python, donc c’est plus propre
  Voir la documentation litellm
- Mais on a quand même l’impression que l’âge d’or (golden age) est terminé
J’ai toujours eu l’impression que Gemini était un modèle riche en connaissances mais peu flexible
Dès qu’on sort du script prévu, il s’effondre facilement
- En réalité, cette expérience relève peut-être aussi de la capacité d’adaptation de l’utilisateur
  Comme j’utilise les modèles Google depuis longtemps, j’ai eu l’impression que les modèles d’OpenAI étaient bien moins bons
  Inversement, les utilisateurs d’OpenAI auront sans doute la même impression et penseront que leur modèle est le meilleur pour la même raison
- D’une certaine manière, Gemini donne l’impression d’être un modèle qui réfléchit à sa manière
  Je n’ai pas encore pu le tester, mais il se peut que son exécution des consignes se soit améliorée
Je suis surpris par la vitesse à laquelle les modèles progressent
Je pensais qu’on allait bientôt atteindre un mur, mais les nouveaux modèles pulvérisent complètement les benchmarks existants
- Mais comme les entreprises se concentrent sur l’optimisation des scores de benchmark, la corrélation avec les performances réelles diminue de plus en plus

Présentation de Gemini 3 Deep Think

Aperçu principal de Gemini 3 Deep Think

Premiers cas d’usage

Amélioration de la précision mathématique et algorithmique

Exploration de domaines scientifiques complexes

Accélération de l’ingénierie réelle

Accès et disponibilité

À lire aussi

1 commentaires

Avis sur Hacker News