- Le modèle d’IA de Google Gemini 3 Deep Think, conçu pour la résolution de problèmes en science, recherche et ingénierie, a reçu une mise à niveau majeure
- Cette nouvelle version a été conçue en collaboration avec des scientifiques et des chercheurs afin de traiter des problèmes complexes avec des données incomplètes ou sans réponse clairement définie
- Elle a atteint un niveau médaille d’or dans diverses olympiades internationales et benchmarks en mathématiques, programmation, physique et chimie
- Elle prend en charge la recherche réelle et les applications d’ingénierie, avec des fonctions pratiques comme la génération de modèles imprimables en 3D à partir d’un croquis
- Disponible pour les abonnés Google AI Ultra et via le programme d’accès anticipé à l’API Gemini, avec une extension prévue pour les chercheurs et les entreprises
Aperçu principal de Gemini 3 Deep Think
- Gemini 3 Deep Think est un mode de raisonnement spécialisé conçu pour relever les défis modernes dans les domaines de la science, de la recherche et de l’ingénierie
- Google a travaillé en étroite collaboration avec des scientifiques et des chercheurs pour renforcer sa capacité à traiter des problèmes sans réponse claire ou avec des données incomplètes
- En combinant connaissances théoriques et utilité pratique en ingénierie, le modèle a évolué vers une approche centrée sur les usages réels
- Cette mise à niveau est proposée aux abonnés Google AI Ultra via l’application Gemini, et les chercheurs, ingénieurs et entreprises peuvent demander un accès anticipé via l’API Gemini
Premiers cas d’usage
- Lisa Carbone, mathématicienne à Rutgers University, a utilisé Deep Think pour examiner un article de mathématiques lié à la physique des hautes énergies, et a détecté une erreur logique ayant échappé à la relecture humaine
- Le Wang Lab de Duke University a optimisé un processus complexe de croissance cristalline pour l’exploration de matériaux semi-conducteurs, en concevant une recette de croissance de film mince de plus de 100 μm
- Anupam Pathak, de la division Platforms & Devices de Google, a testé Deep Think pour accélérer la conception de composants physiques
Amélioration de la précision mathématique et algorithmique
- Deep Think a obtenu des résultats de niveau médaille d’or à l’Olympiade internationale de mathématiques et à l’International Collegiate Programming Contest
- La dernière version a atteint les meilleurs scores sur les benchmarks académiques suivants
- Humanity’s Last Exam : 48,4 % (sans utilisation d’outils)
- ARC-AGI-2 : 84,6 % (vérifié par ARC Prize Foundation)
- Codeforces : Elo 3455
- International Math Olympiad 2025 : niveau médaille d’or
- Deep Think est également utilisé pour développer des agents spécialisés capables d’exploration mathématique
Exploration de domaines scientifiques complexes
- Au-delà des mathématiques et de la programmation, ses performances progressent aussi dans l’ensemble des sciences, notamment en chimie et en physique
- Dans les épreuves écrites des Olympiades internationales 2025 de physique et de chimie, il a atteint un niveau médaille d’or
- Il a obtenu un score de 50,5 % sur le benchmark de physique théorique CMT-Benchmark
- Ces résultats démontrent l’extension des capacités de raisonnement scientifique de Deep Think
Accélération de l’ingénierie réelle
- Deep Think prend en charge l’interprétation de données complexes et la modélisation de systèmes physiques, avec pour objectif un usage concret par les chercheurs et les ingénieurs
- Son accessibilité dans des environnements de recherche réels est en cours d’extension via l’API Gemini
- Par exemple, l’utilisateur peut fournir un croquis pour générer un modèle imprimable en 3D ; Deep Think se charge alors de l’analyse, de la modélisation et de la génération du fichier
Accès et disponibilité
- Les abonnés Google AI Ultra peuvent utiliser Deep Think immédiatement dans l’application Gemini
- Les chercheurs, ingénieurs et entreprises peuvent demander à participer au programme d’accès anticipé via l’API Gemini
- Google espère que Deep Think favorisera l’émergence de nouvelles découvertes scientifiques et de nouveaux cas d’usage
1 commentaires
Avis sur Hacker News
Un score de 84,6 % sur Arc-AGI-2, c’est impressionnant
Le billet de blog officiel donne des détails sur Gemini 3 Deep Think
Il a réussi à gagner à Balatro (ante 8) uniquement à partir d’une description textuelle. Ce n’est pas difficile pour un humain, mais c’est surprenant qu’un LLM y arrive sans entraînement spécifique
Je l’ai testé sur Balatro Bench, et DeepSeek est totalement incapable de jouer à ce jeu
Je plaisante en disant que le G de ARC-AGI veut dire “graphical”. Jusqu’ici, les modèles étaient faibles en raisonnement spatial, et il semble que ce point ait été résolu cette fois
J’espère qu’ARC-AGI 3 ajoutera des tâches de type jeu fondées sur l’essai-erreur
En pratique, il faudra sans doute encore 5 à 10 ans avant que le coût d’exécution devienne raisonnable
Je me demande quand même si le modèle n’est pas surajusté (fitting) au benchmark
J’ai l’impression que le rythme de sortie des modèles devient anormalement rapide
Rien qu’aujourd’hui, on a eu Gemini 3 Deep Think et GPT 5.3 Codex Spark, et il y a quelques jours il y avait Opus 4.6, GLM5 et MiniMax M2.5
Les labos chinois publient leurs modèles à ce moment-là, et les labos américains semblent se dépêcher de sortir des modèles plus puissants pour éviter un impact du type DeepSeek R1 (20 janvier 2025)
Gemini 3 Deep Think ressemble moins à un modèle entièrement nouveau qu’à une version de Gemini 3 Pro avec une couche de raisonnement (subagent) ajoutée par-dessus
Comme il peut aussi se connecter à des frameworks d’agents externes comme OpenClaw, le débat sur les “workflows d’agents” me paraît exagéré
Google est clairement en train de prendre de l’avance
Beaucoup pensaient qu’ils étaient en retard, mais c’était peut-être au contraire la meilleure stratégie
J’ai utilisé Gemini web/CLI pendant deux mois, et il perd le fil du contexte en pleine conversation ; si on lui demande comment améliorer la qualité de l’air, il répond sans contexte en listant simplement des purificateurs d’air
Il cite même parfois des sites de propagande russe ou bascule en chinois au milieu d’une phrase
À 20 euros par mois, cette qualité n’est pas acceptable
Ceux qui disaient qu’ARC-AGI-2 marquait la limite des LLM vont maintenant encore déplacer les critères
L’essentiel des efforts humains va sans doute servir à prouver que “l’IA n’est toujours pas une AGI”
Gemini 3 Pro a toujours beaucoup de problèmes
J’utilise Gemini 3 Pro pour un projet de numérisation d’archives historiques
Je scanne des procès-verbaux manuscrits en allemand de 1885 à 1974, puis je les transcris et les traduis page par page
J’ai traité environ 2 370 pages, avec une précision de 95 % et un coût API d’environ 50 $
Une vérification manuelle reste nécessaire, mais le gain de temps est énorme
Mon intuition est qu’il existe trois spectres de modèles
sans raisonnement, avec raisonnement et best-of-N (Deep Think, GPT Pro)
La complexité de calcul augmente à peu près de façon linéaire, quadratique puis cubique
Les modèles avec raisonnement peuvent résoudre des problèmes qui nécessitent la rédaction d’un scratchpad
Un modèle manager recevra le prompt, créera plusieurs sous-agents pour essayer des approches en parallèle, puis évaluera et redistribuera les résultats
Depuis la version 2.5, Google gère de manière réellement efficace les longs contextes
Le concept de pass@N est aussi intéressant, notamment pour les tâches exploratoires où l’on transforme du temps en argent, comme la recherche de failles de sécurité ou les problèmes d’optimisation
Dans cette image, Opus 4.6 montre de hautes performances même sans raisonnement
Le PDF sur la méthodologie d’évaluation de tous les benchmarks est ici
Le score de 84,6 % sur ARC-AGI-2 est basé sur l’ensemble semi-privé,
et si le modèle dépasse 85 % sur l’ensemble privé, il est considéré comme “solved” et reçoit une récompense de 700 K$
Voir le guide ARC Prize
Les modèles progressent tellement vite en ce moment que je me dis que mon travail pourrait disparaître dans 3 à 5 ans
On dirait que les LLM sont désormais entrés dans une phase où ils s’améliorent eux-mêmes
C’est dommage qu’il ne soit pas sur OpenRouter
En ce moment, les meilleurs modèles Deep Think sont souvent bloqués sur leur propre plateforme
Voir la documentation litellm
J’ai toujours eu l’impression que Gemini était un modèle riche en connaissances mais peu flexible
Dès qu’on sort du script prévu, il s’effondre facilement
Comme j’utilise les modèles Google depuis longtemps, j’ai eu l’impression que les modèles d’OpenAI étaient bien moins bons
Inversement, les utilisateurs d’OpenAI auront sans doute la même impression et penseront que leur modèle est le meilleur pour la même raison
Je n’ai pas encore pu le tester, mais il se peut que son exécution des consignes se soit améliorée
Je suis surpris par la vitesse à laquelle les modèles progressent
Je pensais qu’on allait bientôt atteindre un mur, mais les nouveaux modèles pulvérisent complètement les benchmarks existants