Gemini 3.1 Pro

(blog.google)

4 points par GN⁺ 2026-02-20 | 4 commentaires | Partager sur WhatsApp

Modèle d’IA multimodal avancé conçu pour traiter des tâches complexes, avec pour objectif de résoudre des problèmes au-delà de simples réponses
Sur le benchmark ARC-AGI-2, il a obtenu un score de validation de 77,1 %, atteignant plus du double des performances de raisonnement par rapport à la version 3 Pro précédente
Il démontre de meilleures capacités de raisonnement sur des tâches difficiles comme l’intégration de données, l’explication visuelle et le coding créatif
Il prend en charge divers types d’entrées — texte, audio, image, vidéo, dépôts de code, etc. — avec jusqu’à 1 million de tokens de contexte et une sortie de 64K tokens
Google utilise cette preview pour faire progresser les workflows agentiques et valider le modèle en vue d’une disponibilité générale future

Présentation de Gemini 3.1 Pro

Gemini 3.1 Pro est un modèle d’IA multimodal avancé conçu pour traiter des tâches complexes, avec pour objectif de résoudre des problèmes au-delà de simples réponses
- Google le présente comme la mise à niveau d’intelligence centrale qui a rendu possibles les résultats de Gemini 3 Deep Think
- Il traite des entrées multimodales comme le texte, l’audio, les images, la vidéo et les dépôts de code
- Il prend en charge une fenêtre de contexte allant jusqu’à 1 million de tokens et une sortie de 64K tokens
- Cette version est en cours de déploiement progressif sur les produits grand public, développeurs et entreprises
Les voies de déploiement sont les suivantes
- Développeurs : Gemini API dans Google AI Studio, Gemini CLI, Antigravity, Android Studio
- Entreprises : Vertex AI, Gemini Enterprise
- Grand public : application Gemini, NotebookLM

Performances et benchmarks

Gemini 3.1 Pro est optimisé pour la résolution de problèmes complexes grâce à une amélioration centrée sur les capacités de raisonnement (reasoning)
- Sur le benchmark ARC-AGI-2, il a obtenu un score de validation de 77,1 %, soit plus du double des performances par rapport à la version 3 Pro précédente
- Principaux résultats comparatifs (par rapport à Gemini 3 Pro) :
  - ARC-AGI-2 : 77,1 % (vs 31,1 %)
  - GPQA Diamond : 94,3 % (vs 91,9 %)
  - Terminal-Bench 2.0 : 68,5 % (vs 56,9 %)
  - LiveCodeBench Pro : Elo 2887 (vs 2439)
  - BrowseComp : 85,9 % (vs 59,2 %)
- Ces benchmarks évaluent la capacité du modèle à résoudre des schémas logiques entièrement nouveaux
Google le qualifie de « modèle de base plus intelligent et plus compétent », présenté comme une base pour la résolution de problèmes complexes

Cas d’usage concrets

Gemini 3.1 Pro applique un raisonnement avancé sous une forme pratique, montrant son potentiel dans diverses applications
- Génération d’explications visuelles : capacité à expliquer clairement et visuellement des sujets complexes
- Intégration de données : synthèse de plusieurs ensembles de données dans une vue unifiée
- Réalisation de projets créatifs : mise en œuvre en code d’idées artistiques et de design
Exemples concrets
- Animation basée sur du code : génération d’animations SVG pour sites web à partir de prompts textuels, avec une taille de fichier minimale sans perte de résolution
- Intégration de systèmes complexes : construction d’un tableau de bord visualisant en temps réel l’orbite de la Station spatiale internationale (ISS)
- Design interactif : développement d’une simulation 3D de volées d’étourneaux avec suivi des mains et interface réactive à la musique
- Coding créatif : conception d’un site web de portfolio moderne reflétant l’atmosphère littéraire de Les Hauts de Hurlevent

Déploiement et accès

Gemini 3.1 Pro est proposé sous forme de preview, Google y recueillant les retours des utilisateurs
- Les abonnés Google AI Pro et Ultra bénéficient de limites d’usage plus élevées dans l’application Gemini
- Dans NotebookLM, il est proposé exclusivement aux utilisateurs Pro et Ultra
- Les développeurs et les entreprises peuvent y accéder via AI Studio, Antigravity, Vertex AI, Gemini Enterprise, Gemini CLI et Android Studio

Suite des plans

Depuis le lancement de Gemini 3 Pro, Google maintient un rythme d’amélioration rapide et utilise cette preview de 3.1 Pro pour valider les mises à jour et étendre les workflows agentiques
La disponibilité générale (GA) est prévue après la fin de cette phase de validation, et Google indique qu’il a « hâte de voir ce que les utilisateurs vont créer et découvrir avec ce modèle »

4 commentaires

jwh926 2026-02-20

J’espère qu’il rattrapera vite Claude Opus en performances de codage.

ifmkl 2026-02-20

Oui. Le premier jour où le modèle 3.0 preview est arrivé dans le CLI et que je l’ai utilisé, j’ai tellement aimé que j’en ai même écrit un billet de blog pour partager mes impressions, puis ça s’est rapidement... Du coup, en ce moment, j’utilise surtout codex et claude code. Cela dit, Claude aussi, c’est un peu... Je vais voir si 4.6 Opus ou Sonnet tiennent la route, sinon j’ai bien peur de me fixer sur codex pour le code et Gemini pour les autres tâches.

GN⁺ 2026-02-20

Avis sur Hacker News

Gemini 3.1 Pro suscite vraiment beaucoup d’attentes
Jusqu’ici, j’ai presque toujours eu tendance à préférer Claude, et Claude Opus est particulièrement excellent pour le code
Gemini est lui aussi presque excellent, mais pas encore au niveau de Claude
Je fais tourner mes abonnements chaque mois entre ChatGPT Plus ↔ Gemini Pro ↔ Claude pour ne pas passer à côté des points forts de chaque modèle
En tant qu’ancien de Google, j’espère que Gemini 3.1 Pro sera meilleur que 3.0
Mais pour le développement, Gemini a été le modèle le plus frustrant que j’aie utilisé
Claude Opus, dans VS Code Copilot, offre un bon équilibre entre raisonnement et réponses, alors que Gemini consomme surtout des thinking tokens sans expliquer le résultat
Il entre souvent dans des boucles, utilise mal les outils et modifie parfois les mauvais fichiers
J’ai donc adopté une stratégie « planification avec Gemini, exécution avec Claude », mais au final je n’utilise plus que Claude
Alors qu’Anthropic semble affiner ses modèles autour de projets réels, Google donne l’impression de manquer de tests en conditions d’usage réelles
- Mon projet implique beaucoup de mathématiques liées aux espaces colorimétriques, et Gemini 3 Pro fait souvent des erreurs de type élémentaires
  Il prend un int8 pour un float ou oublie si des valeurs sont normalisées
  Cela donne l’impression d’avoir affaire à quelqu’un avec une mémoire défaillante
  En revanche, il reste assez utile pour discuter d’architecture
- Quand j’utilisais Gemini 3 via Openclaw, cela me coûtait 10 à 20 dollars de l’heure, soit 1,5 à 3 dollars par prompt
  C’était le summum de l’inefficacité
- Les performances d’un modèle dépendent au final surtout du tuning et de l’intégration des outils
  Claude donne l’impression d’avoir appris le « processus même du codage », et Anthropic semble intégrer les retours utilisateurs dans son tuning
  Google, en visant un modèle généraliste, paraît aboutir à quelque chose qui « fait un peu de tout sans rien faire parfaitement »
- Gemini 3.0 était pour moi tout simplement inutilisable
  Claude ou Codex expliquent leur approche d’un problème, tandis que Gemini se contente d’exécuter
  Il ignore les demandes de correction et pollue l’espace de travail
  Je l’utilise à peine, même s’il est disponible gratuitement
  Anthropic semble avoir compris très tôt que « l’utilisateur doit garder le contrôle »
- Gemini est faible pour les tâches agentiques
  OpenAI a rattrapé le niveau de Claude, mais Google en est encore loin
Les gens sous-estiment l’efficacité-coût de Google
C’est moitié moins cher qu’Opus tout en offrant des performances assez bonnes
Selon les mesures d’Artificial Analysis, la 3.1 est 40 % moins chère et 30 % plus rapide qu’Opus
- Mais on peut aussi considérer qu’« une excellente réponse à 2 centimes vaut mieux qu’une réponse banale à 1 centime »
  Pour le développement, même 300 dollars par mois peuvent valoir le coup si l’on utilise le meilleur modèle
  Pour l’IA grand public, ce calcul sera différent
- Bien sûr, si le modèle ne fait pas correctement le travail, être deux fois moins cher ne change rien
  Mais si les performances suivent, l’avantage prix reste attractif
- Si Opus produit du code 20 % meilleur, l’écart est important sur de vrais projets
  Mais si les performances sont comparables, une baisse de coût de 50 % devient un gros atout
- Gemini obtient aussi de bons résultats sur les benchmarks, et les ingénieurs de DeepMind sont excellents
  Personnellement, il fonctionne bien aussi bien pour mon travail que pour mes projets de code perso
  Malgré cela, les critiques très dures de la communauté m’étonnent
- Deepseek ne coûte que 2 % du prix d’Opus, mais la plupart des gens ne l’utilisent quand même pas pour coder
Les modèles actuels sont devenus trop puissants
On peut produire un logiciel complet en beaucoup moins de temps qu’avant
Mais les différences de comportement entre versions sont si fortes qu’on a l’impression de gérer une nouvelle équipe tous les mois
Comme les modèles peuvent être remplacés sans préavis ou changer subtilement, cela ressemble à une base instable
- Opus 4.6 a résolu un problème qu’o4-mini n’avait pas réussi à traiter auparavant
  On peut le voir dans ce ticket sqlite-chronicle
  Il a ensuite débloqué plusieurs points de friction dans d’autres projets
- J’ai utilisé des modèles d’Anthropic, Google et OpenAI, et aucun n’est encore suffisant pour construire un produit complet
  En revanche, ils suffisent pour trouver des idées et lancer une base de code
- Une application créée avec GPT 5.1 codex max fonctionne toujours bien
  Même avec le même code, il semble y avoir une forme d’auto-cohérence : le modèle qui l’a produit le reprend plus facilement
- En pratique, cela ressemble à la gestion d’un « ingénieur génial mais imprévisible »
  Cela reste malgré tout une technologie stupéfiante
- À la formule « embaucher un ingénieur de génie pendant un mois pour le prix d’un repas de sushi », quelqu’un a répondu en plaisantant : « Pour qu’il te fasse une calculatrice ? »
Le prix de Gemini 3.1 Pro ne change pas
2 $/M en entrée et 12 $/M en sortie, comme indiqué dans la documentation officielle
La date de coupure des connaissances est janvier 2025, et un mode « medium thinking » a été ajouté
L’écart de prix avec Opus 4.6 à 5 $/25 $ est important
- Pour utiliser un agent CLI en entreprise, les procédures complexes de Google posent problème
  On se heurte aux règles IAM, à la facturation, à l’identification du bon nom de produit, etc.
  Chez OpenAI ou Anthropic, c’est beaucoup plus simple
  Pourtant, la facture mensuelle reste comparable
- Si les performances de raisonnement long ne s’améliorent pas dans Vendor-Bench 2, je ne compte pas quitter CC
  Anthropic reste en avance grâce à son optimisation full-stack
- Il n’y a toujours pas de minimal reasoning
  Il n’existe pas encore, comme avec Opus 4.6, de modèle rapide et intelligent avec thinking désactivé
- Le tarif semble intéressant, puisqu’il paraît moins cher que Codex
- Une date de coupure des connaissances en janvier 2025 donne une impression de légère ancienneté
Gemini 3 est encore en preview, et la 2.5 doit bientôt être abandonnée
D’après le calendrier officiel de dépréciation, certains modèles s’arrêtent sans même avoir de remplaçant
On peut se demander quand Google sortira enfin un vrai modèle de production
- Je suis d’accord. S’appuyer sur des modèles dépréciés ou jamais vraiment lancés est risqué
  J’ai un système réellement en production, donc cela m’inquiète fortement
- Je pense que vous avez mal lu le lien. Seule la 2.5-preview est dépréciée, la 2.5 stable reste maintenue jusqu’à l’automne 2026
- Google n’abandonnerait quand même jamais un logiciel dont dépendent beaucoup d’utilisateurs, n’est-ce pas ?
  Le site Killed by Google montre à quel point cette phrase sonne creux
- C’est exactement le genre de situation qui fait dire : « ah oui, ça, c’est tellement Google »
- Il n’y a encore aucune annonce de fin de vie pour la 2.5
  Si la 3.0 est en preview, la 2.5 sera probablement maintenue au moins un an
  La documentation officielle précise aussi que « la date exacte de fin sera annoncée après préavis »
Gemini a résolu d’un coup un problème de condition de concurrence entre l’UI et la synchronisation des données
Même Opus 4.6 n’y est parvenu qu’au troisième essai, ce qui m’a surpris
Il est moins verbeux qu’avant et va plus directement à l’essentiel
À l’avenir, je pense utiliser Gemini pour la R&D, puis Opus/Sonnet 4.6 pour finaliser
- De mon côté, j’utilise Opus 4.6 pour la recherche sur le code, GPT 5.3 codex pour l’écriture de code, Gemini pour les algorithmes scientifiques et mathématiques, et Grok pour les questions liées à la sécurité
  Avec un wrapper unifié qui prend en charge plusieurs modèles, on se pose moins la question du choix
  Au final, l’essentiel est de prendre « le modèle le plus adapté à mon problème »
Gemini a répondu parfaitement à la question du lavage auto
La réponse était logique : « si on y va à pied, il n’y a pas de voiture à laver, donc il faut s’y rendre en voiture »
- Comme la question figurait peut-être dans les données d’entraînement, je l’ai remplacée par une question de lavage d’éléphant
  Gemini a expliqué de façon logique qu’il fallait emmener l’éléphant, en détaillant même son raisonnement
  Ses capacités de raisonnement étaient assez impressionnantes
- GPT-OSS-120b a lui aussi donné la bonne réponse à la même question
  En revanche, la remarque de Gemini sur la météo pluvieuse pour laver la voiture était mignonne, mais donnait une impression d’excès de confiance
- L’important n’est pas seulement d’avoir la bonne réponse, mais de savoir si le modèle a vraiment correctement raisonné la cause
- En réalité, Gemini 3 Pro et Flash répondaient déjà correctement à cette question
- Mais les réponses sont tellement verbeuses qu’elles en deviennent fatigantes
Sur le test du « SVG d’un pélican à vélo », Gemini a donné de bons résultats
Voir ce lien vers le résultat
Il semble que ses capacités de génération visuelle se soient améliorées, peut-être grâce à la progression au benchmark ARC-AGI
- Les SVG animés font désormais partie des exemples de base
  Le benchmark lui-même a perdu son sens, et on est entré dans le domaine du goût personnel
  Il faudrait un nouveau benchmark de type « vibe check »
- Le résultat que j’ai obtenu avait un style plus 3D qu’un vrai pélican
  C’est une évolution intéressante
- Mais il échoue encore à mon benchmark SVG personnel, une coupe transversale du cœur humain
  Au final, il faut toujours la main d’un designer humain
- Si les modèles continuent de progresser, ils pourraient peut-être produire des UI temps réel en SVG ou des médias interactifs
- En revanche, d’autres formats vectoriels comme PostScript n’ont pratiquement pas progressé
  C’est probablement parce que Google a optimisé spécifiquement pour le SVG
Le SVG du pélican publié sur le blog de Simon Willison était très réussi, mais sa génération a pris plus de 5 minutes
Cela ressemble à un problème de performance au lancement
- Le problème de Gemini a toujours été sa tendance à « trop vouloir aider »
  On demandait juste un pélican et un vélo, et il ajoutait des nuages, un soleil, un chapeau, etc.
  En code, c’est pareil : il n’arrête pas d’ajouter des refactorings non souhaités et des commentaires
- Ce qui est drôle, c’est que ce genre de tests a poussé Google à investir visiblement beaucoup d’efforts dans la génération de SVG animal+véhicule
  Le tweet de Jeff Dean semble aller dans ce sens
- Je me demande pourquoi les LLM sont si bons en SVG
  Ils sont faibles sur d’autres formes de compréhension spatiale, mais excellent dans la génération de formes précises
- Bientôt, les modèles vont sans doute se battre dans les benchmarks de « génération de SVG de pélican à vélo »
- Le post officiel sur le blog de Google mentionne justement la génération de SVG comme cas d’usage majeur
  Il est donc possible qu’il ne s’agisse pas d’un progrès général, mais du résultat d’un apprentissage explicite

clumsily 2026-02-20

À mon avis, il ne faudra sans doute pas longtemps avant que les performances soient discrètement nerfées, et la vraie question sera surtout de savoir dans quelle mesure. (J’ai l’impression que la plupart des modèles d’IA deviennent plus bêtes avec le temps, mais chez Google, c’est particulièrement flagrant.)
Le 3 Pro aussi était bien juste après sa sortie, mais je me souviens qu’au bout d’environ une semaine, il est soudainement devenu plus bête, au point que j’ai fini par arrêter de l’utiliser.