- Modèle d’IA multimodal avancé conçu pour traiter des tâches complexes, avec pour objectif de résoudre des problèmes au-delà de simples réponses
- Sur le benchmark ARC-AGI-2, il a obtenu un score de validation de 77,1 %, atteignant plus du double des performances de raisonnement par rapport à la version 3 Pro précédente
- Il démontre de meilleures capacités de raisonnement sur des tâches difficiles comme l’intégration de données, l’explication visuelle et le coding créatif
- Il prend en charge divers types d’entrées — texte, audio, image, vidéo, dépôts de code, etc. — avec jusqu’à 1 million de tokens de contexte et une sortie de 64K tokens
- Google utilise cette preview pour faire progresser les workflows agentiques et valider le modèle en vue d’une disponibilité générale future
Présentation de Gemini 3.1 Pro
- Gemini 3.1 Pro est un modèle d’IA multimodal avancé conçu pour traiter des tâches complexes, avec pour objectif de résoudre des problèmes au-delà de simples réponses
- Google le présente comme la mise à niveau d’intelligence centrale qui a rendu possibles les résultats de Gemini 3 Deep Think
- Il traite des entrées multimodales comme le texte, l’audio, les images, la vidéo et les dépôts de code
- Il prend en charge une fenêtre de contexte allant jusqu’à 1 million de tokens et une sortie de 64K tokens
- Cette version est en cours de déploiement progressif sur les produits grand public, développeurs et entreprises
- Les voies de déploiement sont les suivantes
Performances et benchmarks
- Gemini 3.1 Pro est optimisé pour la résolution de problèmes complexes grâce à une amélioration centrée sur les capacités de raisonnement (reasoning)
- Sur le benchmark ARC-AGI-2, il a obtenu un score de validation de 77,1 %, soit plus du double des performances par rapport à la version 3 Pro précédente
- Principaux résultats comparatifs (par rapport à Gemini 3 Pro) :
- ARC-AGI-2 : 77,1 % (vs 31,1 %)
- GPQA Diamond : 94,3 % (vs 91,9 %)
- Terminal-Bench 2.0 : 68,5 % (vs 56,9 %)
- LiveCodeBench Pro : Elo 2887 (vs 2439)
- BrowseComp : 85,9 % (vs 59,2 %)
- Ces benchmarks évaluent la capacité du modèle à résoudre des schémas logiques entièrement nouveaux
- Google le qualifie de « modèle de base plus intelligent et plus compétent », présenté comme une base pour la résolution de problèmes complexes
Cas d’usage concrets
- Gemini 3.1 Pro applique un raisonnement avancé sous une forme pratique, montrant son potentiel dans diverses applications
- Génération d’explications visuelles : capacité à expliquer clairement et visuellement des sujets complexes
- Intégration de données : synthèse de plusieurs ensembles de données dans une vue unifiée
- Réalisation de projets créatifs : mise en œuvre en code d’idées artistiques et de design
- Exemples concrets
- Animation basée sur du code : génération d’animations SVG pour sites web à partir de prompts textuels, avec une taille de fichier minimale sans perte de résolution
- Intégration de systèmes complexes : construction d’un tableau de bord visualisant en temps réel l’orbite de la Station spatiale internationale (ISS)
- Design interactif : développement d’une simulation 3D de volées d’étourneaux avec suivi des mains et interface réactive à la musique
- Coding créatif : conception d’un site web de portfolio moderne reflétant l’atmosphère littéraire de Les Hauts de Hurlevent
Déploiement et accès
- Gemini 3.1 Pro est proposé sous forme de preview, Google y recueillant les retours des utilisateurs
- Les abonnés Google AI Pro et Ultra bénéficient de limites d’usage plus élevées dans l’application Gemini
- Dans NotebookLM, il est proposé exclusivement aux utilisateurs Pro et Ultra
- Les développeurs et les entreprises peuvent y accéder via AI Studio, Antigravity, Vertex AI, Gemini Enterprise, Gemini CLI et Android Studio
Suite des plans
- Depuis le lancement de Gemini 3 Pro, Google maintient un rythme d’amélioration rapide et utilise cette preview de 3.1 Pro pour valider les mises à jour et étendre les workflows agentiques
- La disponibilité générale (GA) est prévue après la fin de cette phase de validation, et Google indique qu’il a « hâte de voir ce que les utilisateurs vont créer et découvrir avec ce modèle »
4 commentaires
J’espère qu’il rattrapera vite Claude Opus en performances de codage.
Oui. Le premier jour où le modèle 3.0 preview est arrivé dans le CLI et que je l’ai utilisé, j’ai tellement aimé que j’en ai même écrit un billet de blog pour partager mes impressions, puis ça s’est rapidement... Du coup, en ce moment, j’utilise surtout codex et claude code. Cela dit, Claude aussi, c’est un peu... Je vais voir si 4.6 Opus ou Sonnet tiennent la route, sinon j’ai bien peur de me fixer sur codex pour le code et Gemini pour les autres tâches.
Avis sur Hacker News
Gemini 3.1 Pro suscite vraiment beaucoup d’attentes
Jusqu’ici, j’ai presque toujours eu tendance à préférer Claude, et Claude Opus est particulièrement excellent pour le code
Gemini est lui aussi presque excellent, mais pas encore au niveau de Claude
Je fais tourner mes abonnements chaque mois entre ChatGPT Plus ↔ Gemini Pro ↔ Claude pour ne pas passer à côté des points forts de chaque modèle
En tant qu’ancien de Google, j’espère que Gemini 3.1 Pro sera meilleur que 3.0
Mais pour le développement, Gemini a été le modèle le plus frustrant que j’aie utilisé
Claude Opus, dans VS Code Copilot, offre un bon équilibre entre raisonnement et réponses, alors que Gemini consomme surtout des thinking tokens sans expliquer le résultat
Il entre souvent dans des boucles, utilise mal les outils et modifie parfois les mauvais fichiers
J’ai donc adopté une stratégie « planification avec Gemini, exécution avec Claude », mais au final je n’utilise plus que Claude
Alors qu’Anthropic semble affiner ses modèles autour de projets réels, Google donne l’impression de manquer de tests en conditions d’usage réelles
Il prend un int8 pour un float ou oublie si des valeurs sont normalisées
Cela donne l’impression d’avoir affaire à quelqu’un avec une mémoire défaillante
En revanche, il reste assez utile pour discuter d’architecture
C’était le summum de l’inefficacité
Claude donne l’impression d’avoir appris le « processus même du codage », et Anthropic semble intégrer les retours utilisateurs dans son tuning
Google, en visant un modèle généraliste, paraît aboutir à quelque chose qui « fait un peu de tout sans rien faire parfaitement »
Claude ou Codex expliquent leur approche d’un problème, tandis que Gemini se contente d’exécuter
Il ignore les demandes de correction et pollue l’espace de travail
Je l’utilise à peine, même s’il est disponible gratuitement
Anthropic semble avoir compris très tôt que « l’utilisateur doit garder le contrôle »
OpenAI a rattrapé le niveau de Claude, mais Google en est encore loin
Les gens sous-estiment l’efficacité-coût de Google
C’est moitié moins cher qu’Opus tout en offrant des performances assez bonnes
Selon les mesures d’Artificial Analysis, la 3.1 est 40 % moins chère et 30 % plus rapide qu’Opus
Pour le développement, même 300 dollars par mois peuvent valoir le coup si l’on utilise le meilleur modèle
Pour l’IA grand public, ce calcul sera différent
Mais si les performances suivent, l’avantage prix reste attractif
Mais si les performances sont comparables, une baisse de coût de 50 % devient un gros atout
Personnellement, il fonctionne bien aussi bien pour mon travail que pour mes projets de code perso
Malgré cela, les critiques très dures de la communauté m’étonnent
Les modèles actuels sont devenus trop puissants
On peut produire un logiciel complet en beaucoup moins de temps qu’avant
Mais les différences de comportement entre versions sont si fortes qu’on a l’impression de gérer une nouvelle équipe tous les mois
Comme les modèles peuvent être remplacés sans préavis ou changer subtilement, cela ressemble à une base instable
On peut le voir dans ce ticket sqlite-chronicle
Il a ensuite débloqué plusieurs points de friction dans d’autres projets
En revanche, ils suffisent pour trouver des idées et lancer une base de code
Même avec le même code, il semble y avoir une forme d’auto-cohérence : le modèle qui l’a produit le reprend plus facilement
Cela reste malgré tout une technologie stupéfiante
Le prix de Gemini 3.1 Pro ne change pas
2 $/M en entrée et 12 $/M en sortie, comme indiqué dans la documentation officielle
La date de coupure des connaissances est janvier 2025, et un mode « medium thinking » a été ajouté
L’écart de prix avec Opus 4.6 à 5 $/25 $ est important
On se heurte aux règles IAM, à la facturation, à l’identification du bon nom de produit, etc.
Chez OpenAI ou Anthropic, c’est beaucoup plus simple
Pourtant, la facture mensuelle reste comparable
Anthropic reste en avance grâce à son optimisation full-stack
Il n’existe pas encore, comme avec Opus 4.6, de modèle rapide et intelligent avec thinking désactivé
Gemini 3 est encore en preview, et la 2.5 doit bientôt être abandonnée
D’après le calendrier officiel de dépréciation, certains modèles s’arrêtent sans même avoir de remplaçant
On peut se demander quand Google sortira enfin un vrai modèle de production
J’ai un système réellement en production, donc cela m’inquiète fortement
Le site Killed by Google montre à quel point cette phrase sonne creux
Si la 3.0 est en preview, la 2.5 sera probablement maintenue au moins un an
La documentation officielle précise aussi que « la date exacte de fin sera annoncée après préavis »
Gemini a résolu d’un coup un problème de condition de concurrence entre l’UI et la synchronisation des données
Même Opus 4.6 n’y est parvenu qu’au troisième essai, ce qui m’a surpris
Il est moins verbeux qu’avant et va plus directement à l’essentiel
À l’avenir, je pense utiliser Gemini pour la R&D, puis Opus/Sonnet 4.6 pour finaliser
Avec un wrapper unifié qui prend en charge plusieurs modèles, on se pose moins la question du choix
Au final, l’essentiel est de prendre « le modèle le plus adapté à mon problème »
Gemini a répondu parfaitement à la question du lavage auto
La réponse était logique : « si on y va à pied, il n’y a pas de voiture à laver, donc il faut s’y rendre en voiture »
Gemini a expliqué de façon logique qu’il fallait emmener l’éléphant, en détaillant même son raisonnement
Ses capacités de raisonnement étaient assez impressionnantes
En revanche, la remarque de Gemini sur la météo pluvieuse pour laver la voiture était mignonne, mais donnait une impression d’excès de confiance
Sur le test du « SVG d’un pélican à vélo », Gemini a donné de bons résultats
Voir ce lien vers le résultat
Il semble que ses capacités de génération visuelle se soient améliorées, peut-être grâce à la progression au benchmark ARC-AGI
Le benchmark lui-même a perdu son sens, et on est entré dans le domaine du goût personnel
Il faudrait un nouveau benchmark de type « vibe check »
C’est une évolution intéressante
Au final, il faut toujours la main d’un designer humain
C’est probablement parce que Google a optimisé spécifiquement pour le SVG
Le SVG du pélican publié sur le blog de Simon Willison était très réussi, mais sa génération a pris plus de 5 minutes
Cela ressemble à un problème de performance au lancement
On demandait juste un pélican et un vélo, et il ajoutait des nuages, un soleil, un chapeau, etc.
En code, c’est pareil : il n’arrête pas d’ajouter des refactorings non souhaités et des commentaires
Le tweet de Jeff Dean semble aller dans ce sens
Ils sont faibles sur d’autres formes de compréhension spatiale, mais excellent dans la génération de formes précises
Il est donc possible qu’il ne s’agisse pas d’un progrès général, mais du résultat d’un apprentissage explicite
À mon avis, il ne faudra sans doute pas longtemps avant que les performances soient discrètement nerfées, et la vraie question sera surtout de savoir dans quelle mesure. (J’ai l’impression que la plupart des modèles d’IA deviennent plus bêtes avec le temps, mais chez Google, c’est particulièrement flagrant.)
Le 3 Pro aussi était bien juste après sa sortie, mais je me souviens qu’au bout d’environ une semaine, il est soudainement devenu plus bête, au point que j’ai fini par arrêter de l’utiliser.