Gemini 3.5 Flash
(blog.google)- Gemini 3.5 Flash est le premier modèle Gemini 3.5 à combiner une intelligence de niveau frontier et des capacités d’exécution, avec pour cible les tâches longues des agents et du codage
- Tout en conservant la vitesse de la série Flash, il dépasse Gemini 3.1 Pro sur Terminal-Bench 2.1 avec 76,2 % et sur GDPval-AA avec 1656 Elo
- En débit de sortie en tokens par seconde, il est 4 fois plus rapide que les autres modèles frontier, et coûte souvent moins de la moitié, ce qui le rend avantageux pour les tâches agentiques de longue durée
- Dans Antigravity et AI Studio, il exécute des tâches en plusieurs étapes comme le développement d’applications, la migration de code legacy vers Next.js, l’implémentation d’un jeu à partir d’un article de recherche et la création de maquettes UX
- Il est proposé comme modèle par défaut dans l’app Gemini et le mode IA de Search, s’applique aussi à Gemini Spark et aux workflows de partenaires d’entreprise, tandis que 3.5 Pro est prévu pour le mois prochain
Annonce de Gemini 3.5 et périmètre de disponibilité
- Gemini 3.5 est la dernière famille de modèles à associer intelligence de niveau frontier et capacités d’exécution, pensée comme une base pour créer des agents plus compétents
- Le premier modèle lancé est 3.5 Flash, qui offre des performances de niveau frontier pour les agents et le codage, en se concentrant sur des tâches longues et complexes réellement utiles
- 3.5 Flash est disponible via plusieurs produits Google et outils pour développeurs
- Pour le grand public, via l’app Gemini et le mode IA de Google Search
- Pour les développeurs, via Google Antigravity, l’API Gemini de Google AI Studio et Android Studio
- Pour les entreprises, via Gemini Enterprise Agent Platform et Gemini Enterprise
- 3.5 Pro est également en cours de développement, déjà utilisé en interne, avec une sortie prévue le mois prochain
Performances de 3.5 Flash
- 3.5 Flash conserve la vitesse de la série Flash tout en offrant une intelligence capable de rivaliser avec de grands modèles flagship sur plusieurs dimensions
- C’est le modèle de codage agentique le plus puissant de Google, devant Gemini 3.1 Pro sur des benchmarks difficiles de codage et d’agents
- Terminal-Bench 2.1 : 76,2 %
- GDPval-AA : 1656 Elo
- MCP Atlas : 83,6 %
- Compréhension multimodale CharXiv Reasoning : 84,2 %
- Son débit de traitement, mesuré en tokens de sortie par seconde, est 4 fois plus rapide que celui des autres modèles frontier
- Dans les métriques d’Artificial Analysis, il se situe dans le quadrant supérieur droit, montrant un modèle qui réduit le compromis entre qualité et latence
Travaux agentiques à grande échelle
- Grâce à son équilibre entre vitesse et performances, 3.5 Flash convient aux tâches agentiques de longue durée
- Il aide à achever en moins de temps des travaux qui demandaient auparavant plusieurs jours à des développeurs et plusieurs semaines à des auditeurs, souvent pour moins de la moitié du coût des autres modèles frontier
- Il permet de planifier, construire et itérer rapidement dans la résolution de problèmes réels
- Développement de nouvelles applications
- Maintenance de codebases
- Aide à la préparation de documents financiers
- Combiné au harness Antigravity mis à jour, il devient un moteur d’exécution capable de déployer des sous-agents collaboratifs pour traiter à grande échelle des cas d’usage exigeants
- Il exécute de façon fiable des workflows en plusieurs étapes et des tâches de codage sous supervision, tout en maintenant des performances de niveau frontier
Exemples d’usage avec Antigravity et AI Studio
- 3.5 Flash exécute dans Antigravity des workflows en plusieurs étapes pour renommer et classer automatiquement des actifs non structurés selon des critères dynamiques
- Dans Antigravity, il utilise deux agents pour synthétiser l’article AlphaZero et coder un jeu entièrement jouable en moins de 6 heures
- Avec le harness Antigravity, il convertit une codebase legacy complexe vers Next.js
- Dans Antigravity, il utilise des sous-agents pour générer un nouveau paysage urbain et développer un jeu via une boucle rapide d’auto-amélioration entre un agent builder et un agent player
- En s’appuyant sur les solides capacités multimodales de Gemini 3, 3.5 Flash génère des interfaces web et des graphismes plus riches et plus interactifs
- Dans AI Studio, il génère une animation interactive pour un article de recherche en IA
- Dans AI Studio, il transforme une simple description textuelle en matériel interactif
- Dans AI Studio, il exécute plusieurs concepts en parallèle afin de créer un concept de branding complet pour une collecte de fonds scolaire
- Dans AI Studio, il génère en 60 secondes différentes approches UX pour un parcours de checkout
Usages en entreprise et chez les développeurs
- Les capacités agentiques de 3.5 Flash sont déjà utilisées dans les workflows des développeurs et des entreprises
- Lors du développement de la famille Gemini 3.5, Google a travaillé avec des partenaires industriels pour identifier les points où apparaissent répétition des tâches et complexité
- Les partenaires constatent déjà des effets, de l’automatisation de workflows de plusieurs semaines dans la banque et la fintech jusqu’à l’aide apportée aux équipes data science pour trouver des insights dans des environnements de données complexes
-
Shopify
- Exécute des sous-agents en parallèle pour analyser sur la durée des données complexes et produire des prévisions de croissance des marchands plus précises à l’échelle mondiale
-
Macquarie Bank
- Pilote une approche qui raisonne sur des documents complexes de plus de 100 pages, recherche les informations pertinentes et produit des recommandations fiables à faible latence afin d’accélérer l’onboarding client
-
Salesforce
- Intègre 3.5 Flash à Agentforce afin d’automatiser des tâches d’entreprise complexes à l’aide de plusieurs sous-agents capables de conserver le contexte et d’exécuter des appels d’outils complexes sur plusieurs tours
-
Ramp
- Combine compréhension multimodale de factures complexes et raisonnement sur des schémas passés pour prendre en charge un OCR plus intelligent et plus fiable
-
Xero
- Permet à des agents de gérer de façon autonome des workflows complexes sur plusieurs semaines, comme l’identification des fournisseurs et la collecte d’informations pour les formulaires fiscaux 1099, afin d’automatiser les tâches administratives répétitives des petites entreprises
-
Databricks
- Utilise des workflows agentiques pour surveiller et rechercher des informations en temps réel, raisonner sur de vastes jeux de données, diagnostiquer des problèmes et proposer des correctifs et des solutions
Agents IA personnels et intégration à Search
- 3.5 Flash devient le modèle par défaut dans l’app Gemini et le mode IA de Search à l’échelle mondiale
- Lors de Google I/O, de nouvelles fonctions appliquant les capacités agentiques de 3.5 Flash à la vie quotidienne ont été dévoilées
- Gemini Spark est un agent IA personnel utilisant 3.5 Flash
- Il fonctionne 24 heures sur 24
- Il navigue dans la vie numérique de l’utilisateur selon ses instructions et agit en son nom
- Son déploiement auprès de testeurs de confiance commence dès aujourd’hui
- Il doit être proposé en bêta la semaine prochaine aux abonnés Google AI Ultra aux États-Unis
- Les capacités renforcées de codage agentique de 3.5 Flash apportent des expériences plus intelligentes à Search
- Introduction d’un nouvel agent d’information fonctionnant 24 heures sur 24 pour l’utilisateur
- Possibilité d’expériences d’interface générative plus dynamiques
- Search utilise 3.5 Flash pour générer des visuels interactifs expliquant le motif Gyroid
Garde-fous
- Gemini 3.5 est développé conformément au Frontier Safety Framework
- Les garde-fous de cybersécurité et CBRN ont été renforcés, réduisant à la fois la probabilité de générer des contenus nuisibles et celle de refuser à tort des requêtes sûres
- De nouvelles techniques, plus avancées, d’apprentissage de la sécurité et d’atténuation ont été appliquées
- Des outils d’interprétabilité sont inclus pour aider à examiner et comprendre le raisonnement interne de l’IA avant de fournir une réponse
1 commentaires
Avis sur Hacker News
Le pélican est plutôt convaincant : https://github.com/simonw/llm-gemini/issues/133#issuecomment...
En revanche, le vélo n’est pas terrible. Il manque la barre entre les pédales et la roue arrière, et les autres parties du cadre sont bizarrement emmêlées
Et en plus, ça coûte cher. Ce pélican à lui seul revenait à 13 cents : https://www.llm-prices.com/#it=11&ot=14403&sel=gemini-3.5-fl...
Cet exemple est clairement bien meilleur et les détails sont absurdement nombreux, mais la forme de base du cadre reste fausse. On voit le même schéma avec des pages web aussi : ils ajoutent davantage de choses, comme des boutons
J’ai même essayé de donner le SVG du pélican cassé à un modèle d’image pour lui faire détecter les défauts, et il n’a toujours pas su repérer les éléments cassés
https://www.gianlucagimini.it/portfolio-item/velocipedia/
Prix par million de tokens en entrée/sortie :
Gemini 2.5 Flash: $0.30/$2.50
Gemini 3.0 Flash Preview: $0.50/$3.00
Gemini 3.5 Flash: $1.50/$9.00
L’évolution des prix est intéressante. Je ne crois pas avoir déjà vu une hausse de prix par 3 sur le modèle suivant de même taille, et le fait que la version 3 n’ait existé qu’en Preview est assez drôle
Gemini 3.5 Flash coûte à peu près autant que Gemini 2.5 Pro, qui était à $1.25/$10
Gemini 2.5 Flash(27 points): $172(1.0x)
Gemini 2.5 Pro(35 points): $649(3.8x)
Gemini 3.0 Flash(46 points): $278(1.6x)
Gemini 3.5 Flash(55 points): $1,552(9.0x, ou 2.4x par rapport à 2.5 Pro)
C’est une hausse de prix énorme. Par rapport à Gemini 3.0 Flash, c’est 5.6x
C’est pour ça qu’avoir une couche d’abstraction qui évite d’être lié à un fournisseur a vraiment du sens. Si vous utilisez Kotlin, Koog est excellent
Ou alors ils se disent qu’avec de bons benchmarks, ils peuvent augmenter les prix. Mais ils ne semblent pas encore avoir une part de marché suffisante pour justifier ce genre de décision
https://ai.google.dev/gemini-api/docs/models/gemini-3.5-flas...
Le fait que Google ait marqué ce modèle Stable plutôt que Preview mérite qu’on s’y attarde. C’est inhabituel au regard de leurs sorties récentes
En ajoutant à cela une hausse de prix par 3, le tarif de Flash ressemble moins à une mesure temporaire qui sera plus tard annulée qu’au plancher de long terme visé par Google
En revanche, il est encore difficile de dire si c’est simplement Google qui a mieux lu l’ambiance, ou si tout le secteur est en train de redéfinir discrètement le niveau de base de l’inférence low-cost
https://gistpreview.github.io/?3496285c5dac5ba10ebbc0b201a1a...
Gemini 2.5 Pro - 5,325 tokens:
https://gistpreview.github.io/?cc5e0fefeaaffecd228c16c95e736...
Gemini 2.5 Flash - 7,556 tokens:
https://gistpreview.github.io/?263d6058fe526a62b8f270f0620ec...
Gemma 4 31B IT - 3,261 tokens dans AI Studio :
https://gistpreview.github.io/?858a42b96af864859a3b89508619d...
Gemma 4 26B A4B IT - 4,034 tokens dans AI Studio :
https://gistpreview.github.io/?4adb7703897e0c6b583f9de928e4a...
8112 tokens @ 52.97 TPS, 0.85s TTFT
https://gistpreview.github.io/?7bdefff99aca89d1bc12405323bd4...
Session complète : https://gist.github.com/abtinf/7bdefff99aca89d1bc12405323bd4...
Généré avec LM Studio sur un Macbook Pro M2 Max
https://huggingface.co/hesamation/Qwen3.6-35B-A3B-Claude-4.6...
https://gistpreview.github.io/?557f979c82701862bc26d24f10399...
https://claude.ai/public/artifacts/128ebe5a-add7-406a-9bce-6...
Est-ce que je suis vraiment devenu si vieux que, quand quelqu’un dit "Flash", je pense immédiatement à "essayez plutôt HTML5" ?
Flash, ah, ah, saviour of the universe. Flash, ah, ah, he'll save every one of us!
Depuis je ne sais même plus combien d’années, chaque fois que j’entends le mot "flash", c’est toujours à ça que je pense
Date de connaissance : janvier 2025
Dernière mise à jour : mai 2026
J’ai un très mauvais pressentiment à propos de ce décalage
Donc, pour obtenir un raisonnement de meilleure qualité, il faut concentrer l’entraînement, avec des données très haut de gamme et très denses
Si l’usage des outils est fort, le fait que le modèle s’appuie sur des données anciennes n’a peut-être pas tant d’importance, puisqu’il peut aller chercher des informations récentes. Mais actuellement, la plupart des modèles ne le font pas sans un petit guidage
Si je comprends bien, toute la famille Qwen 3 part du même modèle de base et n’améliore différentes métriques que via fine-tuning / post-training. Toute la famille Gemini 3 pourrait être construite de la même manière, et ils sont peut-être en train d’entraîner en parallèle des modèles basés sur Gemini 4 avec des connaissances à jour
J’utilise le google ai pro plan et j’ai essayé 3.5 Flash dans Antigravity, et j’ai épuisé tout mon quota en deux prompts. Si ce n’est pas un bug, c’est vraiment inutilisable
À en juger par l’ambiance sur le subreddit Gemini, la baisse a l’air bien plus sévère qu’avant. Je vais probablement annuler AI Pro moi aussi
Cette mise à jour a aussi cassé l’app. Si on modifie un message, l’app plante à chaque fois. Et ça m’arrive alors même que je suis sur un Pixel
L’horloge 2000 tokens de Gemini 3.5 Flash n’est pas mal du tout. https://clocks.brianmoore.com/
Une hausse de prix par 3 pour des modèles quasiment équivalents. On nous avait pourtant dit que l’IA allait devenir moins chère et omniprésente
Les prix sont absurdes
Gemini 3.5 Pro va probablement augmenter aussi. 12 x 5 = 60 ?
On dirait que Google veut qu’on utilise des modèles chinois