Gemini 3 Flash : une intelligence de pointe conçue pour la vitesse

(blog.google)

4 points par GN⁺ 2025-12-18 | 1 commentaires | Partager sur WhatsApp

Gemini 3 Flash est le dernier modèle d’IA de Google, offrant une intelligence de niveau frontier avec une grande rapidité et un faible coût
Il conserve des capacités de raisonnement au niveau de Gemini 3 Pro tout en combinant la latence et l’efficacité de la série Flash, afin de prendre en charge les tâches du quotidien et les workflows agentiques
Il surpasse Gemini 2.5 Pro sur des benchmarks majeurs comme GPQA Diamond 90.4%, Humanity’s Last Exam 33.7% et MMMU Pro 81.2%
Les développeurs peuvent y accéder via Google AI Studio, Gemini CLI, Antigravity, Vertex AI, tandis que le grand public peut l’utiliser gratuitement via l’application Gemini et le mode IA de la recherche
Il redéfinit l’équilibre entre vitesse, coût et intelligence, et s’impose comme un modèle extensible aussi bien pour les grands volumes d’utilisateurs que pour les environnements d’entreprise

Présentation de Gemini 3 Flash

Gemini 3 Flash est une extension de la famille de modèles Gemini 3, un modèle de nouvelle génération maximisant la vitesse et l’efficacité
- Il a été dévoilé après Gemini 3 Pro et le mode Deep Think, et plus de 1 trillion de tokens par jour sont déjà traités via l’API
- Divers cas d’usage ont été rapportés, comme l’apprentissage de sujets complexes, la conception de jeux interactifs et la compréhension de contenus multimodaux
Il conserve les capacités avancées de raisonnement, de compréhension visuelle et de codage agentique de Gemini 3, tout en y ajoutant la latence et l’efficacité coût de Flash
Il a été conçu comme un modèle optimisé pour améliorer la précision des tâches du quotidien et pour les workflows agentiques

Performances et benchmarks

Gemini 3 Flash démontre que la vitesse et l’échelle ne se font pas au détriment de l’intelligence
- Avec GPQA Diamond 90.4%, Humanity’s Last Exam 33.7% (sans outils) et MMMU Pro 81.2%, il affiche des performances comparables à celles des grands modèles
- Il enregistre des résultats supérieurs à Gemini 2.5 Pro sur de nombreux benchmarks
Il repousse la frontière de Pareto entre qualité, coût et vitesse
- Sur les tâches complexes, il réfléchit plus longtemps, tout en maintenant de hautes performances avec 30% de tokens utilisés en moins en moyenne sur le trafic courant
Selon Artificial Analysis, il est 3 fois plus rapide que 2.5 Pro, pour un coût de $0.50 par million de tokens en entrée et $3.00 en sortie
- L’entrée audio coûte $1.00 par million de tokens

Fonctionnalités pour les développeurs

Il offre des performances de codage à faible latence adaptées au développement itératif et aux workflows à haute fréquence
- Sur le benchmark SWE-bench Verified, il obtient un score de 78%, dépassant à la fois la série 2.5 et Gemini 3 Pro
Il excelle dans les tâches multimodales complexes comme l’analyse vidéo, l’extraction de données et les questions-réponses visuelles
- Il prend en charge la création d’applications intelligentes pour l’assistance en jeu en temps réel, les tests A/B ou l’automatisation du design
Des entreprises comme JetBrains, Bridgewater Associates et Figma l’ont déjà adopté, avec une disponibilité via Vertex AI et Gemini Enterprise

Fonctionnalités pour le grand public

Il remplace 2.5 Flash comme modèle par défaut de l’application Gemini et est disponible gratuitement pour les utilisateurs du monde entier
- Ses capacités de raisonnement multimodal sont renforcées, notamment pour générer des plans d’action concrets à partir d’analyses vidéo ou image
- Exemples : analyse d’un swing de golf, reconnaissance de dessins, création de quiz personnalisés à partir d’audio
Il permet de créer un prototype d’application à la voix uniquement, afin que même des non-spécialistes puissent concevoir rapidement une app
Il devient aussi le modèle par défaut dans le mode IA de la recherche
- En s’appuyant sur la capacité de raisonnement de Gemini 3 Pro, il analyse finement le contexte des questions et fournit des réponses organisées visuellement avec des informations en temps réel
- Il est particulièrement à l’aise avec les objectifs en plusieurs étapes, comme la planification de voyages complexes ou l’apprentissage de notions pédagogiques

Accès et déploiement

Pour les développeurs : disponible en preview dans Google AI Studio, Gemini CLI, Antigravity, Vertex AI et Gemini Enterprise
Pour le grand public : déploiement progressif à l’échelle mondiale dans l’application Gemini et le mode IA de Google Search
Gemini 3 Flash vient renforcer, aux côtés de Gemini 3 Pro et Deep Think, les piliers majeurs de la famille Gemini 3

1 commentaires

GN⁺ 2025-12-18

Commentaires Hacker News

Il ne faut pas se laisser tromper par le nom « Flash ». Ce modèle affiche des performances vraiment étonnantes
Je l’utilise depuis quelques semaines : il est rapide et sa couverture des connaissances est large, donc bien plus efficace que Claude Opus 4.5 ou GPT 5.2 Extra High. Le temps de raisonnement et le coût sont presque divisés par dix
- J’ai aussi lancé mes propres benchmarks, et parmi 2.5 Flash, 2.5 Pro et 3.0 Flash, c’est 3.0 Flash qui s’en est le mieux sorti
  Le temps de réponse reste le même, mais les résultats sont bien meilleurs. Le rapport qualité-prix est dingue
  Je me demande quelle différence technique Google a introduite entre les modèles Pro et Flash pour obtenir ce niveau de performance
  Pour info, j’utilise souvent l’API Gemini et j’aime tester chaque nouveau modèle avec mes benchmarks internes
- Je suis un sceptique de la GenAI. Je teste souvent des sujets complexes ou de niche, et la plupart des modèles donnent des réponses catastrophiques
  Pourtant, Gemini 3 Flash est le premier à avoir donné une réponse presque juste à l’une de mes questions de benchmark très spécifiques
  L’échantillon reste limité, mais l’amélioration de la précision est clairement visible
- Je pense qu’OpenAI a commis une grosse erreur en négligeant les modèles de raisonnement rapides
  La stratégie qui consiste à vouloir tout résoudre avec un seul GPT 5 est un échec.
  Je teste Gemini 3 Flash en ce moment, et il fait mieux que GPT 5 Thinking à la fois en latence et en performances
  OpenAI devrait se concentrer sur des modèles utiles en pratique plutôt que sur la publicité
- D’après les benchmarks, Flash est faible sur les hallucinations, mais il reste globalement supérieur à Gemini 3 Pro ou GPT 5.1 Thinking
  Les résultats détaillés sont disponibles sur la page d’évaluation d’Artificial Analysis
- Le moment viendra peut-être où les entreprises ayant surinvesti dans OpenAI le regretteront. Nvidia fera peut-être exception, mais Microsoft s’en souciera sans doute moins puisqu’il vend les modèles via Azure
Cette sortie est appréciable parce qu’elle semble utilisable directement en production, sans passer par une preview
Mais les hausses de prix continuent
Par exemple, Gemini 1.5 Flash coûtait $0.075/M en entrée, contre jusqu’à $0.50/M pour 3.0 Flash
Le modèle Pro est à environ $2/M en entrée et $12/M en sortie
Correction : ce modèle aussi est une version preview
- Personnellement, je suis plutôt curieux de voir les performances et le prix de Gemini 3 Flash Lite quand il sortira
  Pour la plupart des usages hors code, la différence entre Flash et Flash Lite peut être plus importante que celle avec Pro
- Merci pour ce récapitulatif des prix. Gemini 3.0 semble tellement performant qu’ils affichent sans doute une tarification assez confiante
  Mais la concurrence est féroce, donc j’imagine qu’un modèle moins cher à performances comparables arrivera bientôt
- Si on active le mode Thinking, la consommation de tokens change, donc il faut en tenir compte dans le calcul du coût réel
- GPT-5 Mini coûte $0.25/M en entrée et $2/M en sortie, donc l’entrée est deux fois moins chère que Flash et la sortie 50 % moins chère
On a vraiment l’impression que Google a réussi à réunir vitesse, prix et qualité
Si on ajoute l’intégration à Android et à G Suite, c’est une combinaison énorme
Cela ressemble probablement à une stratégie pour lancer un smartphone AI-first avant le projet matériel OpenAI–Jony Ive ou Apple Intelligence
- Mais dans l’usage réel, cela dépend des cas.
  Par exemple, Gemini 3 Pro est lent et échoue souvent même sur de simples appels à l’outil Edit
  Là où Claude-Code termine la même tâche en 5 minutes, Gemini en met 27
- D’après un article de MacRumors, Apple Intelligence devrait reposer sur Gemini
- Cela dit, je me demande encore à quoi servira vraiment l’IA sur smartphone.
  Je pense plutôt qu’une tablette ou des lunettes connectées seraient plus adaptées pour exploiter une smol AI
Gemini 3 Flash (non-thinking) est le premier modèle à obtenir 50 % à mon « test du nombre de pattes du chien »
Quand je lui montre une image composite avec 5 pattes, la plupart des modèles répondent 4, mais 3 Flash répond correctement 5
Il n’a compté juste que lorsque j’ai ajouté des tatouages sur les pattes ; sans tatouages, il répond encore 4
Ça mérite bien la moitié des points
Les modèles Flash deviennent de plus en plus chers, mais ce 3.0 Flash a un rapport performance/prix délirant
Il obtient 78 % sur les benchmarks, dépassant à la fois la série 2.5 et 3 Pro
Il est idéal pour le coding agentique et les applications interactives en temps réel
- 3.0 Flash est moins cher, plus rapide et plus performant que 2.5 Pro
  Pour les utilisateurs de 2.5 Flash, la montée en gamme fera peut-être un peu mal côté budget, mais elle en vaut la peine
- Je pense que positionner Flash de plus en plus comme un modèle centré sur le code et le raisonnement est une bonne direction
  Ceux qui veulent du low cost ont déjà Flash Lite, donc l’équilibre tient la route
- Le Nemotron 3 Nano de Nvidia pourrait être une alternative OSS comparable
  Il est rapide, intelligent et prend aussi en charge un contexte de 1M
- Dans les benchmarks de mon appli, seuls Gemini Flash et Grok 4 Fast valaient vraiment le coup
  J’aimerais voir des modèles à poids ouverts devenir compétitifs sur ce segment
- Selon le benchmark d’Epoch.ai, il surpasse aussi le GPT 5.2 d’OpenAI
J’ai déjà l’impression d’avoir atteint un niveau « suffisamment bon » avec la combinaison Claude Code + Gemini
Il devient désormais difficile pour une autre entreprise de me convaincre.
Avec cette sortie, on atteint le point où « assez bon et assez bon marché » se croisent
- De mon côté, les coûts de changement sont quasi nuls, donc je peux passer facilement d’un modèle à l’autre
  Il suffit de changer le modèle sélectionné dans un CLI ou un plugin IDE
- Les modèles récents concrétisent enfin la promesse du coding agentique
- Les anciens modèles se trompaient trop souvent et faisaient perdre du temps
  Leur précision était beaucoup trop aléatoire
- Avec Opus 4.5, on peut déjà considérer les problèmes d’ingénierie logicielle comme « résolus »
  Les entreprises veulent une intelligence illimitée, mais les particuliers n’ont pas besoin d’aller aussi loin
Il a obtenu 69 % sur le benchmark SimpleQA, qui est un test de connaissances extrêmement rares
Quand on sait que Gemini 2.5 Pro était à 55 %, c’est un score énorme
Google semble avoir bien exploité la compression des connaissances ou une architecture MoE (mélange d’experts)
- L’évaluation Omniscience d’Artificial Analysis vaut aussi le détour
- Grâce à une architecture MoE, ils ont probablement pu utiliser beaucoup de paramètres sur TPU tout en maintenant le débit
- Ce type de modèle semblerait aussi excellent pour les interfaces vocales. Apple l’adoptera peut-être aussi
- Ou bien il raisonne en interne en s’appuyant sur des appels d’outils (par exemple, une recherche Google)
- Il est aussi possible que l’architecture augmente le nombre d’experts et réduise leur taux d’activation afin d’accroître la sparsité
Je ne comprends pas bien la différence entre « Thinking » et « Pro » dans Gemini 3
La description parle de « résolution de problèmes complexes » contre « réflexion longue pour les maths avancées et le code »
C’est probablement une question de budget de réflexion
- Cela ressemble à une structure du type Fast = Flash (budget de réflexion faible), Thinking = Flash (budget de réflexion élevé), Pro = Pro (budget de réflexion élevé)
- En pratique, cela semble être piloté par le paramètre thinking_level
- Je me demande aussi en quoi le « Thinking » de Gemini diffère de l’AGI
  Gemini reste toujours dans une réflexion déclenchée par requête.
  En ajoutant des boucles et un contexte persistant, cela pourrait ressembler à de l’AGI, mais le coût exploserait
  Google a probablement déjà fait ce genre d’expériences
Mon principal reproche est l’absence de fonction de suppression des conversations
Sur les comptes professionnels, on ne peut pas supprimer des conversations individuelles ; on peut seulement définir une durée de rétention globale, avec un minimum de 3 mois
En tant qu’utilisateur payant, je trouve les fonctions de base insuffisantes par rapport à des tarifs qui ne cessent d’augmenter
- En passant par l’API, on peut éviter ce problème
- Que ce soit côté grand public ou entreprise, les contrôles de conservation des données sont médiocres. C’est le pire des grands concurrents
Pour une comparaison rapide des prix, selon LLM Prices,
Gemini 3 Flash coûte 1/4 du prix de Pro ≤200k et 1/8 du prix de Pro >200k
Le fait que le prix n’augmente pas après 200k tokens est impressionnant
En entrée, il coûte deux fois plus que GPT-5 Mini et la moitié du prix de Claude 4.5 Haiku

Gemini 3 Flash : une intelligence de pointe conçue pour la vitesse

Présentation de Gemini 3 Flash

Performances et benchmarks

Fonctionnalités pour les développeurs

Fonctionnalités pour le grand public

Accès et déploiement

À lire aussi

1 commentaires

Commentaires Hacker News