- Avec le lancement officiel des modèles Gemini 2.5 Flash et Pro, Google dévoile aussi une version preview du modèle Flash-Lite, le plus rapide et le moins cher
- Flash-Lite est spécialisé dans les tâches sensibles à la latence, comme la traduction et la classification, et offre une latence plus faible ainsi qu’une meilleure qualité globale que 2.0 Flash/Flash-Lite
- Tous les modèles 2.5 prennent en charge des fonctionnalités comme les entrées multimodales, une fenêtre de contexte de 1M de tokens, la connexion à des outils (recherche, exécution de code, etc.) et la possibilité d’activer ou désactiver le mode Thinking
- Conçue en tenant compte de l’optimisation du rapport coût/performance (Pareto Frontier), la gamme est adaptée au traitement de volumes de trafic importants
- Flash-Lite et Flash sont aussi personnalisés pour la recherche et déjà utilisés dans ce cadre ; les développeurs peuvent accéder aux modèles en preview ou en version stable dans Google AI Studio et Vertex AI
Caractéristiques de Flash-Lite
- Il s’agit du modèle le moins cher et le plus rapide, proposé à $0.10 par million de tokens en entrée et $0.40 par million de tokens en sortie
- Son excellent rapport coût/performance le rend particulièrement adapté aux tâches recevant un grand volume de requêtes, comme la traduction ou la classification
- Par rapport à l’ancien 2.0 Flash-Lite, la qualité globale progresse : en sciences (GPQA), de 64.6 % à 66.7 %, et en mathématiques (AIME 2025), de 49.8 % à 63.1 %
- En génération et édition de code, il atteint respectivement 34.3 % et 27.1 %, ce qui reste inférieur aux modèles haut de gamme, mais en fait une option efficace au vu du coût
- Les performances en traitement multimodal se maintiennent à 72.9 %, tandis que la compréhension d’image progresse de 51.3 % à 57.5 %
- Lorsque le mode de raisonnement (Thinking) est activé, la précision globale augmente ; par exemple, sur HumanEval, le score passe de 5.1 % à 6.9 %, et sur SWE-bench multi-task, de 42.6 % à 44.9 %
- Sur la fidélité factuelle (SimpleQA) et la compréhension de contexte long (MRCR), les performances s’améliorent nettement avec le mode Thinking ; en particulier, sur un contexte long de 1M tokens, la précision passe de 5.4 % à 16.8 %, soit plus du triple
- Les capacités multilingues (MMLU) progressent également, atteignant 81.1 % en mode non-Thinking et jusqu’à 84.5 % en mode Thinking
1 commentaires
Commentaires Hacker News
Le post de Google ne le mentionne pas, mais il semble qu’il y ait une hausse de prix pour le modèle Gemini 2.5 Flash
Dans les tarifs archivés de 2.5 Flash Preview, le prix était de $0.15 par million de tokens en entrée pour le texte/images/vidéo, $1.00 pour l’audio, et en sortie $0.60 en mode non-thinking contre $3.50 en thinking
Dans la nouvelle grille, la distinction entre thinking et non-thinking a disparu
L’entrée texte/images/vidéo passe à $0.30 par million, soit le double, l’audio reste à $1.00, et la sortie passe à $2.50 par million, donc bien plus cher que l’ancien mode non-thinking mais moins cher que le mode thinking
Les détails des tarifs sont disponibles ici
Le billet de blog contient davantage d’informations sur ce changement tarifaire
Lien de référence détaillé
Certains relevaient qu’on nous disait que la technologie IA allait bientôt devenir très bon marché, alors qu’en pratique les prix augmentent pour l’instant
Avis selon lequel, au lancement de Gemini, les prix étaient anormalement bas au point de sembler trop faibles face à la concurrence, et qu’ils ne font que refléter maintenant un niveau plus réaliste
Une hausse de prix doublée, annoncée presque comme si de rien n’était
Quand on se rappelle que Gemini 2.0 Flash était à $0.10/$0.40, l’ampleur de la hausse se ressent clairement
Opinion selon laquelle c’est un changement bien repéré
Cette évolution tarifaire semble assez importante pour Gemini, qui aurait pu être le GOAT dans l’audio-to-audio
À une époque où Gemini Pro était gratuit dans AI Studio, beaucoup de gens l’utilisaient selon moi
Ensuite, ses performances se sont au contraire dégradées, et maintenant je reviens à Claude pour les tâches importantes
Gemini donne souvent l’impression d’un ami qui parle pour ne rien dire
Cela dit, je l’utilise souvent pour le brainstorming, puis j’affine les prompts générés par Gemini pour les utiliser dans Claude
Si on regarde le classement Aider, Gemini n’est pas toujours en tête, contrairement à mon ressenti
Je n’utilise directement que l’API Aider, donc je n’ai pas d’expérience avec AI Studio
Claude s’en sort bien même avec des prompts faibles, surtout quand la direction est floue
Quand j’ai une idée très précise de la direction voulue, Gemini 2.5 Pro (thinking activé) est meilleur et le code s’exécute de façon plus stable
Avec o4-mini et o3, on a parfois l’impression qu’ils « réfléchissent » de manière plus intelligente, mais le code est moins fiable (Gemini est plus stable)
Plus la complexité augmente, plus Claude semble montrer ses limites ; de mon point de vue, Gemini et o3 sont mieux notés
Depuis la sortie de o3-mini, je n’ai plus eu envie de revenir à Claude
J’ai eu une expérience similaire
Au début, il semblait bien résoudre même des problèmes complexes, mais pour les tâches simples il est difficile à canaliser
Les réponses sont beaucoup trop verbeuses, et comme l’UX est primordiale, je préfère aujourd’hui l’UX de Claude Code
Pareil pour moi : même en ayant créé un Gem avec un prompt élaboré pour forcer des réponses concises, il reste verbeux et élargit inutilement le périmètre des questions, ce que je trouve pénible
Je n’ai pas d’informations internes, mais j’ai l’impression que le modèle a été quantifié
On observe des comportements comme la répétition infinie d’un seul caractère, un motif que je n’avais vu jusque-là que sur des modèles quantifiés
J’aimerais qu’ils reviennent à l’ancienne version preview
Elle était équilibrée et formulait de vraies objections utiles, alors que la version GA a pris un ton excessivement positif
Gemini m’a tellement impressionné que j’ai arrêté d’utiliser OpenAI
Il m’arrive encore de tester les trois modèles via OpenRouter, mais aujourd’hui j’utilise Gemini dans plus de 90 % des cas
Quand on compare à l’an dernier, où ChatGPT représentait 90 % de mon usage, c’est un gros changement
Je suis plutôt critique envers Google, mais cette fois j’ai vraiment l’impression que leurs modèles sont excellents
La taille énorme de la context window compte énormément
Même chose pour moi : cette fois j’ai résilié mon abonnement Claude, et je trouve que Gemini rattrape son retard très vite
Cette annonce fait selon moi passer Flash Lite du statut de « sans intérêt » à celui d’outil réellement utile
Flash Lite est bon marché, et surtout son vrai point fort est sa rapidité, avec presque toujours une réponse en moins d’une seconde (minimum 200 ms, moyenne 400 ms)
Dans notre service Brokk(brokk.ai), nous utilisons actuellement Flash 2.0 (non-Lite) pour les Quick Edits, et nous prévoyons d’évaluer l’intégration de 2.5 Lite
Je m’interroge sur les cas d’usage des modèles inférieurs à Flash 2.5 quand thinking le ralentit
La rapidité de réponse est essentielle, donc l’activation de thinking crée une situation un peu ambiguë
Je me demande comment Gemini est utilisé en dehors du codage, et pourquoi certains le choisissent
Quand vous développez une app, concevez-vous le backend GenAI pour pouvoir remplacer facilement le fournisseur, et faites-vous éventuellement du load balancing entre plusieurs fournisseurs pour des raisons de prix ou de fiabilité ? Je me demande aussi quels changements il y aurait si un marché spot apparaissait un jour pour les LLM
D’après mon expérience, Gemini 2.5 Pro se distingue sur les usages non liés au code, comme la traduction ou les résumés (avec Canva)
C’est rendu possible par la taille de la fenêtre de contexte et les limites d’usage très généreuses
Je trouve notamment Gemini meilleur que ChatGPT pour générer des rapports de recherche
Peut-être parce que Google est fort en recherche, mais ses rapports semblent s’appuyer sur davantage de sources et être plus précis
Je préfère aussi son style d’écriture, et l’export vers Google Docs est pratique
En revanche, son UI est très en retrait par rapport à la concurrence, et l’absence ou la faiblesse de fonctions clés comme Custom instruction, Projects ou Temporary Chat est un gros défaut
Le fait de pouvoir injecter d’un coup une énorme quantité de documents sous NDA, puis d’en extraire en quelques secondes uniquement les éléments pertinents, est très utile
La très grande fenêtre de contexte et sa capacité à ressortir exactement l’information nécessaire en font un excellent outil pour ce type de tâche
Gemini Flash 2.0 est extrêmement bon marché et c’est un modèle solide pour des workloads de niveau entreprise
Ce n’est pas l’intelligence de pointe, mais entre son prix bas, sa rapidité et la grande fiabilité de ses sorties structurées, j’en suis très satisfait en développement
Je prévois de tester la mise à niveau vers 2.5 Lite
J’utilise beaucoup lexikon.ai, notamment pour le traitement massif d’images, et j’emploie souvent Gemini pour cela
J’apprécie le fait que les prix de l’API de vision de Google soient bien plus bas que chez les autres grands fournisseurs comme OpenAI ou Anthropic
J’utilise Gemini 2.5 Flash (option non-thinking) comme partenaire de réflexion
Il m’aide à structurer mes idées et apporte aussi automatiquement des pistes auxquelles je n’avais pas pensé
Je l’utilise également pour l’introspection : je lui soumets mes pensées ou mes préoccupations et je m’appuie sur ses réponses
Je me demande si certains n’ont toujours pas accès à l’API 2.5-pro
J’obtiens l’erreur : «
projects/349775993245/locations/us-west4/publishers/google/models/gemini-2.5-proest introuvable ou vous n’y avez pas accès »Le message invite à vérifier que l’on utilise bien une version de modèle valide
J’exploite un service de traitement de données et d’inférence LLM à grande échelle, et je fais beaucoup de profilage coût/performance sur divers modèles open weight
Ce qui reste étrange dans la tarification des LLM, c’est que les fournisseurs facturent encore de façon linéaire selon le volume de tokens consommés, alors que le coût réel du système augmente de manière quadratique avec la longueur des séquences
Comme l’architecture des modèles, les algorithmes d’inférence et le matériel se ressemblent de plus en plus aujourd’hui, les fournisseurs semblent probablement beaucoup s’appuyer sur les statistiques historiques des schémas de requêtes clients pour fixer leurs prix
Au final, voir des hausses de prix apparaître à mesure qu’ils accumulent des données sur les usages réels n’a rien de très surprenant
Par rapport à 2.0 Flash Lite, le prix du traitement audio de 2.5 Flash Lite a été multiplié par 6,33
L’entrée audio de 2.5 Flash Lite est à $0.5 par million de tokens, contre $0.075 pour la 2.0
Je me demande ce qui justifie une hausse aussi brutale du prix des tokens audio
En supposant un ratio tokens d’entrée:sortie de 3:1, le blended price a augmenté de 3,24x par rapport à avant, et presque de 5x si on compare à 2.0 Flash
Du coup, 2.0 Flash reste probablement compétitif pour beaucoup d’usages, surtout hors codage
Même avec des performances un peu inférieures, fractionner les prompts en plusieurs étapes pourrait produire un meilleur effet concret
Je pensais que ce 2.5 Flash allait devenir le choix écrasant, donc c’est décevant
(Voir les données tarifaires associées ici)