Présentation des versions améliorées de Gemini 2.5 Flash et Flash-Lite

(developers.googleblog.com)

1 points par GN⁺ 2025-09-27 | 1 commentaires | Partager sur WhatsApp

Google a dévoilé de nouvelles versions preview de Gemini 2.5 Flash et 2.5 Flash-Lite, avec comme axes principaux une meilleure qualité et une efficacité accrue
Flash-Lite est optimisé pour les environnements à haute vitesse et à faible coût grâce à une meilleure compréhension des consignes, des réponses moins verbeuses et des capacités multimodales et de traduction améliorées
Flash offre de meilleures capacités d’utilisation des outils et une meilleure efficacité en tokens, ce qui améliore fortement les performances sur les tâches agentiques complexes
Lors de tests réels, le score SWE-Bench Verified a progressé de 5 %, et dans les benchmarks internes, les performances sur les tâches de longue durée ont augmenté de 15 %
Les deux modèles prennent en charge l’alias -latest, permettant d’utiliser les dernières fonctionnalités sans modifier le code, tandis que les modèles 2.5 existants restent disponibles pour ceux qui privilégient la stabilité

Aperçu de Gemini 2.5 Flash et Flash-Lite

Les dernières versions de Gemini 2.5 Flash et Flash-Lite sont disponibles sur Google AI Studio et Vertex AI. Cette release vise à fournir en continu une meilleure qualité de modèle et une efficacité plus élevée
Les nouveaux Flash-Lite et Flash affichent des performances nettement supérieures aux modèles précédents en termes de qualité globale, de vitesse et de coût
Flash-Lite réduit les tokens de sortie de 50 %, et Flash de 24 %, ce qui permet de réduire les coûts d’exécution et d’accélérer le traitement

Updated Gemini 2.5 Flash-Lite

Meilleur suivi des consignes : la compréhension et l’exécution des instructions complexes ou des system prompts ont été fortement améliorées
Plus de concision : génération de réponses plus courtes et plus faciles à comprendre, avec à la clé une baisse du coût en tokens et une réduction de la latence dans les environnements à fort trafic
Renforcement de la qualité multimodale et de traduction : la fiabilité progresse sur les transcriptions audio, la reconnaissance d’image et la qualité de traduction
La version preview de Flash-Lite peut être testée immédiatement sous le nom de modèle gemini-2.5-flash-lite-preview-09-2025

Updated Gemini 2.5 Flash

Capacités d’utilisation des outils renforcées : l’usage agentique dans des situations complexes à plusieurs étapes progresse fortement, avec un score SWE-Bench Verified en hausse de 5 points par rapport à la version précédente (48.9 % → 54 %)
Meilleure efficacité économique : une qualité de sortie supérieure avec moins de tokens utilisés, ce qui réduit la latence et les coûts d’infrastructure
Les retours des utilisateurs de Primer sont également positifs
- Yichao ‘Peak’ Ji, cofondateur et Chief Scientist de Manus, a déclaré : « Le nouveau modèle Gemini 2.5 Flash combine une vitesse et une intelligence remarquables. Sur les tâches agentiques orientées vers des objectifs de long terme, les performances se sont améliorées de 15 %, ce qui permet de passer davantage à l’échelle grâce à une meilleure efficacité économique »
La version preview de Gemini 2.5 Flash est disponible sous le nom de modèle gemini-2.5-flash-preview-09-2025

Commencer à construire avec Gemini

Au cours de l’année écoulée, la publication de modèles preview a permis aux développeurs de tester rapidement les dernières fonctionnalités et de fournir des retours.
Les versions preview annoncées aujourd’hui ne deviennent pas officiellement de nouvelles versions stables, mais servent de base pour améliorer la qualité de la prochaine version officielle

Un alias -latest a été ajouté pour éviter les noms de modèles à rallonge et permettre d’utiliser facilement en permanence le modèle le plus récent. Cet alias pointe automatiquement vers la dernière version, ce qui permet d’essayer de nouvelles fonctionnalités sans modifier le code
- gemini-flash-latest
- gemini-flash-lite-latest
Si une version spécifique est mise à jour ou interrompue, une notification sera envoyée par e-mail au moins deux semaines à l’avance. L’alias n’est qu’une simple référence, et le prix, les fonctionnalités et les limites peuvent varier selon les releases
Pour les besoins de stabilité à long terme, il est recommandé de continuer à utiliser les noms de modèles existants gemini-2.5-flash et gemini-2.5-flash-lite

Signification

Cette release est une mise à jour preview et non une promotion vers une version stable officielle ; elle s’inscrit dans un processus d’expérimentation et de collecte de retours utilisateurs en vue des futurs modèles stables
Avec Gemini, Google cherche à équilibrer vitesse, intelligence et efficacité économique, et poursuit ses améliorations pour aider les développeurs à créer de meilleures applications d’IA

1 commentaires

GN⁺ 2025-09-27

Avis Hacker News

Cela pointe très bien un problème que j’ai ressenti récemment en utilisant Gemini. Le modèle en lui-même est vraiment excellent, mais à l’usage, les conversations se coupent de manière répétée en plein milieu. Ce ne semble pas venir d’une limite de tokens ni d’un filtre, mais plutôt d’un bug où le modèle envoie par erreur le signal de fin de réponse. Le problème est déjà remonté depuis plusieurs mois comme issue P2 sur GitHub et sur le forum développeurs. Si on compare une réponse complète de Gemini à Claude ou GPT-4, la qualité n’est franchement pas mauvaise. Mais la fiabilité compte. Même imparfait, un modèle qui répond toujours jusqu’au bout est plus agréable à utiliser. Google a la puissance technique, mais tant que ce problème élémentaire de flux conversationnel ne sera pas corrigé, même d’excellents benchmarks donneront inévitablement l’impression d’un produit cassé face à la concurrence. Références : issue #707 et discussion du forum développeurs
- Un autre défaut de Gemini est mentionné : il ne sait pas gérer en même temps les tool calls et une demande de sortie JSON. Si on demande application/json, l’usage des outils devient impossible, et pour avoir les deux il faut soit espérer que le JSON sorte correctement de force (ce qui échoue souvent), soit utiliser les outils dans une première requête puis formater dans une deuxième. C’est pénible, mais le contournement reste assez simple
- Ce n’est pas propre à Gemini, et ChatGPT aussi a souvent posé de gros problèmes de fiabilité d’après mon expérience
- Ce genre de petits problèmes, ou même le fait que le défilement fonctionne mal dans AI Studio, est difficile à comprendre. Comment un outil aussi impressionnant peut-il manquer de fonctions aussi basiques ?
- J’ai la même impression. Gemini 2.5 Pro convient remarquablement bien à l’architecture logicielle. En revanche, devoir le relancer sans cesse est fatigant. Sonnet s’en sort très bien aussi
- ChatGPT a lui aussi beaucoup de problèmes de fiabilité
J’ai ajouté la prise en charge de ce modèle au plugin llm-gemini. Il peut être lancé via uvx sans installation séparée. Exemple :

export LLM_GEMINI_KEY='...'
uvx --isolated --with llm-gemini llm -m gemini-flash-lite-latest 'An epic poem about frogs at war with ducks'

Voir les notes de version ici. Pour la discussion sur le pélican, voir ce message

Je me demande si l’exemple SVG du pélican à vélo est en train d’entrer dans les jeux de données d’entraînement. Beaucoup d’ingénieurs du secteur viennent souvent sur Hacker News
Au final, je me demande qui va gagner. Les grenouilles ? Les canards ? Ou le pélican ?
Si 2.5 est un modèle amélioré, pourquoi ne pas l’appeler 2.6 ? Devoir distinguer l’ancien 2.5 du nouveau 2.5 est déroutant. Ça rappelle Apple à l’époque de « the new iPad », sorti sans numérotation, ce qui était assez pénible
- C’est pour ça que beaucoup appelaient la deuxième version de Sonnet v3.5 la v3.6, et Anthropic a ensuite nommé la suivante v3.7
- On désigne souvent les modèles par leur mois/année de sortie. Par exemple, le dernier Gemini 2.5 Flash est appelé "google/gemini-2.5-flash-preview-09-2025". Référence
- 2.5 n’est pas un numéro de version, c’est un indicateur de génération architecturale. Pour prendre l’exemple de la Mazda 3, ce n’est pas une « Mazda 4 », mais plutôt le même modèle avec une nouvelle finition, ou un léger restylage. Je suis d’accord que du SemVer serait préférable
- Peut-être que l’idée est simplement de signaler quelque chose de l’ordre d’un bugfix
- Du coup, ça rend aussi confus de savoir lequel est meilleur entre 2.6 Flash et 2.5 Pro
Google semble vraiment très concentré, parmi les grands fournisseurs de foundation models, sur la latence, le TPS et le coût. Anthropic et OpenAI sont devant sur l’intelligence des modèles, mais en dessous d’un certain seuil de performance, des réponses lentes deviennent pénibles dans les outils collaboratifs. Même un peu moins intelligent, un modèle rapide comme Gemini est plus agréable dans un workflow. Cela dit, il arrive aussi qu’il paraisse complètement émoussé face à Claude ou GPT-5
- Personnellement, je me demande si cette opposition binaire correspond vraiment à la réalité. Gemini ne me semble pas tant en retard que ça sur « l’intelligence », et l’écart devrait encore se réduire dans les prochains cycles de modèles. Google semble aussi investir ses capacités non seulement dans la latence/TPS/le coût, mais aussi dans l’intégration rapide de ses modèles dans divers produits au-delà du simple chatbot. Par exemple Google Workspace, Google Search, mais aussi des domaines nouveaux comme jules, labs.google/flow ou le tableau de bord financier, où l’entreprise expérimente activement. L’arrivée de Gemini sur YouTube semble aussi n’être qu’une question de temps
- J’utilise moins Gemini (2.5-pro) ces derniers temps. Avant, j’étais impressionné par ses capacités de recherche approfondie et ses citations fiables. Mais ces dernières semaines, il débat davantage et ne sait plus juger les hallucinations liées aux sources. Par exemple, je lui ai demandé comment accéder à la secrets map dans Github Actions, et au lieu d’une vraie réponse il a proposé un mauvais test de workflow ; même en le contredisant, il s’est contenté d’empiler les faux raisonnements. ChatGPT, en revanche, a répondu correctement sans problème. Références : première, deuxième
- À mon avis, la compétition latency/TPS/cost se joue surtout entre grok et gemini flash. En image→texte, aucun autre modèle n’arrive à leur niveau. OpenAI et Anthropic ne semblent pas très intéressés par cet aspect
- Il y a dix ans, on disait « avant d’épouser quelqu’un, fais-le s’asseoir devant une connexion internet lente ». Maintenant, c’est plutôt « avant d’épouser quelqu’un, fais-le s’asseoir devant un modèle d’IA lent » ;-)
- Je ne suis pas d’accord. Gemini n’est pas seulement bon en rapport qualité/prix, c’est aussi le meilleur modèle « du quotidien » pour un utilisateur généraliste. Surtout en codage et sur les aspects « agentiques », il reste loin derrière Claude ou GPT-5, mais pour les longues conversations et la mémoire du contexte précédent, Gemini est excellent. Quand j’utilise plusieurs modèles en parallèle pour du débogage, Gemini est le seul à retrouver des points importants dans les anciens messages et à fournir aussi des exemples de code précis. Il est aussi écrasant sur les langues peu dotées, l’OCR et la reconnaissance d’images. En revanche, Google est actuellement le plus faible en marketing et en UX IA, même si cela devrait progresser. Moi-même, j’utilise presque tous les jours les trois modèles en parallèle
Résumé non-IA : les deux modèles sont devenus plus intelligents sur les indices d’analyse d’IA, et leur temps de réponse end-to-end a diminué. L’efficacité des tokens de sortie s’est améliorée de 24 % à 50 % (ce qui aide à réduire les coûts). Les principales améliorations de Gemini 2.5 Flash-Lite sont une meilleure compréhension des instructions, moins de verbosité inutile et de meilleures capacités multimodales/de traduction. Gemini 2.5 Flash se distingue par un usage d’outils agentiques plus puissant et un raisonnement plus efficace en tokens. Les chaînes de modèle sont gemini-2.5-flash-lite-preview-09-2025 et gemini-2.5-flash-preview-09-2025
- J’ai l’impression que les « Résumés non-IA » de ce genre vont devenir une tendance. Le simple fait de savoir qu’un humain a fait la synthèse rend déjà la lecture plus plaisante
- Je vais reprendre le terme « Non-AI Summary »
- Je me demande ce que signifie « output token efficiency ». Gemini Flash est facturé au nombre de tokens en entrée/sortie, donc à sortie identique le coût devrait être le même. Autrement dit, sans changement du tokenizer ou du fonctionnement interne, j’ai du mal à comprendre comment cela réduit les coûts
- 2.5 Flash est le modèle qui a pour la première fois rendu l’IA vraiment utile pour moi. J’étais à l’origine le hater n°1 de l’IA, et maintenant je me tourne vers l’app Gemini avant Google Search. C’est plus précis, sans publicité, et les informations fournies sont la plupart du temps justes ; j’ai l’impression d’avoir le savoir exact d’internet dans la main. Je peux me perdre seul dans des conversations avec l’app Gemini sur la température de semis du chou kale. C’est beaucoup plus concentré que l’empilement de blogs, bots et spam SEO. Reste la question de savoir combien de temps Google maintiendra cela, et le problème de cannibalisation du modèle économique demeure
- Globalement, cela ressemble à une amélioration progressive par rapport à la version précédente
Petite plainte sur la numérotation des versions : ce serait plus intuitif d’augmenter le numéro à chaque amélioration. Tel que c’est publié actuellement, c’est source de confusion
- J’ai la même plainte. Anthropic a fait quelque chose de semblable, puis la controverse sur les « nerfs » a explosé. Nous achetons des tokens par lots, avec une durée de validité courte, et nous ne savons même pas à quel point le modèle est réellement mis à jour. À mon avis, même une amélioration ou une dégradation de 1 % devrait être rendue publique. Fondamentalement, les entreprises d’IA devraient mieux respecter la transparence et l’accessibilité. Voir l’exemple de l’incident Claude
- Ce n’est pas une petite plainte, c’est un problème sérieux. Avec une telle politique, la numérotation des versions elle-même finit par ne plus rien vouloir dire
- C’est sans doute conçu comme un remplacement de l’ancien modèle 2.5 Flash. Ça rappelle aussi le cas où OpenAI a mis à jour discrètement le modèle 4-o, puis a fait un rollback à cause de problèmes de glazing par le passé
Il faudrait inventer un véritable système de gestion de versions significatif (semver) pour les modèles. Il doit permettre de distinguer clairement les petites optimisations d’un retrain complet ou d’un changement d’architecture
Gemini 2.5 Flash est récemment le LLM que j’utilise le plus. Il a surtout été meilleur qu’OpenAI/Anthropic sur l’entrée image et les sorties structurées
- Gemini 2.5 Flash écrase ChatGPT 5 dans mon domaine de travail. Je suis surpris qu’il soit si peu populaire
- Je n’ai pas vérifié si le prix a changé
Je me demande si je suis le seul à utiliser un autre Gemini. Mon entreprise utilise Google Workspace, donc Gemini est intégré par défaut. Mais comparé aux autres modèles, les résultats sont affreux. Tout le monde en dit du bien, mais dans mon expérience Gemini donne soit des réponses fausses, soit des réponses trop longues (je veux un résumé, j’obtiens une dissertation), et je n’en suis pas du tout satisfait. Si je pose exactement la même question à Gemini et à une version assez faible de ChatGPT, ChatGPT est bien meilleur. Est-ce que je rate quelque chose ?
- Je ne l’ai utilisé que dans ai studio, où il est bien supérieur aux autres modèles. Je n’ai pas d’expérience avec les intégrations IDE, etc. Cela dit, il faut penser à limiter les compliments excessifs, et ça aide aussi à mieux gérer la fenêtre de contexte
- Même impression. En dehors de la traduction, je n’ai presque jamais eu de raison de l’utiliser, et même pour la traduction il refuse parfois ou se comporte bizarrement. Tout récemment, il m’a répondu par une simple virgule à une question basique, ou a refusé inutilement pour des motifs éthiques (par ex. « sac à dos avec capuche »). Son plus gros problème est de refuser même des demandes anodines
- Cela dépend de l’usage. Pour de simples Q&R, GPT-5 est meilleur, mais pour transformer des phrases en rapport, résumer, mettre en valeur et d’autres usages de rédaction, Gemini est le meilleur
- À mon avis, ce dans quoi ChatGPT excelle, c’est qu’il interprète bien les questions sans nécessiter d’explications supplémentaires et les présente dans un format facile à lire. Je trouve son post-training un cran au-dessus
- Peut-être l’utilises-tu simplement de la mauvaise façon
Gemini 2.5 Flash est un modèle impressionnant pour son rapport performance/prix. Pourtant, je ne comprends pas pourquoi Gemini 2.0 Flash reste encore si populaire. Chiffres récents sur OpenRouter :
- xAI: Grok Code Fast 1: 1.15T
- Anthropic: Claude Sonnet 4: 586B
- Google: Gemini 2.5 Flash: 325B
- Sonoma Sky Alpha: 227B
- Google: Gemini 2.0 Flash: 187B
- DeepSeek: DeepSeek V3.1 (gratuit): 180B
- xAI: Grok 4 Fast (gratuit): 158B
- OpenAI: GPT-4.1 Mini: 157B
- DeepSeek: DeepSeek V3 0324: 142B
- Un inconvénient d’OpenRouter est qu’ils ne publient pas le nombre réel d’entreprises utilisatrices pour chaque modèle. Si un seul gros client bascule, cela peut modifier les indicateurs eux-mêmes. J’aimerais qu’ils soient plus transparents sur ce point
- Dans notre entreprise aussi, beaucoup de tâches sont restées sur les anciens modèles et n’ont pas été mises à jour
- À cause du prix. 2.0 Flash est moins cher que 2.5 Flash tout en restant un très bon modèle
- 2.0 Flash est nettement moins cher que 2.5 Flash et, jusqu’à la récente mise à jour, il était même meilleur que 2.5-Flash-Lite. C’est un excellent cheval de bataille pour le parsing de texte, les résumés, la reconnaissance d’images, etc. Mais avec l’arrivée de 2.5-Flash-Lite, il va sans doute être remplacé
- J’imagine qu’ils gardent aussi le même schéma de nommage pour 2.5 Flash par flemme de devoir le modifier à chaque nouvelle version.

Présentation des versions améliorées de Gemini 2.5 Flash et Flash-Lite

Aperçu de Gemini 2.5 Flash et Flash-Lite

Updated Gemini 2.5 Flash-Lite

Updated Gemini 2.5 Flash

Commencer à construire avec Gemini

Signification

À lire aussi

1 commentaires

Avis Hacker News