Sortie de Gemini 2.5 Flash

(developers.googleblog.com)

5 points par GN⁺ 2025-04-18 | 1 commentaires | Partager sur WhatsApp

Gemini 2.5 Flash est un modèle de raisonnement hybride disponible via Google AI Studio et Vertex AI, qui améliore fortement les capacités de raisonnement tout en conservant la vitesse et le coût
Grâce à la fonction thinking (on/off) et au réglage thinking_budget, il est possible d’ajuster finement les performances, le coût et la latence
En définissant un budget de réflexion, on peut régler précisément le nombre maximal de tokens que le modèle peut générer, afin de fournir des réponses plus exactes et plus complètes pour les tâches complexes
Il s’agit du modèle de raisonnement le plus rentable de Google, offrant de hautes performances pour un faible coût et une grande souplesse d’ajustement selon les cas d’usage
Disponible actuellement en aperçu dans Google AI Studio et Vertex AI, avec configuration également possible via l’API

Lancement de l’aperçu de Gemini 2.5 Flash

Google a dévoilé Gemini 2.5 Flash en version preview via Google AI Studio et Vertex AI
Par rapport à 2.0 Flash, ses capacités de raisonnement sont nettement améliorées, tout en conservant la vitesse et l’efficacité en termes de coût
Il s’agit du premier modèle de raisonnement entièrement hybride, permettant aux développeurs d’activer ou de désactiver le mode thinking
Le paramètre thinking_budget permet d’ajuster l’équilibre entre qualité, coût et latence de réponse
Même lorsque le mode thinking est désactivé, le modèle conserve de meilleures performances que 2.0 Flash

Capacités de raisonnement de Gemini 2.5 Flash

Gemini 2.5 Flash n’émet pas immédiatement une réponse : il procède d’abord à une phase de réflexion
Il génère des réponses plus exactes et plus complètes pour les problèmes complexes, les questions de mathématiques ou les demandes d’analyse de recherche
Sur le benchmark Hard Prompts de LMArena, il affiche des performances juste derrière 2.5 Pro
Il offre des performances comparables à d’autres modèles avec un prix plus bas et une taille de modèle plus réduite

Le modèle de raisonnement le plus rentable

Gemini 2.5 Flash est présenté comme le modèle de raisonnement offrant le meilleur rapport performance/prix
Il rejoint la frontière de Pareto de Google en matière de coût et de qualité

Contrôle du niveau de réflexion : `thinking_budget`

Offre un réglage fin entre qualité, coût et latence selon les différents cas d’usage
thinking_budget désigne le nombre maximal de tokens que le modèle peut utiliser pour réfléchir
- Exemple : augmenter le budget améliore la qualité, mais accroît aussi le coût et la latence
Pour les questions simples qui ne nécessitent pas de réflexion, un budget faible est automatiquement appliqué
La plage de budget va de 0 à 24 576 tokens et peut être ajustée via un curseur dans AI Studio et Vertex AI, ou par paramètre d’API

Exemples de prompts selon le niveau de raisonnement

Faible niveau de raisonnement requis

“Thank you” in Spanish
Demander le nombre de provinces du Canada

Niveau de raisonnement intermédiaire requis

Calculer la probabilité d’obtenir 7 en lançant deux dés
Créer un emploi du temps permettant de jouer 5 heures au basket en semaine à partir d’un planning donné

Niveau de raisonnement élevé requis

Problème de calcul de contraintes mécaniques sur une poutre
Écrire une fonction d’évaluation de formules de style Excel
- Nécessite la résolution des dépendances, la priorité des opérateurs et la détection des cycles

Prise en main

La version preview est disponible dans Google AI Studio, Vertex AI et l’application Gemini
Essayez le paramètre thinking_budget pour explorer la résolution de problèmes complexes

Exemple de code :

from google import genai  

client = genai.Client(api_key=&quot;GEMINI_API_KEY&quot;)  

response = client.models.generate_content(  
  model=&quot;gemini-2.5-flash-preview-04-17&quot;,  
  contents=&quot;You roll two dice. What’s the probability they add up to 7?&quot;,  
  config=genai.types.GenerateContentConfig(  
    thinking_config=genai.types.ThinkingConfig(  
      thinking_budget=1024  
    )  
  )  
)  

print(response.text)

Plus de détails dans la documentation développeur et le Gemini Cookbook
D’autres fonctionnalités seront ajoutées à l’avenir, avec des améliorations continues prévues jusqu’à la sortie officielle

1 commentaires

GN⁺ 2025-04-18

Avis sur Hacker News

Le fait que Google propose gratuitement Gemini 2.5 Pro (expérimental) a été un événement majeur. Je n’ai jamais utilisé les modèles plus chers d’OpenAI, donc je ne peux pas comparer, mais par rapport aux modèles gratuits que j’avais utilisés auparavant, Gemini 2.5 Pro représente un progrès considérable. Ce modèle est plus intelligent que moi sur la plupart des sujets que je traite, et il ne cherche pas à être d’accord avec moi : il me contredit et débat avec moi. Désormais, tout mon usage occasionnel de l’IA se concentre sur Gemini, et j’ai hâte de lui poser des questions sur des sujets de fond. Je suis en train de créer de nouveaux outils pour augmenter la valeur de ce modèle
L’une des capacités de Gemini souvent négligées est qu’il peut écrire et exécuter directement du code Python via l’API. Mon plugin llm-gemini le prend en charge : lien GitHub. L’exécution du code n’entraîne pas de coût supplémentaire : on ne paie que les tokens d’entrée et de sortie. Par exemple, cela m’a coûté 0,536 centime pour 10 tokens d’entrée et 1 531 de sortie
Les modèles Gemini Flash sont ceux dont on parle le moins, mais à l’usage ils offrent le meilleur rapport qualité-prix et proposent des outils multimodaux. Google est discrètement en train de gagner la course à l’IA
Information cachée en explorant en profondeur la documentation de Gemini 2.5 Flash : pour les entrées image, le modèle peut non seulement générer des boîtes englobantes 2D sur les sujets pertinents, mais aussi produire des masques de segmentation. À ce niveau de prix, obtenir des masques de segmentation avec un modèle Flash est assez impressionnant. Les masques de segmentation sont implémentés sous la forme d’une chaîne b64 représentant le masque
Pour quelqu’un comme moi qui n’est pas programmeur, Google devient étonnamment excellent. Il fournit du code qui fonctionne du premier coup. Quand je lui ai demandé d’écrire du code pour récupérer et analyser les données d’un site web, il a effectivement écrit du code qui récupère et analyse les données. C’était une classification et une agrégation de données basiques, mais je ne m’y attendais pas
Encore plus d’innovation de la part de Google. OpenAI a deux problèmes majeurs. D’abord, le pipeline de puces verticalement intégré de Google, ainsi que la profondeur de sa supply chain et de son savoir-faire opérationnel nécessaires pour produire des puces IA. Cela lui donne un avantage de coût énorme à chaque étape. Ensuite, la pénurie de données et l’avantage injuste des réseaux sociaux en tant que source de connaissances continuellement mises à jour. Les nouvelles données deviennent de plus en plus un facteur de différenciation précieux. SamA est conscient de ces problèmes et les considère comme fondamentaux pour déterminer si OpenAI réussira ou non
Hausse de prix de 50 % par rapport à Gemini 2.0 Flash. Cela paraît beaucoup, mais Flash reste très bon marché comparé aux autres modèles de cette qualité
J’ai trouvé quelque chose d’intéressant dans le code de la bibliothèque Python API : lien GitHub. thinking_budget est documenté, mais il est difficile de comprendre ce qu’est include_thoughts. Je n’ai pas trouvé comment utiliser cette option pour faire en sorte que Gemini renvoie un résumé de sa réflexion
Alors même que Google propose des modèles impressionnants via l’API et l’AI Studio gratuit, le modèle utilisé dans l’application Gemini semble nettement moins bon. J’utilise Gemini Advanced avec un compte Workspace depuis quelques semaines, et le modèle semble réfléchir moins longtemps, produire des réponses plus courtes, et sa fenêtre de contexte paraît très loin du million de tokens annoncé. On dirait que Google bride volontairement l’application Gemini
En exécutant un PDF interne (3 pages, difficulté moyenne) sur un benchmark json :
- gemini-flash-2.0 : environ 60 % de précision, 1 dollar pour 6 250 pages
- gemini-2.5-flash-preview (sans réflexion) : environ 80 % de précision, 1 dollar pour 1 700 pages
- gemini-2.5-flash-preview (avec réflexion) : environ 80 % de précision, 1 dollar pour 350 pages
- gemini-flash-2.5 : environ 90 % de précision, 1 dollar pour 150 pages
- J’aimerais que la variante avec réflexion soit séparée de la variante normale. C’est très déroutant quand les paramètres du modèle ont un impact aussi important sur le prix

Sortie de Gemini 2.5 Flash

Lancement de l’aperçu de Gemini 2.5 Flash

Capacités de raisonnement de Gemini 2.5 Flash

Le modèle de raisonnement le plus rentable

Contrôle du niveau de réflexion : thinking_budget

Exemples de prompts selon le niveau de raisonnement

Faible niveau de raisonnement requis

Niveau de raisonnement intermédiaire requis

Niveau de raisonnement élevé requis

Prise en main

À lire aussi

1 commentaires

Avis sur Hacker News

Contrôle du niveau de réflexion : `thinking_budget`