- Gemini 2.5 Flash est un modèle de raisonnement hybride disponible via Google AI Studio et Vertex AI, qui améliore fortement les capacités de raisonnement tout en conservant la vitesse et le coût
- Grâce à la fonction thinking (on/off) et au réglage thinking_budget, il est possible d’ajuster finement les performances, le coût et la latence
- En définissant un budget de réflexion, on peut régler précisément le nombre maximal de tokens que le modèle peut générer, afin de fournir des réponses plus exactes et plus complètes pour les tâches complexes
- Il s’agit du modèle de raisonnement le plus rentable de Google, offrant de hautes performances pour un faible coût et une grande souplesse d’ajustement selon les cas d’usage
- Disponible actuellement en aperçu dans Google AI Studio et Vertex AI, avec configuration également possible via l’API
Lancement de l’aperçu de Gemini 2.5 Flash
- Google a dévoilé Gemini 2.5 Flash en version preview via Google AI Studio et Vertex AI
- Par rapport à 2.0 Flash, ses capacités de raisonnement sont nettement améliorées, tout en conservant la vitesse et l’efficacité en termes de coût
- Il s’agit du premier modèle de raisonnement entièrement hybride, permettant aux développeurs d’activer ou de désactiver le mode thinking
- Le paramètre thinking_budget permet d’ajuster l’équilibre entre qualité, coût et latence de réponse
- Même lorsque le mode thinking est désactivé, le modèle conserve de meilleures performances que 2.0 Flash
Capacités de raisonnement de Gemini 2.5 Flash
- Gemini 2.5 Flash n’émet pas immédiatement une réponse : il procède d’abord à une phase de réflexion
- Il génère des réponses plus exactes et plus complètes pour les problèmes complexes, les questions de mathématiques ou les demandes d’analyse de recherche
- Sur le benchmark Hard Prompts de LMArena, il affiche des performances juste derrière 2.5 Pro
- Il offre des performances comparables à d’autres modèles avec un prix plus bas et une taille de modèle plus réduite
Le modèle de raisonnement le plus rentable
- Gemini 2.5 Flash est présenté comme le modèle de raisonnement offrant le meilleur rapport performance/prix
- Il rejoint la frontière de Pareto de Google en matière de coût et de qualité
Contrôle du niveau de réflexion : thinking_budget
- Offre un réglage fin entre qualité, coût et latence selon les différents cas d’usage
thinking_budget désigne le nombre maximal de tokens que le modèle peut utiliser pour réfléchir
- Exemple : augmenter le budget améliore la qualité, mais accroît aussi le coût et la latence
- Pour les questions simples qui ne nécessitent pas de réflexion, un budget faible est automatiquement appliqué
- La plage de budget va de 0 à 24 576 tokens et peut être ajustée via un curseur dans AI Studio et Vertex AI, ou par paramètre d’API
Exemples de prompts selon le niveau de raisonnement
Faible niveau de raisonnement requis
- “Thank you” in Spanish
- Demander le nombre de provinces du Canada
Niveau de raisonnement intermédiaire requis
- Calculer la probabilité d’obtenir 7 en lançant deux dés
- Créer un emploi du temps permettant de jouer 5 heures au basket en semaine à partir d’un planning donné
Niveau de raisonnement élevé requis
- Problème de calcul de contraintes mécaniques sur une poutre
- Écrire une fonction d’évaluation de formules de style Excel
- Nécessite la résolution des dépendances, la priorité des opérateurs et la détection des cycles
Prise en main
- La version preview est disponible dans Google AI Studio, Vertex AI et l’application Gemini
- Essayez le paramètre
thinking_budget pour explorer la résolution de problèmes complexes
- Exemple de code :
from google import genai
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
model="gemini-2.5-flash-preview-04-17",
contents="You roll two dice. What’s the probability they add up to 7?",
config=genai.types.GenerateContentConfig(
thinking_config=genai.types.ThinkingConfig(
thinking_budget=1024
)
)
)
print(response.text)
- Plus de détails dans la documentation développeur et le Gemini Cookbook
- D’autres fonctionnalités seront ajoutées à l’avenir, avec des améliorations continues prévues jusqu’à la sortie officielle
1 commentaires
Avis sur Hacker News
Le fait que Google propose gratuitement Gemini 2.5 Pro (expérimental) a été un événement majeur. Je n’ai jamais utilisé les modèles plus chers d’OpenAI, donc je ne peux pas comparer, mais par rapport aux modèles gratuits que j’avais utilisés auparavant, Gemini 2.5 Pro représente un progrès considérable. Ce modèle est plus intelligent que moi sur la plupart des sujets que je traite, et il ne cherche pas à être d’accord avec moi : il me contredit et débat avec moi. Désormais, tout mon usage occasionnel de l’IA se concentre sur Gemini, et j’ai hâte de lui poser des questions sur des sujets de fond. Je suis en train de créer de nouveaux outils pour augmenter la valeur de ce modèle
L’une des capacités de Gemini souvent négligées est qu’il peut écrire et exécuter directement du code Python via l’API. Mon plugin llm-gemini le prend en charge : lien GitHub. L’exécution du code n’entraîne pas de coût supplémentaire : on ne paie que les tokens d’entrée et de sortie. Par exemple, cela m’a coûté 0,536 centime pour 10 tokens d’entrée et 1 531 de sortie
Les modèles Gemini Flash sont ceux dont on parle le moins, mais à l’usage ils offrent le meilleur rapport qualité-prix et proposent des outils multimodaux. Google est discrètement en train de gagner la course à l’IA
Information cachée en explorant en profondeur la documentation de Gemini 2.5 Flash : pour les entrées image, le modèle peut non seulement générer des boîtes englobantes 2D sur les sujets pertinents, mais aussi produire des masques de segmentation. À ce niveau de prix, obtenir des masques de segmentation avec un modèle Flash est assez impressionnant. Les masques de segmentation sont implémentés sous la forme d’une chaîne b64 représentant le masque
Pour quelqu’un comme moi qui n’est pas programmeur, Google devient étonnamment excellent. Il fournit du code qui fonctionne du premier coup. Quand je lui ai demandé d’écrire du code pour récupérer et analyser les données d’un site web, il a effectivement écrit du code qui récupère et analyse les données. C’était une classification et une agrégation de données basiques, mais je ne m’y attendais pas
Encore plus d’innovation de la part de Google. OpenAI a deux problèmes majeurs. D’abord, le pipeline de puces verticalement intégré de Google, ainsi que la profondeur de sa supply chain et de son savoir-faire opérationnel nécessaires pour produire des puces IA. Cela lui donne un avantage de coût énorme à chaque étape. Ensuite, la pénurie de données et l’avantage injuste des réseaux sociaux en tant que source de connaissances continuellement mises à jour. Les nouvelles données deviennent de plus en plus un facteur de différenciation précieux. SamA est conscient de ces problèmes et les considère comme fondamentaux pour déterminer si OpenAI réussira ou non
Hausse de prix de 50 % par rapport à Gemini 2.0 Flash. Cela paraît beaucoup, mais Flash reste très bon marché comparé aux autres modèles de cette qualité
J’ai trouvé quelque chose d’intéressant dans le code de la bibliothèque Python API : lien GitHub.
thinking_budgetest documenté, mais il est difficile de comprendre ce qu’estinclude_thoughts. Je n’ai pas trouvé comment utiliser cette option pour faire en sorte que Gemini renvoie un résumé de sa réflexionAlors même que Google propose des modèles impressionnants via l’API et l’AI Studio gratuit, le modèle utilisé dans l’application Gemini semble nettement moins bon. J’utilise Gemini Advanced avec un compte Workspace depuis quelques semaines, et le modèle semble réfléchir moins longtemps, produire des réponses plus courtes, et sa fenêtre de contexte paraît très loin du million de tokens annoncé. On dirait que Google bride volontairement l’application Gemini
En exécutant un PDF interne (3 pages, difficulté moyenne) sur un benchmark json :