2 points par GN⁺ 2025-08-02 | 1 commentaires | Partager sur WhatsApp
  • La fonctionnalité Gemini 2.5 Deep Think est lancée dans l'application Gemini pour les abonnés Google AI Ultra uniquement
  • Grâce à une nouvelle technique de pensée parallèle (parallel thinking) et aux résultats de recherche intégrés, elle a été améliorée à partir d'un modèle de niveau médaille d'or à l'IMO afin d'être plus adaptée à l'usage réel
  • Elle affiche d'excellentes performances sur une variété de tâches complexes, notamment la résolution créative de problèmes, le raisonnement mathématique et scientifique, et le développement d'algorithmes
  • Pour améliorer la performance, le temps de réflexion (Thinking Time) est augmenté afin d'explorer simultanément différentes idées et solutions, générant ainsi une réflexion plus profonde et des résultats plus créatifs
  • Des évaluations et des actions renforcées sont menées pour une sécurité et un développement responsable de l'IA, avec un élargissement prévu des usages via API et entreprise

Lancement de Gemini 2.5 Deep Think

  • La fonctionnalité Gemini 2.5 Deep Think est mise à disposition des abonnés Google AI Ultra via l'application Gemini
  • Version intégrant les retours de testeurs et de chercheurs de confiance ainsi que les dernières avancées de recherche
  • Basée sur un modèle de niveau médaille d'or de la récente Olympiade internationale de mathématiques (IMO), elle améliore vitesse et utilité pratique pour mieux correspondre à l'expérience utilisateur réelle
  • Cette annonce élargit son potentiel en tant qu'outil de résolution créative de problèmes, et une sophistication progressive de la fonction est prévue à partir des retours de mathématiciens et de chercheurs

Principe de fonctionnement de Deep Think

  • En introduisant une méthode de pensée parallèle, Gemini explore, compare et combine simultanément plusieurs idées et solutions pour résoudre des problèmes complexes
  • En allongeant le temps de raisonnement (Thinking Time) du modèle, il explore plus en profondeur plusieurs hypothèses pour trouver des solutions plus créatives
  • L'apprentissage par renforcement permet au modèle d'exploiter efficacement ces chemins de raisonnement étendus, renforçant une capacité de résolution de problèmes plus intuitive et plus profonde

Principales performances et cas d'usage de Deep Think

  • Développement et conception progressifs : de très bonnes performances sur les tâches qui font évoluer étape par étape des systèmes ou des designs complexes
  • Découvertes scientifiques et mathématiques : des atouts pour les explorations créatives de haut niveau, comme le raisonnement mathématique ou l'interprétation d'articles scientifiques
  • Développement d'algorithmes et de code : atteint des performances de pointe sur des problèmes de codage difficiles qui demandent structuration du problème, prise en compte de la complexité temporelle et des compromis
  • Sur des benchmarks récents (par exemple LiveCodeBench V6, Humanity’s Last Exam), il démontre des performances de premier plan en code, connaissances et raisonnement par rapport aux modèles précédents

Développement responsable et sûreté de Gemini

  • Gemini 2.5 Deep Think affiche de meilleurs résultats de sûreté que les modèles Pro existants, avec un contenu plus sûr et un ton plus objectif dans les évaluations de sécurité
  • La hausse de la complexité implique également une évaluation des risques associés, avec un renforcement des évaluations Frontier Safety et des mesures de mitigation nécessaires
  • Les résultats de sûreté détaillés sont consultables dans la model card

Utilisation de Deep Think

  • Les abonnés Google AI Ultra peuvent l'utiliser un nombre limité de fois par jour dans l'application Gemini en sélectionnant 2.5 Pro dans le menu déroulant du modèle puis en activant le toggle Deep Think dans la barre de prompt
  • Il s'intègre automatiquement à des outils comme l'exécution de code et Google Search, et permet la génération de réponses nettement plus longues
  • Des tests supplémentaires pour l'API Gemini et l'usage entreprise sont prévus prochainement

1 commentaires

 
GN⁺ 2025-08-02
Commentaires sur Hacker News
  • J’ai testé le nouvel agent Deep Think, mais après avoir saisi seulement cinq prompts, j’avais déjà atteint la limite d’utilisation quotidienne. Pour un service à 250 $ par mois, c’est assez décevant. Le rapport qualité-prix est nettement inférieur à celui de o3-pro ou de Grok 4 Heavy. Dans la communauté IA, c’est ce qui avait suscité le plus d’intérêt comme seule fonctionnalité capable de justifier à peu près le prix de l’abonnement Google Ultra. Mais Google offre gratuitement son meilleur modèle dans AI Studio, tout en appliquant ce type de politique tarifaire à ses vrais abonnés payants Ultra, ce que je ne comprends absolument pas. Côté performances, en lui donnant un problème métier difficile, il a fourni une solution claire et convaincante, conforme aux conclusions de nos réunions internes. Mais au final, o3 est aussi arrivé à une conclusion similaire pour un prix bien plus bas. Le rapport de o3 paraissait simplement un peu moins bien structuré. Il faudra voir après plus d’usage

    • Ce n’est sans doute pas encore totalement prêt ni optimisé pour une commercialisation complète, mais cela peut aussi être une stratégie pour le lancer avant l’entrée en vigueur de l’AI Act de l’Union européenne le 2 août, puis se mettre en conformité sur deux ans. Je pense donc qu’il est probable qu’ils l’aient d’abord ouvert avec de fortes restrictions d’usage pour un petit groupe d’utilisateurs
    • Je suis curieux des performances de Deep Think sur les tâches nécessitant un grand context. La pensée parallèle peut être extrêmement utile pour certains types de problèmes, donc j’aimerais tester s’il peut traiter plus de contexte que ce qu’une chain of thought traditionnelle peut couvrir
    • Il y a des années, je mesurais le niveau en programmation à la capacité de se débrouiller sans recherche web, ou à poser une question bien formulée sur StackOverflow puis y répondre soi-même. C’était parfois très gratifiant de voir des commentaires du genre « J’ai galéré pendant trois jours et cette réponse m’a sauvé la vie ». Cette semaine encore, je travaille sur un problème difficile, et pourtant les modèles d’IA façon Copilot ne m’aident presque pas. En programmation, le vrai niveau se ressent justement quand personne — pas même une IA — ne peut aider, et qu’il faut mobiliser soi-même généralisation, synthèse et créativité. (Du coup, je me console en me disant qu’il faudra encore un peu de temps avant d’être complètement remplacé par des agents de code IA)
    • J’ai utilisé Grok 4 et 4 Heavy, et d’après mon expérience c’est vraiment mauvais. Peu importe combien de requêtes on peut lancer, si les réponses sont nulles, ça ne sert à rien. C’est la pire dépense que j’ai faite cette année en matière de LLM. J’ai investi dans pas mal d’IA différentes, mais c’est l’argent dépensé pour Grok que je regrette le plus
    • Je suis souvent surpris de voir Google offrir ses modèles haut de gamme gratuitement dans AI Studio tout en n’accordant que des miettes à ses vrais clients. Mais en même temps, ce n’est pas du tout surprenant. Google ne doit probablement pas faire de grosses marges sur les clients AI Ultra, et considère sans doute que les énormes volumes de données utilisateurs issus du free tier d’AI Studio sont plus importants. En laissant le meilleur modèle gratuit, ils captent facilement la part de marché des utilisateurs les plus exigeants. Ensuite, ils pourront leur appliquer une politique tarifaire plus tard, tout en exploitant efficacement les serveurs actuellement inoccupés dont Google dispose
  • Voilà le résultat obtenu après avoir donné à Gemini Deep Think le prompt « dessine une image SVG d’un pélican à vélo » https://www.svgviewer.dev/s/5R5iTexQ Je l’ai fait avant Simon Willison !

    • Tout ce qui devient un mème sur HN est destiné à finir dans les données d’entraînement. Je trouve amusant d’imaginer un stagiaire dans chaque boîte d’IA transpirer pour dessiner un super SVG de pélican
    • Je viens de voir le résultat et j’ai été surpris qu’il ressemble vraiment clairement à un pélican, c’est plutôt pas mal
    • Ce genre de benchmark mème (par exemple les dessins de fraises, etc.) est drôle, mais comme ils sont désormais beaucoup trop présents dans l’entraînement des modèles, c’est une métrique facile à tromper
    • C’est le genre de chose qui donne vraiment l’impression de vivre dans le futur
    • Honnêtement, c’est la première fois que je me dis qu’on pourrait reconnaître « un pélican à vélo » juste en regardant le SVG, sans voir le prompt. L’exemple de la tour vocale est aussi impressionnant. J’ai l’impression que c’est une vraie avancée en perception visuelle et spatiale
  • Si vous voulez l’essayer vous-même, vous pouvez utiliser le CLI llm de simonw et le plugin llm-consortiumAvantage 1 : on peut combiner librement plusieurs modèles. On peut configurer n’importe quelle combinaison, quel que soit le laboAvantage 2 : en utilisant le plugin llm-model-gateway, on peut tout connecter d’un coup via une API locale à son app ou à son outil de collaboration de code https://x.com/karpathy/status/1870692546969735361
    Il a même écrit lui-même l’installation, des commandes d’exemple, ainsi qu’un exemple montrant qu’on peut créer un consortium of consortium aussi.
    https://GitHub.com/irthomasthomas/llm-consortium

    • Je me demande pourquoi on appelle ça une version locale de Gemini Deep Think. Une architecture multi-agents peut être implémentée de nombreuses façons, non ? Et à cause de la covariance entre plusieurs modèles, les erreurs peuvent aussi se synchroniser ; je pense donc qu’il est important, pour optimiser les performances, de maintenir la précision individuelle tout en réduisant la corrélation des erreurs via différentes combinaisons de structures. J’aimerais voir ça testé sur des benchmarks où plusieurs solutions existent
    • Je me demande si l’Union européenne est un consortium of consortiums
    • Quelqu’un demande s’il existe un plugin OpenWebUI qui prenne en charge ce type de fonctionnalité
    • Quelqu’un mentionne qu’il ne voit pas la commande llm serve
  • Ce n’est pas le modèle qui a remporté l’or aux IMO (Olympiades internationales de mathématiques) il y a quelques semaines, mais une variante très proche https://x.com/OfficialLoganK/status/1951262261512659430 Il n’est toujours pas proposé via API

  • Cette approche ressemble à Grok 4 Heavy : plusieurs agents de « raisonnement » tournent en parallèle, comparent ensuite leurs réponses et reviennent avec celle jugée la meilleure, en environ 30 minutes. Le résultat est excellent, mais en pratique il faudrait comparer les benchmarks à Grok 4 Heavy plutôt qu’à Grok 4 (agent unique, modèle plus rapide) pour que ce soit équitable

    • Répartir la même puissance de calcul de raisonnement entre plusieurs agents donne de meilleurs résultats. Cela permet aussi de surmonter le problème du « plus on réfléchit longtemps, plus la réponse se dégrade », en faisant plusieurs raisonnements courts en parallèle
    • L’article explique que Deep Think atteint sa solution finale en générant plusieurs idées en parallèle, en les considérant simultanément, en les intégrant puis en les révisant. Cette description ne dit pas clairement s’il s’agit réellement d’une approche multi-agents, donc elle laisse place à plusieurs interprétations
    • Grok-4 Heavy utilise des outils pour résoudre facilement beaucoup de problèmes présents dans les benchmarks, ce qui limite la comparaison directe
    • Je me demande en quoi l’approche de Google diffère d’un Mixture of Experts. Dans un MoE, on entraîne carrément des poids différents pour chaque expert, alors qu’ici la diversité de raisonnement semble obtenue seulement via l’ajustement de la temperature. Je me demande s’il existe des travaux comparant précisément le fait d’exécuter plusieurs fois le même modèle pour diversifier les idées, versus faire tourner en parallèle plusieurs modèles aux architectures ou poids réellement différents
    • Il est étonnant qu’aucune application ne soit encore sortie pour faire tourner les principaux LLM ensemble, sous une forme de confrontation, afin de sélectionner la meilleure réponse finale
  • OpenAI est monté à 200 $, Anthropic à 100 $ et 200 $, Gemini à 250 $, et Grok jusqu’à 300 $. OpenAI est le seul à parler d’un usage « pratiquement illimité », et je n’ai en effet jamais atteint de limite avec le plan ChatGPT Pro. En revanche, avec Claude Max, j’ai atteint la limite plusieurs fois. Je me demande pourquoi ces entreprises ne publient pas clairement leurs plafonds

    • Le but, c’est la double facturation. Si le prix était juste, elles afficheraient un tarif au token par requête, et on ne paierait que ce qu’on consomme. Mais les entreprises veulent des revenus récurrents fixes et cherchent à minimiser l’usage réel, donc elles vendent du pseudo-illimité au mois ou à l’année. Au final, c’est une structure conçue pour faire payer plus cher que l’usage réel
    • La vraie raison pour laquelle elles ne publient pas les limites à l’avance, c’est qu’elles doivent pouvoir les ajuster de manière flexible selon le marché ou la charge de l’infrastructure. Lors de pics soudains de trafic, comme la vague des images ChatGPT façon Ghibli autrefois, elles peuvent resserrer les limites ; et dans les périodes plus calmes comme maintenant, elles peuvent les desserrer
    • Si les limites étaient transparentes, les utilisateurs commenceraient à les contourner de manière opportuniste, et au bout du compte cela réduirait encore davantage les quotas pour tout le monde. Donc ne pas les publier est, en pratique, une meilleure option pour la majorité
  • Ces derniers mois, en utilisant Gemini, j’ai au contraire l’impression qu’il devient de pire en pire. Il hallucine beaucoup trop souvent, et même quand on le lui signale, l’IA s’obstine. Il devient difficile de lui faire confiance

    • D’après mon expérience, Flash s’améliore progressivement. Bien que je paie pour Pro, j’utilise plus souvent Flash. Pro me déçoit souvent car il va rarement chercher des informations récentes et se contente de répéter d’anciennes données d’entraînement, alors que Flash a rarement ce problème. Pour le code, j’utilise Pro dans Gemini CLI, et il est extrêmement performant non seulement pour écrire du code, mais aussi pour rédiger des documents de conception, décomposer des tâches hebdomadaires, gérer des plannings, etc. Quand on lui donne simplement une structure méthodique, il semble même gérer son propre contexte tout seul
    • J’ai eu une expérience similaire. Je n’utilise plus Gemini Pro. Il est beaucoup trop verbeux et contradictoire. Claude Sonnet 4 répond bien. J’ai aussi l’impression que l’écart de niveau entre Sonnet et Opus s’est beaucoup réduit récemment. Depuis l’introduction des nouveaux quotas, je commence d’abord par Sonnet. Désormais, il résout très bien la plupart des problèmes difficiles ou complexes, y compris face à Opus. Il y a encore quelques mois, je n’aurais pas eu ce sentiment
    • Moi aussi, j’ai l’impression que Gemini devient de plus en plus mauvais. Pourtant, sur des benchmarks comme fiction.livebench, il est difficile de quantifier cet écart. Je me demande s’ils n’appliquent pas une quantification trop agressive au modèle, avec perte de performances, ou si ce sont simplement nos attentes qui continuent d’augmenter
    • J’aimerais savoir si cela relève surtout de problèmes d’intégration d’outils, et si c’est utilisé dans AI Studio ou via l’API. De mon côté, j’ai souvent vu le modèle inventer des outils indisponibles et afficher une confiance excessive dans ses résultats
  • Les abonnés Google AI Ultra peuvent utiliser Deep Think dans l’app Gemini à partir d’aujourd’hui, avec un nombre fixe de prompts fournis. Mais j’aimerais savoir plus précisément si cet « ensemble fixe » désigne un nombre fixe de requêtes, ou bien des types de prompts prédéfinis

    • La limite est de 10 requêtes par jour. Comme le modèle réfléchit environ 30 minutes par prompt, il est davantage adapté à la recherche ou à des problèmes synthétiques multicouches qu’au code ordinaire ou à l’écriture de fanfictions
  • Quand j’utilise Gemini CLI pour planifier un agenda, même si je lui indique clairement à plusieurs reprises de ne pas faire d’actions imprévues et que j’interviens, il essaie souvent de modifier les choses arbitrairement et finit par désorganiser tout le plan

    • Ce type d’agents crée au contraire souvent de la confusion. Claude Code (Anthropic) est populaire parce qu’il exploite au maximum les performances du modèle. Mais Gemini CLI dégrade au contraire les performances intrinsèques de Gemini Pro 2.5. J’ai donc complètement abandonné Gemini CLI, même si c’est gratuit. En revanche, il reste très puissant pour les tâches centrées sur le prompt, donc je continue à l’utiliser régulièrement
    • J’ai eu la même expérience. Si on confie simplement une grande tâche abstraite à Gemini CLI, il accumule les erreurs. En revanche, dès qu’on lui donne un peu de structure claire, en séparant par étapes la génération du contexte, il produit des résultats vraiment impressionnants. À la première étape, je lui demande seulement de lire le code et de rédiger un document de définition des exigences. Ensuite, à partir de ce résultat, je lui fais documenter étape par étape les spécifications détaillées, la conception de l’API, le pseudocode des logiques délicates, etc. Enfin, je lui fais découper tout le développement en plan de travail par semaine, jour et heure, puis je lui fais écrire le code final avec suffisamment d’informations en entrée. On pourrait sans doute automatiser cela entièrement par script, mais en pratique c’est plus efficace avec un humain qui relit, donne du feedback et répète le brainstorming. Comme il génère lui-même plus de 90 % du contexte, avec cette méthode il fait désormais très peu d’erreurs dans la plupart des cas