1 points par GN⁺ 2025-06-07 | 1 commentaires | Partager sur WhatsApp
  • Une version preview du tout dernier Gemini 2.5 Pro est désormais disponible avant son lancement officiel
  • Dans des évaluations majeures comme LMArena et WebDevArena, il affiche une hausse de 24 à 35 points Elo par rapport au modèle précédent
  • Il enregistre des performances de premier plan sur les principaux benchmarks en code, science, mathématiques, compréhension multimodale et traitement de contextes longs
  • Avec un prix d’entrée de $1.25 et un prix de sortie de $10 (par million de tokens), sa structure tarifaire est moins chère que celle de ses concurrents

Comparaison par principaux benchmarks

  • Reasoning & Knowledge (Humanity's Last Exam) : 21,6 %, un niveau comparable à OpenAI et Anthropic, et supérieur à DeepSeek R1 (14 %)
  • Science (GPQA diamond) : 86,4 %, meilleure performance du secteur (sur une seule tentative)
  • Mathematics (AIME 2025) : 88,0 %, un niveau similaire à OpenAI o3 et DeepSeek R1, supérieur à Anthropic Claude 4/3
  • Code Generation/Editing : LiveCodeBench 69,0 %, Aider Polyglot 82,2 %, avec une grande précision à la fois en génération et en modification de code
  • Agentic Coding (SWE-bench Verified) : 59,6 % (simple), 67,2 % (multi-tentatives), légèrement en dessous d’Anthropic Claude 4 mais comparable à OpenAI et DeepSeek
  • Factuality : SimpleQA 54,0 %, FACTS Grounding 87,8 %, avec un point fort dans la génération fondée sur des données réelles
  • Visual/Video/Image Understanding : MMMU 82,0 %, Vibe-Eval (image) 67,2 %, VideoMMMU (vidéo) 83,6 %, avec de solides performances en texte, image et vidéo
  • Long Context (MRCR v2, 128K) : 58,0 %, meilleure performance face aux principaux modèles concurrents comme OpenAI, Anthropic et xAI

Tarification et langues prises en charge

  • Prix d’entrée : $1.25 / million de tokens ($2.50 au-delà de 200K)
  • Prix de sortie : $10 / million de tokens ($15 au-delà de 200K)
  • Langues prises en charge : plus de 70 langues mondiales (multilingual polyglot 89,2 %)

Cas d’usage et caractéristiques supplémentaires

  • Disponible immédiatement en preview dans Google AI Studio et Vertex AI
  • Ajout de fonctions de contrôle des coûts et de la latence pour les développeurs, comme Thinking Budget
  • Renforcement des capacités adaptées à un usage réel en code, connaissances, multimodal et traitement de longs textes

Conclusion

  • Gemini 2.5 Pro se montre supérieur à ses concurrents sur plusieurs critères comme le prix, les performances, la polyvalence, le multimodal et le contexte long
  • Lors de l’adoption d’une IA en entreprise ou pour les développeurs, il est possible de prendre en compte à la fois des comparaisons claires basées sur les principaux benchmarks et l’efficacité des coûts

1 commentaires

 
GN⁺ 2025-06-07
Avis Hacker News
  • Je suis impressionné que Google ait encore gagné environ 25 points ELO sur lmarena, ce qui fait remarquer que le précédent n°1 était déjà Gemini Après avoir beaucoup utilisé Gemini et Claude Opus 4 ces dernières semaines, j’ai personnellement eu l’impression qu’Opus est dans une autre catégorie En travaillant sur des problèmes TypeScript complexes, j’ai pour la première fois vu Gemini tourner en rond sur le même point, voire abandonner en disant qu’il ne pouvait pas le faire, alors qu’Opus donnait l’impression de résoudre ça facilement Ce n’est peut-être pas représentatif de la performance globale, mais Gemini donne l’impression de forcer du code à fonctionner, alors qu’Opus semble saisir l’essence du problème et l’aborder de manière plus propre J’ai aussi eu l’impression qu’Opus a davantage d’imagination, ou qu’il est mieux optimisé pour des tâches agentiques J’ai été particulièrement marqué par le fait qu’Opus ait, de lui-même, produit une solution inattendue, comme créer un script playwright pour dumper le DOM, l’analyser et vérifier des problèmes d’interaction Gemini, lui, essaie surtout de traquer les bugs en lisant le code avec acharnement, mais cette approche me semble avoir ses limites Cela dit, Gemini reste un excellent modèle, et avant la version 4.0 je le considérais même comme le meilleur

    • Personnellement, je préfère même o3 à Opus 4, et après avoir dépensé plusieurs centaines de dollars ces derniers mois en outils de génération de code par IA, j’ai fini par établir mon propre classement La 1re place revient à o3, qui est excellent sur le souci du détail, la compréhension du fond du problème et la production de code de haute qualité réellement exploitable en production Ses défauts sont la fenêtre de cutoff, le coût, et le fait qu’il aime un peu trop utiliser les outils Sur les projets Rails, cela ne pose presque jamais de problème, mais ça a parfois un impact 2e place, Opus 4 (via Claude Code), très performant et moins cher que o3, donc c’est surtout lui que j’utilise au quotidien J’utilise souvent Opus 4 pour planifier et produire un premier jet, puis o3 pour le critiquer en détail et lister des retours qui permettent vraiment d’aboutir à quelque chose de plus abouti 3e place, Gemini 2.5 Pro, je n’ai pas encore testé cette toute dernière release, mais auparavant il était en 2e position Aujourd’hui, il est au niveau de Sonnet 4 ou légèrement au-dessus selon les cas 4e place, Sonnet 4, qui produit beaucoup de code, mais sans coaching ni supervision directe, il n’arrive pas vraiment à sortir un code de grande qualité, concis et profond Je suis assez obsessionnel sur la qualité et l’organisation du code (noms, réutilisabilité, etc.), au point de n’accepter que 33 % des suggestions automatiques selon mes stats Cursor du mois dernier Quand ce n’est pas sur la bonne trajectoire, je corrige les demandes erronées et j’affine les prompts pour chercher un meilleur résultat

    • Le plus grand point fort de Gemini par rapport aux autres modèles, c’est clairement la recherche Au travail, je lui ai demandé de rédiger un email à une société qui envoyait du spam depuis son domaine, et il a retrouvé l’email abuse de l’hébergeur, les infos de domaine, les serveurs MX, l’IP, le datacenter, etc. Je lui ai aussi demandé de transformer un article scientifique en podcast, ce qu’il a fait immédiatement, et c’était en plus assez agréable à écouter

    • Cette semaine, j’ai donné exactement la même tâche à Claude 4 et à Gemini 2.5, et Gemini a trouvé la bonne réponse alors que Claude a échoué Même sur des tâches qui n’étaient pas particulièrement difficiles, comme comparer des requêtes SQL, Gemini a souvent trouvé le vrai problème

    • En pratique, mon ressenti varie beaucoup selon les cas Sur certains problèmes, Gemini enchaînait les solutions sans difficulté, puis juste après bloquait sur un bug tout simple, ce qui est assez déroutant Même constat avec o3 et sonnet, et je préfère encore ne pas me prononcer sur 4.0 faute de l’avoir assez utilisé J’ai le sentiment qu’il faudrait une aide permettant d’évaluer plusieurs modèles en parallèle pour choisir la meilleure solution

    • On m’a demandé si j’avais aussi testé avec o3 Dans mon cas d’usage, o3 m’a beaucoup plus impressionné qu’Opus 4

  • Je commence de plus en plus à m’inquiéter de la valorisation d’OpenAI Il y a désormais beaucoup de concurrents solides, et l’idée qu’ils ne soient plus le leader incontesté devient crédible Je me demande comment ils vont encore lever des fonds avec une valorisation de 300 milliards de dollars Quand les revenus restent faibles alors que les coûts matériels et d’électricité continuent d’augmenter, il devient difficile d’estimer la valeur réelle Au moment où la prochaine génération de LLM aura besoin de nouvelles données, Facebook et Google semblent structurellement avantagés OpenAI, qui ne dispose pas en interne d’autant d’activités fondées sur la donnée, me paraît désavantagé dans la course aux données exclusives Leur forte valorisation se justifiait à l’époque où ils menaient à la fois la recherche et les apps grand public, mais aujourd’hui les fondements de cette confiance paraissent plus fragiles On peut se demander ce que les nouveaux investisseurs ont réellement à y gagner À 300 milliards de dollars de valorisation, il faudrait typiquement 150 milliards de chiffre d’affaires avec un multiple de 2x, ou bien, avec un P/E extrême de 100, 3 milliards de bénéfice annuel et un scénario de doublement chaque année pendant 10 ans, façon Amazon dans les années 2000 Et avec en plus les complications liées à leur structure non-profit/for-profit, une IPO elle-même pourrait ne pas être simple Félicitations à Google pour ses résultats, et il me semble très probable qu’ils soient les plus grands gagnants de la course à l’IA

    • Je pense qu’il y a un gros malentendu sur la position d’OpenAI sur le marché « chatgpt » est déjà devenu un verbe du quotidien, alors que Claude ou Gemini sont complètement inconnus du grand public Sauf bouleversement majeur, il n’y a aucune raison pour que les gens changent de produit Rien que la commodité de l’historique des conversations, de la mémoire et des possibilités d’export de ChatGPT crée déjà une vraie barrière au changement Avec 500 millions d’utilisateurs actifs, OpenAI n’a qu’à maintenir la qualité Si le paradigme actuel reste le même, ils peuvent très bien rattraper la technologie des autres même sans être devant Le grand public ne change pas de produit pour de petites améliorations

    • On m’a fait remarquer une erreur dans le calcul de valorisation Ce n’est pas le double de 300 milliards, mais bien 150 milliards de chiffre d’affaires Cela dit, l’argument de fond reste valable

    • Le domaine où OpenAI est clairement meilleur aujourd’hui, c’est la génération d’images En illustration, en BD, en retouche photo et pour imaginer des projets maison, il y a une vraie différence

    • Même si Google gagne la course à l’IA, son activité de recherche sera quand même cannibalisée Et il reste très incertain que l’IA lui permette d’extraire des gains économiques grâce à sa domination du marché Ils sont obligés de se battre, mais on peut penser qu’ils auraient préféré l’époque du monopole publicitaire

    • Avec les sorties imminentes de o3 pro et GPT 5, il est encore trop tôt pour affirmer qu’OpenAI n’est plus leader Si ces deux modèles ne montrent pas d’avancée nette, alors on pourra commencer à parler de perte de leadership Pour l’instant, j’ai au moins l’impression qu’ils sont au coude à coude avec Google et d’autres

  • C’est déjà déroutant qu’ils sortent trois versions preview du même modèle, mais en plus les deux dernières dates (05-06 et 06-05) rendent le tout encore plus confus C’est dommage, un jour de décalage aurait suffi à rendre ça plus clair

    • Avec cette ambiguïté de date, il aurait presque fallu repousser jusqu’au 13 pour éviter toute confusion Au Canada, entre les formats de date britanniques et américains, c’est vraiment confus Le format y-m-d est désormais officiellement autorisé et devient de plus en plus courant

    • Le fait même que 05-06 et 06-05 prêtent à confusion donne presque l’impression d’une moquerie explicite envers les modèles 4o et o4 d’OpenAI

    • Je me demande quand Gemini 2.5 pro passera à 2.6 pro Avec Gemini 3, on peut s’attendre à ce que la taille augmente encore

    • Petite blague habituelle : les développeurs sont vraiment mauvais pour nommer les choses

  • Il y a deux problèmes que je rencontre uniquement avec Gemini

    1. il renomme parfois des variables alors qu’on ne lui a jamais explicitement demandé de le faire
    2. il lui arrive aussi d’oublier un crochet fermant J’aime bien garder des noms de variable courts, comme simplement json, donc même si l’intention est bonne, trop de changements de ce genre rendent les code reviews pénibles
    • Voici un cas concret que Gemini gère mal Même si le code précise clairement processing_class=tokenizer, après plusieurs modifications Gemini continue de le remplacer par tokenizer=tokenizer Même en mettant un énorme commentaire DO NOT CHANGE au-dessus, il continue à le modifier à tort Je n’ai pas encore essayé la dernière version (06-05), mais le même problème se répétait déjà sur la 05-06

    • En pratique, o1-pro reste lui aussi tout en haut de mon classement avec Gemini Mais Gemini ajoute beaucoup trop de commentaires inutiles et de changements de code sans rapport, ce qui le rend difficile à utiliser dans un vrai contexte de travail Il est utile pour explorer des idées, mais pour la solution finale j’utilise o1-pro

    • Gemini ajoute aussi plein de commentaires absurdes qui n’ont rien à faire dans le code « # Added this function », « # Changed this to fix the issue », etc. Ce genre de choses a sa place dans un message de commit ou une PR, pas dans le code lui-même

    • ChatGPT ignore lui aussi souvent certaines consignes Par exemple, même si j’insiste pour dire « n’utilise ni em dash ni en dash », il en met encore davantage J’ai essayé plusieurs fois et je n’ai jamais réussi à vraiment contrôler ce comportement

  • Je paie à la fois ChatGPT Plus et Gemini Pro J’envisage d’arrêter ChatGPT parce que je tombe sans arrêt sur des rate limits Avec Gemini/AI Studio, cela ne m’est encore jamais arrivé

    • AI Studio utilise en réalité un compte API côté backend, avec création automatique d’un projet Google Cloud free tier Tout en bas de la page « get an api key », on peut lier un compte de facturation D’après les conditions d’utilisation de Google, l’API gratuite pourrait ne pas être considérée comme un usage commercial, et les prompts pourraient être relus par des humains puis réutilisés comme données d’entraînement

    • Comme AI Studio passe par l’API, il est en pratique extrêmement rare qu’un utilisateur normal atteigne les limites d’un modèle preview payant

    • J’aimais beaucoup plus Gemini que ChatGPT, mais Gemini Pro a récemment ajouté une limite de 100 messages par jour AI Studio semble encore sans limite

    • Je me demande s’il y a une raison de ne pas utiliser l’API via un intermédiaire comme openrouter

  • J’avais trouvé les précédents modèles Gemini inférieurs à Claude 3.7 Sonnet pour l’assistance au code (et la version 4 encore pire) Je ne compte pas essayer cette nouvelle version tant qu’il n’y aura pas d’évaluations directes Je vois tellement d’éloges de Gemini sur Internet que cela ne correspond pas du tout à mon expérience personnelle, au point de me demander s’il n’y a pas un mélange de marketing agressif et d’engouement artificiel

    • Selon moi, l’évaluation dépend surtout de ce qu’on lui demande réellement de faire Claude 3.5/3.7 Sonnet est carrément inutilisable en C/C++/Make/CMake Entre informations fausses, code impossible, syntaxe ou API inventées, contradictions logiques, j’ai eu de très mauvaises expériences Gemini 2.5-pro et o3 étaient de très loin meilleurs, au point que toute l’équipe les trouvait supérieurs Claude est peut-être fort en TypeScript ou en Ruby, mais dans mon travail à moi, Gemini dépasse largement le simple effet de hype

    • Je n’ai pas utilisé Claude, mais Gemini m’a toujours donné de meilleures réponses que ChatGPT ou Copilot sur les questions du quotidien En particulier pour la recherche d’informations (méthodes en ligne de commande, infos produit, etc.), Gemini a un avantage très net

    • Dans Aider, j’alterne entre Sonnet et Gemini Curieusement, certains problèmes ne peuvent être résolus que par l’un des deux, sans qu’on puisse repérer de schéma à l’avance

    • Je pense que Claude 3.7 Sonnet est meilleur que Gemini comme assistant de code, mais en data science ou sur des ETL Python complexes, Claude m’a déçu et o3 est bien supérieur

    • Dans Roo Code, Claude gère mieux l’usage des outils, mais le style de code plus concis de Gemini correspond davantage à mes goûts J’utilise donc les deux, ou bien je passe à l’autre quand l’un échoue

  • Au lieu de sortir en permanence des versions preview avec simplement une date, ils feraient mieux d’incrémenter un numéro de patch

    • Pour éviter d’impacter l’écosystème construit autour des anciennes versions, il faut aussi parfois séparer les modèles à chaque mise à jour majeure
  • Score de 82.2 sur Aider En réalité, cela reste encore en dessous du score officiel de o3 high Lien : classement Aider

    • Question : est-ce que 82.2 correspond bien au même indicateur « Percent correct » que les autres modèles ? Le o3 (high) « pur » est à 79.6 %, et la combinaison o3 (high) + gpt-4.1 monte jusqu’à 82.7 % L’ancien Gemini 2.5 Pro Preview 05-06 était autour de 76.9 % C’est donc un saut assez important Les benchmarks Aider sont actuellement parmi les plus crédibles

    • Le plus étonnant, c’est surtout qu’il soit bien moins cher et plus rapide

    • Il faut noter que le score mentionné correspond à l’ancienne preview 05-06, pas à la nouvelle version sortie aujourd’hui

  • Référence à un tweet indiquant que 06-05 comble l’écart entre 03-25 et 05-06 Tweet lié

  • Je serais curieux de voir une comparaison de code avec Claude 4 Sonnet D’après ce tableau de blog, il est indiqué comme clairement inférieur à Claude 4 Sonnet

    • En pratique, la plupart des benchmarks cités concernent la programmation, et seul SWE-Bench donne Claude devant Il est difficile de savoir quel benchmark reflète le mieux le travail réel, mais dans la communauté, Aider Polyglot a bonne réputation