Gemini 3.0 repéré publiquement via un test A/B

(ricklamers.io)

5 points par GN⁺ 2025-10-17 | 1 commentaires | Partager sur WhatsApp

Certains utilisateurs ont repéré dans Google AI Studio qu’un nouveau modèle Gemini 3.0 était proposé sous forme de test A/B
Gemini 3.0 est un modèle de nouvelle génération dont on attend une amélioration des performances en codage, et des utilisateurs ont pu constater la différence de qualité via un test de génération d’image SVG
Selon les résultats du test, le SVG généré d’une manette Xbox 360 est nettement meilleur, montrant une forte amélioration par rapport à Gemini 2.5 Pro
L’identifiant du modèle est ecpt50a2y6mpgkcn et il s’agit très probablement d’une version Gemini 3.0 Pro ; des changements de performances ont aussi été observés, comme une longueur de sortie en hausse de 40 % et un TTFT supérieur de 24 secondes
Cela suggère que Google a commencé à déployer expérimentalement le modèle Gemini de nouvelle génération, ce qui laisse penser qu’une annonce officielle est proche

Lancement non officiel de Gemini 3.0 et contexte

De récentes rumeurs indiquent que certains utilisateurs ont pu accéder à Gemini 3.0 dans Google AI Studio via un test A/B
Gemini 3.0 suscite actuellement beaucoup d’attention dans le domaine de l’IA, avec de fortes attentes autour de l’amélioration du rendu d’images IA et des performances en codage
Après plusieurs essais, l’écran du test A/B a pu être observé directement.
Prompt utilisé : Create an SVG image of an Xbox 360 controller. Output it in a Markdown multi-line code block.
Au final, le SVG de manette Xbox généré par Gemini 3.0 s’est révélé largement supérieur aux modèles précédents en matière de niveau de détail, précision et qualité de mise en page
L’ID du modèle Gemini 3.0 a été identifié comme ecpt50a2y6mpgkcn, mais il est difficile d’en connaître précisément la version
Comme le modèle sélectionné par défaut était Gemini 2.5 Pro, on peut supposer qu’il s’agissait en réalité d’une comparaison avec Gemini 3.0 Pro
Par rapport à Gemini 2.5 Pro
- TTFT (Time to First Token) en hausse d’environ 24 secondes
- Longueur de sortie en hausse d’environ 40 %
- Présence possible de reasoning tokens

Appendix

Liste des images de sortie issues de la comparaison A/B entre Gemini 3.0 et Gemini 2.5 Pro

1 commentaires

GN⁺ 2025-10-17

Avis Hacker News

Je suis peut-être minoritaire, mais dans mon entreprise nous avons accès à tous les modèles Pro, et d’après mon expérience Gemini est systématiquement meilleur que ChatGPT, Claude et Deepseek. C’est peut-être parce que je fais beaucoup de développement web, en particulier du HTML/SCSS, et je pense que le fait que Google ait crawlé Internet et dispose de davantage de données est un avantage. Chaque modèle a sans doute ses domaines de prédilection, mais pour le développement web UI/UX, Gemini est vraiment excellent. J’attends vraiment avec impatience la version 3.0
- J’ai trouvé que Gemini 2.5 Pro était particulièrement meilleur que Claude et GPT-5 dans les deux cas suivants.
  - Écriture créative : Gemini est de très loin supérieur aux autres modèles. Personnellement, Gemini 2.5 Pro est le seul modèle que je trouve à peu près utilisable pour l’écriture créative (poésie, nouvelles). Son niveau de compréhension des nuances est assez remarquable, au point que je l’utilise pour critiquer mes propres textes. Bien sûr, dans des domaines comme l’écriture poétique, tous les modèles restent encore insuffisants
  - Raisonnement complexe (mathématiques niveau licence/master) : Gemini est très légèrement plus précis, donc je le considère comme le meilleur. Claude Opus 4.1 et Sonnet 4.5 sont d’un niveau comparable, mais Gemini 2.5 fournit des réponses plus cohérentes et prévisibles (je l’utilise souvent pour l’algèbre, l’algèbre commutative, la théorie des catégories, la géométrie algébrique, la topologie, etc.)
  - En revanche, dans le rôle « d’agent » — par exemple pour parcourir l’ensemble d’une grosse codebase ou demander un refactoring sur une question ouverte — Gemini est moins bon que Claude et GPT-5. Il a des problèmes partiels avec les tool calls, donc il se comporte de façon irrégulière dans Copilot/Cursor
  - Globalement, je pense que Gemini 2.5 Pro est le plus intelligent, mais il reste pertinent d’utiliser des modèles différents selon les tâches
- Il y a quelques semaines, un script tiers interférait avec l’événement de clic de mon bouton React, et j’essayais de corriger ça en ajoutant un événement mousedown. J’étais fatigué et j’allais faire un correctif rapide et un peu sale en simulant un clic quelques ms après mousedown. J’ai expliqué mon plan à Gemini, et Gemini a refusé net, en me proposant à la place une solution plus propre consistant à combiner mousedown et mouseup. J’ai été vraiment impressionné par le fait qu’il ait parfaitement compris le problème et recommandé une meilleure méthode que celle que j’avais en tête
- Dans notre entreprise, nous benchmarkons les principaux modèles de LLM, et Gemini 2.5 est largement n°1, sauf dans quelques domaines très spécifiques. Cela colle bien avec les rumeurs selon lesquelles le préentraînement de Google est le meilleur, avec seulement quelques limites côté tuning/alignment. C’est précisément pour cela que j’attends énormément Gemini 3. La version 2.5 est la meilleure, mais il y a encore clairement de la marge de progression. (Domaines spécifiques : le « vrai raisonnement » (GPT-5) et l’écriture de scripts Python (famille Claude))
- Pour la précision de recherche ou les tâches fondées sur des faits, j’ai l’impression que Claude comme Gemini sont tous deux bien en dessous de ChatGPT. Gemini commence à inventer au bout de quelques recherches, alors que ChatGPT peut enchaîner des dizaines, voire des centaines de recherches, et poursuivre ses recherches additionnelles à partir des résultats déjà trouvés
- J’aime énormément la fenêtre de contexte plus large de Gemini. Ma façon de travailler consiste à convertir toute la codebase en chaîne de caractères, à la coller dans Gemini, puis à poser des questions. Les gens aiment les « agents » qui ne regardent que quelques fichiers choisis, mais moi je trouve bien plus pratique et efficace de simplement balancer toute la codebase et de travailler de façon interactive pour générer du code, modifier des fichiers, etc.
Je comprends mal l’intérêt excessif pour la génération de SVG par les LLM. C’est une tâche difficile à réussir d’un seul coup, et même les humains ont du mal à le faire, donc l’utilité est limitée. Si le modèle pouvait recevoir un retour visuel et améliorer le résultat, ce serait plus utile. Comme c’est devenu une tâche de benchmark populaire, les entreprises ajoutent désormais des exemples au dataset d’entraînement, si bien qu’au final on ne compare plus que qui a utilisé le meilleur dataset de « texte vers SVG », ce qui n’a pas grand-chose à voir avec la qualité globale du modèle
Depuis environ un mois, les informations autour de Gemini 3 se succèdent, accompagnées de diverses spéculations. Jusqu’à l’annonce officielle, je préfère suspendre mon jugement : personne ne sait s’il s’agira d’un modèle remplaçant Pro, Flash ou Flash Lite, d’un tout nouveau modèle, ni même s’il sera effectivement publié. Dans AIStudio, à cause du mode de test A/B, on ne peut obtenir que le résultat d’un seul prompt, ce qui ne permet de comprendre que la vitesse, la latence et le respect des instructions. Évaluer les performances réelles d’un modèle à partir d’un seul prompt n’a rien d’une évaluation sérieuse. On ne peut évidemment pas juger le traitement de plusieurs fichiers ni la gestion des tool calls. J’espère qu’on évitera de gonfler les attentes inutilement et de tomber ensuite soit dans l’emballement, soit dans la déception. C’est aussi pour cela que je n’aime pas trop les contenus spéculatifs : ils mettent l’accent sur le sensationnel sans vrai contexte ni analyse
- J’ai l’impression qu’aujourd’hui le hype est devenu un métier à part entière, mais c’est un peu agaçant de voir chaque lien Twitter accompagné de réactions exagérées du style "GAME CHANGER!!!", "Tout le monde va être choqué !". Les exemples concrets sont impressionnants, mais c’est dommage qu’ils s’accompagnent surtout des évaluations non professionnelles mentionnées plus haut
C’est vraiment un superbe dessin de pélican. J’ai très hâte d’essayer Gemini 3 exemple Twitter associé
- Le benchmark est (enfin) cassé
- C’est plus artistique que je ne l’aurais cru
- C’est censé être bien ? Pour moi c’est juste bof
Ce que je trouve étrange, c’est que Gemini 2.5 Pro est de tout premier plan pour la plupart des usages, mais uniquement sur la toute première question. Autrement dit, il est au meilleur niveau quand tout le contexte est fourni et qu’on pose une seule question pour obtenir une seule réponse. Plus la conversation se prolonge, plus la qualité chute brutalement. C’est étrange alors même qu’il a une fenêtre de contexte plus grande que les autres modèles. Du coup, j’utilise la méthode suivante : je mets tout le projet (environ 200 000 tokens) dans la fenêtre de chat, je pose une seule question bien formulée, puis je ferme immédiatement ce chat
- Le phénomène de dégradation continue de la qualité des réponses au fil d’une longue conversation, je l’ai observé avec tous les LLM que j’ai utilisés. C’est pourquoi je ne dépasse jamais deux messages. Si je n’obtiens pas le résultat souhaité dès la première réponse, la probabilité d’avoir la bonne réponse diminue à mesure qu’on ajoute des messages. Il vaut toujours mieux repartir sur un nouveau chat et ajuster le prompt
On lit que « Gemini 3.0 est l’une des sorties IA les plus attendues du moment, en particulier grâce à l’amélioration de ses performances en code », mais d’après ce que me disent des amis qui l’utilisent en interne chez Google, tout le monde risque d’être déçu.
Édit : en réalité, ils n’ont pas accès à Gemini 3, donc le fait qu’ils disent que ce n’est pas terrible est plutôt logique
- Gemini 3.0 n’est pas non plus largement déployé en interne chez Google à l’heure actuelle. « Gemini for Google » est une version fine-tunée de 2.5 Pro ou 2.5 Flash. Le modèle 3.0 lui-même n’est pas utilisé à grande échelle. (Employé Google, équipe liée aux paiements, opinion personnelle)
- Désolé de refroidir l’ambiance autour de cette attente, mais même dans notre équipe Vibecoding chez Google, nous n’utilisons pas Gemini 3
- Rien de surprenant. Les LLM arrivent à une limite en matière d’amélioration des performances (zone de rendements décroissants), et il faut trouver un moyen de fabriquer des GPU moins chers
Les exemples Gemini 3 se multiplient beaucoup plus sur Twitter. Après avoir vu ça, j’ai immédiatement acheté des actions Google. À voir les résultats, j’ai l’impression qu’il ne se contente pas de copier-coller d’anciens templates, mais qu’il produit de vrais nouveaux designs créatifs. Produire à ce niveau de code des sorties aussi cohérentes et esthétiques est extrêmement difficile, donc j’ai été choqué de voir Gemini 3 y parvenir. En plus, Google est la seule entreprise à avoir réalisé une intégration verticale complète du modèle jusqu’au hardware, donc je pense qu’elle a de très fortes chances de réussir à l’ère de l’IA
- Je ne suis pas expert en finance, mais je peux au moins te dire qu’acheter des actions uniquement sur la base de tweets pleins de hype n’est pas une stratégie d’investissement très sûre. Cela dit, si c’est pour t’amuser avec de l’argent que tu peux te permettre de perdre, alors pourquoi pas
Le Twitter de chetaslua publie divers résultats d’expériences autour de Gemini 3 (web desktop, clone de Vampire Survivor, modèle 3D de vogel réellement jouable, divers clones de jeux, SVG, etc.). En particulier, en one-shot, les résultats sont vraiment excellents et impressionnants
- Cet exemple était vraiment original : démo live codepen
  Lorsqu’on lance un terminal Python, il y a un petit effet amusant de rupture du quatrième mur
  1. Si on utilise le mot-clé d’impression "Python" print, une boîte de dialogue d’impression s’ouvre dans le navigateur
  2. Si on utilise le mot-clé d’ouverture "Python" open, un nouvel onglet du navigateur s’ouvre et tente d’accéder au fichier
    Autrement dit, l’exécution de print et open est directement reliée au navigateur
J’aimerais qu’ils améliorent le phénomène de looping (répétition). C’est un problème vraiment grave. Le CLI a aussi une fonction de détection de boucle, et elle s’est déclenchée au bout d’à peine une minute d’utilisation. Même avec 2.5 Pro dans l’app Gemini, même si on lui demande plusieurs fois de ne pas répéter, il finit quand même par répéter des mots et devient presque inutilisable
Je me demande si les modèles évaluent les SVG « visuellement » en les corrigeant plusieurs fois, ou si l’on attend d’eux qu’ils produisent un résultat parfait du premier coup
- Dans mon benchmark, il n’y a qu’une seule tentative.
  J’ai aussi testé une méthode consistant à montrer au modèle visuel le rendu généré et à lui permettre de l’améliorer jusqu’à trois fois, mais de manière surprenante, les résultats ne s’améliorent pas davantage

Gemini 3.0 repéré publiquement via un test A/B

Lancement non officiel de Gemini 3.0 et contexte

Appendix

À lire aussi

1 commentaires

Avis Hacker News