19 points par GN⁺ 2025-11-19 | 3 commentaires | Partager sur WhatsApp
  • Google a dévoilé Gemini 3, son modèle d’IA le plus intelligent, avec des capacités renforcées de raisonnement et de compréhension multimodale
  • Gemini 3 Pro affiche les meilleures performances sur tous les principaux benchmarks par rapport à la génération précédente, et traite des entrées variées comme le texte, l’image, la vidéo et le code
  • Le mode Deep Think ajoute des fonctions de raisonnement avancées pour résoudre des problèmes complexes, avec un déploiement progressif prévu pour les abonnés Ultra
  • Gemini 3 prend en charge l’apprentissage, le développement et la planification, et sera disponible dans Google Search, l’application Gemini, AI Studio, Vertex AI et plus encore
  • Avec Gemini 3, Google accélère la transition vers l’ère des agents intelligents et de l’IA personnalisée

Vue d’ensemble de Gemini 3

  • Gemini 3 est le modèle d’IA le plus intelligent développé par Google, conçu pour aider les utilisateurs à concrétiser n’importe quelle idée
  • Il combine la compréhension multimodale et le codage agentique (Agentic Coding) afin de traiter de façon unifiée des entrées variées comme le texte, l’image, la vidéo, l’audio et le code
  • Gemini 3 Pro est disponible dans l’ensemble de l’écosystème Google, notamment AI Studio, Vertex AI, l’application Gemini et la plateforme Google Antigravity
  • Le mode Deep Think soutient la résolution de problèmes complexes grâce à de meilleures capacités de raisonnement, et sera proposé aux abonnés Google AI Ultra

Message du CEO

  • Sundar Pichai a rappelé qu’en deux ans depuis le lancement du projet Gemini, celui-ci a atteint 2 milliards d’utilisateurs mensuels pour AI Overviews, 650 millions d’utilisateurs pour l’application Gemini et plus de 1300 développeurs participants
  • La structure d’innovation IA full-stack de Google (infrastructure–recherche–modèles–produits) permet une diffusion rapide des avancées technologiques
  • Gemini 3 est un modèle qui intègre les capacités multimodales, de raisonnement et d’agent de la génération précédente, afin de mieux comprendre l’intention et le contexte de l’utilisateur
  • Gemini 3 est lancé simultanément dans AI Mode de Search, l’application Gemini, AI Studio, Vertex AI et Google Antigravity

Performances de Gemini 3 Pro

  • Gemini 3 Pro enregistre de meilleures performances que 2.5 Pro sur tous les principaux benchmarks IA
    • 1501 Elo sur le classement LMArena, 37.5% sur Humanity’s Last Exam, 91.9% sur GPQA Diamond et 23.4% sur MathArena Apex
    • 81% sur le benchmark multimodal MMMU-Pro, 87.6% sur Video-MMMU et 72.1% sur SimpleQA Verified
  • Il fournit des réponses précises et concises et peut servir à visualiser des concepts scientifiques ou à concrétiser des idées créatives
  • Parmi les exemples d’usage figurent la génération de code de visualisation de flux de plasma dans un tokamak et la rédaction d’un poème sur la physique de la fusion nucléaire

Gemini 3 Deep Think

  • Le mode Deep Think renforce encore les capacités de raisonnement et de compréhension multimodale de Gemini 3
    • 41.0% sur Humanity’s Last Exam, 93.8% sur GPQA Diamond et 45.1% sur ARC-AGI-2, soit des performances au plus haut niveau
  • Il démontre des capacités avancées de raisonnement pour résoudre des problèmes complexes et relever de nouveaux défis

Apprendre (Learn anything)

  • Gemini 3 aide à l’apprentissage grâce à une fenêtre de contexte de 1 million de tokens et au raisonnement multimodal
    • Traduction de recettes manuscrites et création d’un livre de cuisine numérique
    • Résumé de longs cours ou articles scientifiques, et génération de flashcards interactives ou de code de visualisation
    • Création de plans d’entraînement personnalisés à partir de l’analyse de vidéos sportives
  • AI Mode de Google Search, propulsé par Gemini 3, génère en temps réel des mises en page visuelles immersives et des outils interactifs

Développer (Build anything)

  • Gemini 3 est performant en génération zero-shot et dans le traitement de prompts complexes, avec un score de 1487 Elo sur WebDev Arena
    • 54.2% sur Terminal-Bench 2.0 et 76.2% sur SWE-bench Verified, avec de meilleures performances en usage d’outils et en agents de codage
  • Le développement est possible dans Google AI Studio, Vertex AI, Gemini CLI et Google Antigravity
  • Il est aussi pris en charge sur des plateformes tierces comme Cursor, GitHub, JetBrains, Manus et Replit

Google Antigravity : un environnement de développement centré sur les agents

  • Google Antigravity est une plateforme de développement agentique basée sur Gemini 3, qui permet aux développeurs de collaborer avec l’IA au niveau des tâches
  • Les agents peuvent accéder directement à l’éditeur, au terminal et au navigateur pour écrire, exécuter et vérifier automatiquement du code
  • La plateforme intègre Gemini 3 Pro, le modèle Gemini 2.5 Computer Use et le modèle d’édition d’images Nano Banana
  • Un exemple présenté montre un workflow où l’agent conçoit, code et valide de lui-même une application de suivi de vols

Planifier (Plan anything)

  • Gemini 3 renforce ses capacités de planification à long terme et prend la 1re place du classement Vending-Bench 2
    • Dans une simulation d’exploitation d’un commerce de distributeurs automatiques, il maintient des décisions stables pendant un an
  • Il peut automatiser des tâches complexes en plusieurs étapes, comme le tri des e-mails ou la réservation de services
  • Grâce à la fonctionnalité Gemini Agent, les abonnés Ultra peuvent en faire directement l’expérience dans l’application Gemini

Développement responsable

  • Gemini 3 est présenté comme le modèle le plus sûr parmi les IA de Google, avec une meilleure résistance aux injections de prompt et une défense renforcée contre les cyberattaques
  • Des tests internes et des évaluations par des experts externes ont été menés conformément au Frontier Safety Framework
    • Participation d’organisations telles que UK AISI, Apollo, Vaultis et Dreadnode
  • Les résultats détaillés des évaluations de sécurité sont publiés dans la model card de Gemini 3

Le début de l’ère Gemini 3

  • Le déploiement de Gemini 3 commence via les canaux suivants
    • L’application Gemini et AI Mode de Search
    • Un accès développeur via AI Studio, Google Antigravity et Gemini CLI
    • Un déploiement en entreprise via Vertex AI et Gemini Enterprise
  • Le mode Deep Think sera proposé aux abonnés Ultra après des vérifications de sécurité supplémentaires
  • D’autres modèles de la série Gemini 3 seront annoncés par la suite, avec une extension prévue en fonction des retours des utilisateurs

3 commentaires

 
t7vonn 2025-11-19

Gemini, le GOAT 😱

 
GN⁺ 2025-11-19
Commentaires Hacker News
  • J’ai donné à Gemini une ancienne appli de calculatrice basée sur XML, et en moins d’une minute il m’a produit une web app complète
    J’avais moi-même développé pendant des années un compilateur sur mesure pour convertir ce XML en applis Android/Swing, et Gemini y est arrivé sans même une description du format
    Quand j’avais essayé avec Lovable, l’appli ne fonctionnait pas correctement et j’avais juste gaspillé des crédits, mais cette fois c’était à un tout autre niveau
    Lien vers le résultat

  • J’ai testé le dernier problème Project Euler (#970) avec Gemini. Il y avait peu de chances qu’il soit dans les données d’entraînement, mais après 5 min 10 s de réflexion, il a donné du code Python correct
    Les temps de résolution des 3 meilleurs humains étaient de 14 minutes, 20 minutes et 1 h 14
    Je me doutais que ce genre de problème faisait partie des domaines où le modèle avait été affiné par RL, mais ça reste impressionnant de voir un problème qui aurait pris plusieurs jours être résolu en quelques minutes

    • J’ai aussi essayé de résoudre le même problème avec Gemini 3 Pro Preview : il a rendu un résultat en 4 min 31 s, mais c’était faux
      Bien que la recherche web ait été interdite, il a quand même renvoyé 8 « sources » comme stackexchange, youtube, etc.
      Malgré ça, l’intuition générale était en grande partie correcte, donc c’est quand même un outil assez utile
      Lien vers le prompt
    • J’ai retenté l’ancien problème low de Kattis que je testais depuis longtemps, et pour la première fois un LLM l’a passé
      Depuis ChatGPT, aucun modèle n’y arrivait, mais Gemini 3 a enfin réussi
    • Le score Elo élevé du modèle vient peut-être simplement de sa vitesse
      Mais vu ce genre de résultats, j’ai l’impression qu’on aura une IA de niveau Stockfish pour les puzzles d’ici dix ans
    • Pour référence, le problème le plus récent actuellement est Project Euler #970
    • J’ai essayé avec gpt-5.1 thinking, et il est simplement allé chercher la réponse sur Internet 😅
  • J’ai repris un prompt de widget d’horloge analogique avec lequel j’expérimentais auparavant sur Flash 2.5, je l’ai donné à Gemini 3 Pro Preview, et j’ai obtenu du premier coup un résultat parfaitement fonctionnel
    Lien vers le résultat

    • Flash 2.5 n’était pas mal non plus. Il m’a créé une horloge UNIX métrique, avec les secondes exprimées en kilosecondes
      Une journée fait 86,4 ks, et on est actuellement vers 1,76 gigaseconde dans l’époque AUNIX. J’aimerais un jour en fabriquer une version physique de 20 pieds
    • Je ne supporte pas l’absence d’animation « wiggle » quand la trotteuse atteint le 12 😂
    • Ce projet est un exercice du cours 30 Days of JavaScript de Wes Bos, donc il est très probable qu’il figurait dans les données d’entraînement
    • J’y ai ajouté quelques améliorations, mais il n’a réussi le tic-tac qu’au deuxième essai
      Lien vers la version améliorée
    • Le prompt utilisé par quelqu’un d’autre était bien plus simple. Celui que j’utilisais à l’origine demandait seulement de générer du HTML/CSS incluant la variable ${time}, et Gemini l’a complètement raté
      Lien vers un exemple raté
  • J’ai rassemblé mes notes sur le benchmark Pelican ainsi qu’une nouvelle version plus difficile
    Article de blog

    • On dirait que chaque labo va désormais avoir un « responsable pelican ». Probablement quelqu’un qui s’entraîne jour et nuit à mieux dessiner un pélican à vélo en SVG
    • Ils ont passé des mois à entraîner les pélicans, et dès que j’ai changé le benchmark, l’objectif a changé aussi 😂
    • Il est très probable que « pélican à vélo » soit déjà présent dans les données d’entraînement
    • On disait qu’il n’y avait pas de problème de saturation, mais à voir les résultats, on dirait que les grands labos gravissaient en secret la colline des pélicans
    • C’est dommage que la date de cutoff des connaissances de Gemini 3 soit janvier 2025, comme pour la 2.5
      Il est possible qu’ils utilisent le même modèle de base et n’aient amélioré que le tuning RL
  • Gemini 3 Pro Preview a complètement échoué sur mon benchmark Python de base
    Gemini 2.5 Pro s’en est un peu mieux approché, mais restait faux
    En revanche, gpt-5.1-thinking, Claude Sonnet 4.5 et Opus 4.1 le passent
    Ça m’a rappelé une fois de plus que les benchmarks ne sont pas une mesure absolue

    • Dire que « les benchmarks ne servent à rien » est exagéré. Ils ont des limites, mais restent des indicateurs utiles
      Je suis curieux de savoir à quoi ressemble un problème Python « de base » sur lequel GPT-5 thinking échoue
    • Il est difficile de tirer une conclusion fiable à partir d’un benchmark personnel unique. Si tu le partages, tout le monde pourra le vérifier
    • Moi, je teste souvent « créer un jeu Pac-Man dans une seule page HTML ». Gemini 3 a échoué à peu près comme la 2.5
    • L’intérêt d’un benchmark dépend de la qualité de sa conception. On ne peut pas le juger uniquement sur le fait qu’il soit public ou non
    • Dans le score SWEBench publié par Google, Gemini 3 Pro était derrière Claude Sonnet 4.5. Je me demande si Opus 4.5 ferait encore mieux
  • En travaillant sur une question liée au médical, Gemini 2.5 Pro n’avait vu juste qu’à moitié, alors que Gemini 3.0 a tout résolu parfaitement
    Il a même structuré logiquement les réglementations, les recherches et les procédures d’approbation associées, au point d’aider réellement à la prise de décision
    Ce genre de modèle pourrait vraiment changer la vie des gens

  • J’ai trouvé très drôle que le billet d’annonce de Google comporte un bouton « Lire le résumé généré par l’IA »
    La prochaine étape sera sûrement : « laissez notre IA lire le résumé de votre IA »
    Au final, on finira peut-être comme avec l’Electric Monk de Douglas Adams, où même la croyance sera automatisée

    • J’avais moi aussi voulu appeler un projet IA dans mon entreprise Electric Monk, mais c’était trop polémique, donc je l’ai renommé Electric Mentor
    • À ce sujet, cette BD de SMBC est très appropriée
    • Maintenant, ce serait bien que l’IA automatise aussi la résolution des pannes cloud
    • On dirait que le jour où l’IA remplacera non seulement les développeurs mais aussi les managers n’est plus très loin
  • Mon benchmark préféré consiste à résumer de longs fichiers audio de réunions et à identifier les intervenants
    Gemini 2.5 résumait correctement, mais se trompait complètement sur l’identification des locuteurs ; la 3.0, elle, a tout bon

    • J’ai fait un essai sur un podcast de 90 minutes, et Gemini 3 a produit des citations hallucinées avec des horodatages entièrement faux
      Il a donc encore des limites sur l’audio long
    • Avec des modèles audio spécialisés comme ElevenLabs ou Soniox, c’est bien plus précis
    • Je serais curieux de savoir quel prompt tu utilises
    • Je suis moi aussi en train de créer un projet d’identification des intervenants dans des podcasts, et ça fonctionne plutôt bien
    • Parakeet TDT v3 semble très bien adapté à ce genre de tâche
  • Gemini 3 a aussi échoué à mon test de photo de chien à 5 pattes
    Cela dit, contrairement aux autres modèles, il a bien détecté la cinquième patte, mais l’a prise pour une autre partie du corps
    La perception visuelle reste un défi majeur

    • La perception est un domaine que l’évolution a affiné pendant des milliards d’années, donc c’est un problème bien plus difficile sur le plan computationnel
    • C’est peut-être dû à un angle mort des filtres de sécurité, qui provoque ce genre d’erreur d’interprétation
 
nullptr 2025-11-19

Actuellement, il peut être utilisé gratuitement dans Antigravity ( https://antigravity.google/pricing ), le fork OSS de VSCode lancé par Google.
Par ailleurs, il semble que dans gemini-cli, seul AI Ultra (360 000 wons par mois) soit disponible pour le moment.