5 points par GN⁺ 2025-11-26 | 1 commentaires | Partager sur WhatsApp
  • Gemini 3 de Google a évolué au-delà du simple chatbot conversationnel pour devenir une IA de type collègue numérique capable d’effectuer de vraies tâches comme écrire du code, naviguer sur le web et manipuler des fichiers
  • Présenté en même temps, Antigravity est un outil agentique qui accède à l’ordinateur de l’utilisateur pour écrire des programmes de manière autonome, et qui demande des validations ou de l’aide via un système Inbox
  • Gemini 3 exécute, selon les consignes de l’utilisateur, des tâches allant de la création de sites web à l’analyse de données et à la rédaction d’articles académiques, en montrant une capacité de recherche de niveau PhD
  • Des erreurs subsistent, mais elles relèvent surtout de différences de jugement ou de compréhension, ce qui rapproche l’outil d’un « coéquipier IA » collaborant avec l’humain
  • L’article insiste sur le fait que nous passons « de l’ère des chatbots à celle des collègues numériques », où l’humain ne corrige plus seulement les erreurs de l’IA, mais devient le gestionnaire qui pilote son travail

L’arrivée de Gemini 3 et trois ans de transformation

  • Google Gemini 3, apparu environ trois ans après le lancement de ChatGPT, illustre la vitesse des progrès de l’IA
    • À l’époque de GPT-3.5 en 2022, l’IA en était surtout à générer de simples paragraphes ou poèmes
    • En 2025, Gemini 3 est capable de coder et concevoir directement des jeux interactifs
  • Gemini 3 a créé, à la demande de l’utilisateur, un jeu réellement jouable appelé “Candy-Powered FTL Starship Simulator”
    • Cela montre le passage d’une IA qui se contentait autrefois de décrire du texte à une IA qui implémente directement le code et l’interface

Antigravity et l’IA agentique

  • Avec Gemini 3, Google a présenté un outil pour développeurs nommé Antigravity
    • Un système comparable à Claude Code ou OpenAI Codex, capable d’accéder à l’ordinateur de l’utilisateur pour écrire du code de façon autonome
  • Antigravity introduit le concept d’Inbox : quand l’IA a besoin d’une validation ou d’aide pendant une tâche, elle envoie une notification à l’utilisateur
  • L’utilisateur donne des consignes en anglais, et l’IA les exécute sous forme de code
    • Par exemple, elle a analysé les fichiers d’articles de la newsletter de l’auteur pour générer automatiquement un site web résumant des prédictions liées à l’IA
    • L’IA effectue des recherches web, exécute du code, teste dans le navigateur et empaquette le résultat pour un déploiement sur Netlify

Gemini 3 comme IA collaborative

  • Pendant l’exécution d’une tâche, Gemini 3 partage de manière transparente son avancement en sollicitant l’approbation de l’utilisateur
    • L’utilisateur examine et modifie les propositions de l’IA dans un cadre collaboratif
    • L’expérience se rapproche ainsi d’une forme de « gestion d’IA »
  • L’IA n’est pas parfaite, mais ses erreurs relèvent surtout de différences de jugement ou de malentendus sur l’intention, avec très peu de problèmes d’hallucination au sens classique
  • La collaboration avec Gemini 3 ressemble davantage à la gestion d’un membre d’équipe qu’à une simple saisie de prompt, ce qui souligne un mode d’interaction plus riche

Capacités de recherche et évaluation « niveau PhD »

  • Gemini 3 a réalisé des tâches d’analyse de jeux de données de recherche et de rédaction académique
    • Il a restauré et nettoyé un ancien fichier de données de crowdfunding, puis mené de nouvelles analyses
    • Il a rédigé un article de 14 pages sur le thème de la création d’entreprise et de la stratégie business
  • L’IA formule des hypothèses originales, réalise des analyses statistiques et crée ses propres métriques pour mesurer, par exemple, l’originalité des idées
  • Le résultat montrait un niveau comparable à celui d’un étudiant de troisième cycle, même si certaines méthodes statistiques et développements théoriques restaient insuffisants
    • Avec des consignes supplémentaires, la qualité s’améliore fortement
    • L’auteur estime qu’une « intelligence de niveau PhD n’est plus très loin »

La transition vers le collègue numérique

  • Gemini 3 se présente comme une IA partenaire capable de raisonner et d’agir, accessible à des milliards de personnes dans le monde
  • Rien n’indique un ralentissement des progrès de l’IA, tandis que la montée des modèles agentiques et l’importance de la capacité à gérer l’IA deviennent de plus en plus visibles
  • L’auteur écrit que « l’ère des chatbots est en train de laisser place à celle des collègues numériques »
    • L’humain ne se contente plus de corriger les erreurs de l’IA : il devient le manager qui orchestre son travail
  • Enfin, Gemini 3 a aussi démontré une capacité créative au-delà du texte, en générant une image de couverture de blog uniquement à partir de code
  • Cela dit, accorder à une IA l’accès à un ordinateur comporte des risques de sécurité, et il faut donc rester prudent

1 commentaires

 
GN⁺ 2025-11-26
Avis Hacker News
  • Chaque fois que je vois ce genre d’article, il y a toujours un point qui manque — la question « est-ce bon, est-ce exact ? »

    • On ne montre que les parties impressionnantes, mais dans la pratique il n’y a souvent aucune validation de la qualité
    • Dans le code que je comprends, je vois des problèmes de sécurité ou des erreurs, mais face à un article de 14 pages sur un domaine que je ne connais pas, je me demande : « je suis censé croire que c’est bien, c’est tout ? »
    • Au final, ce que je connais est à un niveau non livrable, alors que ce que je ne connais pas me paraît formidable
    • Je n’arrive pas à trouver cette contradiction cohérente
    • Il y a deux approches : faire confiance à une évaluation par des experts, ou lui faire exécuter des tâches complexes qu’on peut vérifier soi-même
      • Par exemple, avant, si on demandait du code de filtre de Sobel comme edgeDetect(image), selon le modèle ça passait ou non
      • Récemment, je lui ai demandé un shader glow WebGL, et il a produit une démo fonctionnelle compatible avec le module que j’avais écrit
      • Ce genre de chose se vérifie immédiatement via les performances et l’exactitude visuelle
      • Cela dit, même s’il dit « je peux le faire », ça ne marche pas à tous les coups ; il faut comprendre qu’il a déjà réussi au moins une fois, pas qu’il réussira systématiquement
    • Les modèles de dernière génération (Codex 5.1, Sonnet 4.5, Opus 4.5) deviennent de plus en plus prêts pour la prod
      • Mon critère, c’est le « wtfs per line », et ce chiffre baisse rapidement
      • J’ai déployé plusieurs projets avec Codex 5.1 sans problème (par ex. pine.town)
    • Plus loin dans l’article, les forces et faiblesses du papier sont effectivement évoquées
    • Comme les modèles ont tendance à vouloir satisfaire l’utilisateur, ils donnent parfois de mauvaises réponses avec une fausse assurance
      • Si l’utilisateur ne vérifie pas, il peut se faire avoir
  • Je trouve intéressant que jusqu’ici, notre manière d’interagir avec l’IA soit restée majoritairement centrée sur une boîte de texte

    • L’arrivée d’outils comme Claude Code ou OpenAI Codex a constitué un grand changement
    • Je pense que celui qui implémentera vraiment bien l’interface IA du futur créera une valeur énorme
    • Le texte reste efficace, car sa densité d’information est élevée
      • On peut le parcourir au scroll en quelques secondes, et le clavier reste l’outil d’entrée le plus productif
    • Si le CLI Unix est resté textuel pendant plus de 50 ans, c’est pour la même raison
      • Même avec des tentatives de données structurées comme PowerShell, on finit par perdre en généralité
      • Il est plus puissant d’amener l’IA à comprendre les interfaces humaines existantes
    • L’obsession de vouloir absolument inventer une nouvelle UI pour l’IA me paraît excessive
      • Fondamentalement, ce que les humains manipulent le mieux reste le texte, les tableaux et les graphiques
    • Le monde est par nature multimodal
      • Je pense que la prochaine étape sera une interface unifiée capable de traiter ensemble le texte et différents types de données
      • Avec les progrès de la robotique, les éléments 3D vont sans doute devenir particulièrement importants
    • L’interface vocale de ChatGPT est étonnamment naturelle, au point d’être parfois encore plus adaptée au brainstorming
  • Le problème des hallucinations existe toujours

    • Les erreurs sont devenues plus subtiles, plus humaines, mais des erreurs critiques continuent de s’y mêler
    • J’ai demandé à Claude une nouvelle courte d’une vingtaine de pages, et il n’a même pas réussi à maintenir l’ordre temporel de base ni la cohérence des personnages
    • Les modèles récents ne font plus seulement des erreurs simples : ils avancent des affirmations fausses avec assurance, allant jusqu’à inventer des références inexistantes
  • À propos de la question « est-ce une intelligence de niveau doctorat ? », en tant qu’étudiant en master/doctorat, j’ai une impression proche

    • Quand on discute avec les derniers modèles, on a l’impression de parler à un chercheur spécialisé dans un domaine
    • Malgré tout, je pense que l’intelligence naturelle et la motivation humaines restent essentielles
    • En programmation, c’est comme travailler avec deux développeurs — l’un est un intermédiaire compétent, l’autre est complètement à côté de la plaque
      • Le problème, c’est qu’ils ont exactement la même apparence, donc on ne peut pas les distinguer
    • Je fais souvent des expériences où je fais dialoguer deux modèles SOTA entre eux
      • Récemment, j’ai mis Gemini-3 et ChatGPT-5.1 ensemble, et ils ont discuté du problème de l’atrophie neuronale qui pourrait apparaître quand les humains renoncent à penser
      • J’ai trouvé marquant de les voir se demander si l’IA devait délibérément pousser les humains à « réfléchir »
    • C’est dommage que sur HN, ce genre d’avis se fasse souvent downvoter sans raison
  • Les progrès de Google se font non seulement côté logiciel, mais aussi côté matériel

    • Ils assurent à la fois l’entraînement et l’inférence sur leur propre hardware
    • Avant, la force de Google était sa capacité à exploiter du matériel généraliste ; aujourd’hui, l’évolution a pris une direction totalement différente
  • Gemini 3 est impressionnant, mais j’ai toujours l’impression qu’il reste dans les limites de la littérature existante

    • Si on lui demande de nouvelles idées sur des problèmes de maths, il répète simplement les résultats existants
    • Terrence Tao l’a lui aussi utilisé pour résoudre des problèmes de maths, mais cela ressemble davantage à un outil d’assistance aux idées qu’à une source de résultats vraiment nouveaux
    • J’ai aussi fait des essais avec Thinking with 3 Pro, et il fallait lui donner des indices quasiment au niveau du spoon-feeding pour qu’il s’approche enfin de mon idée
    • Au fond, cette admiration tient peut-être moins aux capacités du modèle qu’aux limites des attentes de l’utilisateur
    • Ce type de modèle ressemble essentiellement à un bibliothécaire du savoir, pas à une source d’idées nouvelles
    • Une véritable exploration créative nécessite d’explorer des espaces probabilistiquement moins parcourus, et de définir puis évaluer soi-même ses objectifs
      • L’architecture Transformer actuelle est conçue pour choisir les tokens les plus probables, donc elle poursuit fondamentalement la cohérence plus que la nouveauté
      • C’est pourquoi augmenter la température conduit davantage à une dégradation de la cohérence du texte qu’à de la créativité
      • Pour résoudre ce problème, il faudrait une génération d’objectifs adaptative et une évaluation fondée sur la simulation, mais le coût de calcul serait énorme
      • En fin de compte, je pense qu’avec l’architecture LLM actuelle, il est difficile d’atteindre une véritable intelligence
    • Ajouter une instruction personnalisée du type « utilise la recherche web en temps réel » aide pour aller chercher des informations récentes
  • La date de sortie de GPT-3, c’était juin 2020, et ChatGPT était en version 3.5

    • C’est un détail, mais je voulais le corriger précisément
  • On entend depuis longtemps que le human in the loop évolue, passant de l’humain qui corrige les erreurs de l’IA à l’humain qui pilote l’IA

    • Je me demande à quel moment cela deviendra clairement une réalité
    • Je ne pense pas qu’il y aura un point de bascule parfaitement net
      • Un peu comme un manager ne peut pas devenir quelqu’un qui se contente « de donner des instructions », il y aura toujours une part de correction
    • Si on branche directement des outils CLI avec des agents, on a déjà l’impression d’avoir franchi ce cap
    • Personnellement, j’ai déjà le sentiment d’être entré dans cette phase où je pilote l’IA
  • Je me demande si exécuter directement sur un système local des outils comme Claude Code ou Antigrav est vraiment sûr

    • Les produits basés sur VS Code sont sûrs grâce aux restrictions d’accès au workspace, tandis que des terminaux comme Warp se contrôlent avec des listes d’autorisation/interdiction de commandes
    • Certains permettent aussi de lever ces restrictions avec des flags, mais cela exige une action intentionnelle
    • De mon côté, je n’exécute ce genre de tâche que dans des conteneurs de développement Podman
    • Leash est un outil créé pour répondre à ce problème — un projet open source de contrôle de sécurité
    • Certains se contentent de dire « Yolo » et lancent ça en acceptant le risque
    • En pratique, la plupart des utilisateurs ont tendance à l’exécuter directement en local