Trois ans de GPT-3 à Gemini 3

(oneusefulthing.org)

5 points par GN⁺ 2025-11-26 | 1 commentaires | Partager sur WhatsApp

Gemini 3 de Google a évolué au-delà du simple chatbot conversationnel pour devenir une IA de type collègue numérique capable d’effectuer de vraies tâches comme écrire du code, naviguer sur le web et manipuler des fichiers
Présenté en même temps, Antigravity est un outil agentique qui accède à l’ordinateur de l’utilisateur pour écrire des programmes de manière autonome, et qui demande des validations ou de l’aide via un système Inbox
Gemini 3 exécute, selon les consignes de l’utilisateur, des tâches allant de la création de sites web à l’analyse de données et à la rédaction d’articles académiques, en montrant une capacité de recherche de niveau PhD
Des erreurs subsistent, mais elles relèvent surtout de différences de jugement ou de compréhension, ce qui rapproche l’outil d’un « coéquipier IA » collaborant avec l’humain
L’article insiste sur le fait que nous passons « de l’ère des chatbots à celle des collègues numériques », où l’humain ne corrige plus seulement les erreurs de l’IA, mais devient le gestionnaire qui pilote son travail

L’arrivée de Gemini 3 et trois ans de transformation

Google Gemini 3, apparu environ trois ans après le lancement de ChatGPT, illustre la vitesse des progrès de l’IA
- À l’époque de GPT-3.5 en 2022, l’IA en était surtout à générer de simples paragraphes ou poèmes
- En 2025, Gemini 3 est capable de coder et concevoir directement des jeux interactifs
Gemini 3 a créé, à la demande de l’utilisateur, un jeu réellement jouable appelé “Candy-Powered FTL Starship Simulator”
- Cela montre le passage d’une IA qui se contentait autrefois de décrire du texte à une IA qui implémente directement le code et l’interface

Antigravity et l’IA agentique

Avec Gemini 3, Google a présenté un outil pour développeurs nommé Antigravity
- Un système comparable à Claude Code ou OpenAI Codex, capable d’accéder à l’ordinateur de l’utilisateur pour écrire du code de façon autonome
Antigravity introduit le concept d’Inbox : quand l’IA a besoin d’une validation ou d’aide pendant une tâche, elle envoie une notification à l’utilisateur
L’utilisateur donne des consignes en anglais, et l’IA les exécute sous forme de code
- Par exemple, elle a analysé les fichiers d’articles de la newsletter de l’auteur pour générer automatiquement un site web résumant des prédictions liées à l’IA
- L’IA effectue des recherches web, exécute du code, teste dans le navigateur et empaquette le résultat pour un déploiement sur Netlify

Gemini 3 comme IA collaborative

Pendant l’exécution d’une tâche, Gemini 3 partage de manière transparente son avancement en sollicitant l’approbation de l’utilisateur
- L’utilisateur examine et modifie les propositions de l’IA dans un cadre collaboratif
- L’expérience se rapproche ainsi d’une forme de « gestion d’IA »
L’IA n’est pas parfaite, mais ses erreurs relèvent surtout de différences de jugement ou de malentendus sur l’intention, avec très peu de problèmes d’hallucination au sens classique
La collaboration avec Gemini 3 ressemble davantage à la gestion d’un membre d’équipe qu’à une simple saisie de prompt, ce qui souligne un mode d’interaction plus riche

Capacités de recherche et évaluation « niveau PhD »

Gemini 3 a réalisé des tâches d’analyse de jeux de données de recherche et de rédaction académique
- Il a restauré et nettoyé un ancien fichier de données de crowdfunding, puis mené de nouvelles analyses
- Il a rédigé un article de 14 pages sur le thème de la création d’entreprise et de la stratégie business
L’IA formule des hypothèses originales, réalise des analyses statistiques et crée ses propres métriques pour mesurer, par exemple, l’originalité des idées
Le résultat montrait un niveau comparable à celui d’un étudiant de troisième cycle, même si certaines méthodes statistiques et développements théoriques restaient insuffisants
- Avec des consignes supplémentaires, la qualité s’améliore fortement
- L’auteur estime qu’une « intelligence de niveau PhD n’est plus très loin »

La transition vers le collègue numérique

Gemini 3 se présente comme une IA partenaire capable de raisonner et d’agir, accessible à des milliards de personnes dans le monde
Rien n’indique un ralentissement des progrès de l’IA, tandis que la montée des modèles agentiques et l’importance de la capacité à gérer l’IA deviennent de plus en plus visibles
L’auteur écrit que « l’ère des chatbots est en train de laisser place à celle des collègues numériques »
- L’humain ne se contente plus de corriger les erreurs de l’IA : il devient le manager qui orchestre son travail
Enfin, Gemini 3 a aussi démontré une capacité créative au-delà du texte, en générant une image de couverture de blog uniquement à partir de code
Cela dit, accorder à une IA l’accès à un ordinateur comporte des risques de sécurité, et il faut donc rester prudent

1 commentaires

GN⁺ 2025-11-26

Avis Hacker News

Chaque fois que je vois ce genre d’article, il y a toujours un point qui manque — la question « est-ce bon, est-ce exact ? »
- On ne montre que les parties impressionnantes, mais dans la pratique il n’y a souvent aucune validation de la qualité
- Dans le code que je comprends, je vois des problèmes de sécurité ou des erreurs, mais face à un article de 14 pages sur un domaine que je ne connais pas, je me demande : « je suis censé croire que c’est bien, c’est tout ? »
- Au final, ce que je connais est à un niveau non livrable, alors que ce que je ne connais pas me paraît formidable
- Je n’arrive pas à trouver cette contradiction cohérente
- Il y a deux approches : faire confiance à une évaluation par des experts, ou lui faire exécuter des tâches complexes qu’on peut vérifier soi-même
  - Par exemple, avant, si on demandait du code de filtre de Sobel comme edgeDetect(image), selon le modèle ça passait ou non
  - Récemment, je lui ai demandé un shader glow WebGL, et il a produit une démo fonctionnelle compatible avec le module que j’avais écrit
  - Ce genre de chose se vérifie immédiatement via les performances et l’exactitude visuelle
  - Cela dit, même s’il dit « je peux le faire », ça ne marche pas à tous les coups ; il faut comprendre qu’il a déjà réussi au moins une fois, pas qu’il réussira systématiquement
- Les modèles de dernière génération (Codex 5.1, Sonnet 4.5, Opus 4.5) deviennent de plus en plus prêts pour la prod
  - Mon critère, c’est le « wtfs per line », et ce chiffre baisse rapidement
  - J’ai déployé plusieurs projets avec Codex 5.1 sans problème (par ex. pine.town)
- Plus loin dans l’article, les forces et faiblesses du papier sont effectivement évoquées
- Comme les modèles ont tendance à vouloir satisfaire l’utilisateur, ils donnent parfois de mauvaises réponses avec une fausse assurance
  - Si l’utilisateur ne vérifie pas, il peut se faire avoir
Je trouve intéressant que jusqu’ici, notre manière d’interagir avec l’IA soit restée majoritairement centrée sur une boîte de texte
- L’arrivée d’outils comme Claude Code ou OpenAI Codex a constitué un grand changement
- Je pense que celui qui implémentera vraiment bien l’interface IA du futur créera une valeur énorme
- Le texte reste efficace, car sa densité d’information est élevée
  - On peut le parcourir au scroll en quelques secondes, et le clavier reste l’outil d’entrée le plus productif
- Si le CLI Unix est resté textuel pendant plus de 50 ans, c’est pour la même raison
  - Même avec des tentatives de données structurées comme PowerShell, on finit par perdre en généralité
  - Il est plus puissant d’amener l’IA à comprendre les interfaces humaines existantes
- L’obsession de vouloir absolument inventer une nouvelle UI pour l’IA me paraît excessive
  - Fondamentalement, ce que les humains manipulent le mieux reste le texte, les tableaux et les graphiques
- Le monde est par nature multimodal
  - Je pense que la prochaine étape sera une interface unifiée capable de traiter ensemble le texte et différents types de données
  - Avec les progrès de la robotique, les éléments 3D vont sans doute devenir particulièrement importants
- L’interface vocale de ChatGPT est étonnamment naturelle, au point d’être parfois encore plus adaptée au brainstorming
Le problème des hallucinations existe toujours
- Les erreurs sont devenues plus subtiles, plus humaines, mais des erreurs critiques continuent de s’y mêler
- J’ai demandé à Claude une nouvelle courte d’une vingtaine de pages, et il n’a même pas réussi à maintenir l’ordre temporel de base ni la cohérence des personnages
- Les modèles récents ne font plus seulement des erreurs simples : ils avancent des affirmations fausses avec assurance, allant jusqu’à inventer des références inexistantes
À propos de la question « est-ce une intelligence de niveau doctorat ? », en tant qu’étudiant en master/doctorat, j’ai une impression proche
- Quand on discute avec les derniers modèles, on a l’impression de parler à un chercheur spécialisé dans un domaine
- Malgré tout, je pense que l’intelligence naturelle et la motivation humaines restent essentielles
- En programmation, c’est comme travailler avec deux développeurs — l’un est un intermédiaire compétent, l’autre est complètement à côté de la plaque
  - Le problème, c’est qu’ils ont exactement la même apparence, donc on ne peut pas les distinguer
- Je fais souvent des expériences où je fais dialoguer deux modèles SOTA entre eux
  - Récemment, j’ai mis Gemini-3 et ChatGPT-5.1 ensemble, et ils ont discuté du problème de l’atrophie neuronale qui pourrait apparaître quand les humains renoncent à penser
  - J’ai trouvé marquant de les voir se demander si l’IA devait délibérément pousser les humains à « réfléchir »
- C’est dommage que sur HN, ce genre d’avis se fasse souvent downvoter sans raison
Les progrès de Google se font non seulement côté logiciel, mais aussi côté matériel
- Ils assurent à la fois l’entraînement et l’inférence sur leur propre hardware
- Avant, la force de Google était sa capacité à exploiter du matériel généraliste ; aujourd’hui, l’évolution a pris une direction totalement différente
Gemini 3 est impressionnant, mais j’ai toujours l’impression qu’il reste dans les limites de la littérature existante
- Si on lui demande de nouvelles idées sur des problèmes de maths, il répète simplement les résultats existants
- Terrence Tao l’a lui aussi utilisé pour résoudre des problèmes de maths, mais cela ressemble davantage à un outil d’assistance aux idées qu’à une source de résultats vraiment nouveaux
- J’ai aussi fait des essais avec Thinking with 3 Pro, et il fallait lui donner des indices quasiment au niveau du spoon-feeding pour qu’il s’approche enfin de mon idée
- Au fond, cette admiration tient peut-être moins aux capacités du modèle qu’aux limites des attentes de l’utilisateur
- Ce type de modèle ressemble essentiellement à un bibliothécaire du savoir, pas à une source d’idées nouvelles
- Une véritable exploration créative nécessite d’explorer des espaces probabilistiquement moins parcourus, et de définir puis évaluer soi-même ses objectifs
  - L’architecture Transformer actuelle est conçue pour choisir les tokens les plus probables, donc elle poursuit fondamentalement la cohérence plus que la nouveauté
  - C’est pourquoi augmenter la température conduit davantage à une dégradation de la cohérence du texte qu’à de la créativité
  - Pour résoudre ce problème, il faudrait une génération d’objectifs adaptative et une évaluation fondée sur la simulation, mais le coût de calcul serait énorme
  - En fin de compte, je pense qu’avec l’architecture LLM actuelle, il est difficile d’atteindre une véritable intelligence
- Ajouter une instruction personnalisée du type « utilise la recherche web en temps réel » aide pour aller chercher des informations récentes
La date de sortie de GPT-3, c’était juin 2020, et ChatGPT était en version 3.5
- C’est un détail, mais je voulais le corriger précisément
On entend depuis longtemps que le human in the loop évolue, passant de l’humain qui corrige les erreurs de l’IA à l’humain qui pilote l’IA
- Je me demande à quel moment cela deviendra clairement une réalité
- Je ne pense pas qu’il y aura un point de bascule parfaitement net
  - Un peu comme un manager ne peut pas devenir quelqu’un qui se contente « de donner des instructions », il y aura toujours une part de correction
- Si on branche directement des outils CLI avec des agents, on a déjà l’impression d’avoir franchi ce cap
- Personnellement, j’ai déjà le sentiment d’être entré dans cette phase où je pilote l’IA
Je me demande si exécuter directement sur un système local des outils comme Claude Code ou Antigrav est vraiment sûr
- Les produits basés sur VS Code sont sûrs grâce aux restrictions d’accès au workspace, tandis que des terminaux comme Warp se contrôlent avec des listes d’autorisation/interdiction de commandes
- Certains permettent aussi de lever ces restrictions avec des flags, mais cela exige une action intentionnelle
- De mon côté, je n’exécute ce genre de tâche que dans des conteneurs de développement Podman
- Leash est un outil créé pour répondre à ce problème — un projet open source de contrôle de sécurité
- Certains se contentent de dire « Yolo » et lancent ça en acceptant le risque
- En pratique, la plupart des utilisateurs ont tendance à l’exécuter directement en local

Trois ans de GPT-3 à Gemini 3

L’arrivée de Gemini 3 et trois ans de transformation

Antigravity et l’IA agentique

Gemini 3 comme IA collaborative

Capacités de recherche et évaluation « niveau PhD »

La transition vers le collègue numérique

À lire aussi

1 commentaires

Avis Hacker News