2 points par GN⁺ 2025-12-03 | 3 commentaires | Partager sur WhatsApp
  • OpenAI a déclenché d’urgence le mode « code rouge » pour améliorer la qualité de ChatGPT, afin de retrouver un avantage érodé par la pression de Google
  • Aujourd’hui, des améliorations critiques sont attendues sur des fonctions clés comme la personnalisation, la vitesse, la fiabilité et l’élargissement du champ des questions, et pour cela tous les nouveaux projets, dont la publicité, Pulse, la santé et le shopping, ont été mis en pause ou retardés
  • Gemini 3 de Google devance désormais plusieurs modèles d’OpenAI sur de nombreux benchmarks récents, et le succès du modèle image Nano Banana, qui a fait monter le MAU de 4,5 à 6,5 centaines de millions d’utilisateurs, est apparu comme une menace majeure
  • OpenAI fait aussi face à une pression financière croissante avec un accord d’investissement en centres de données de plusieurs centaines de milliards de dollars, la nécessité de 2 000 milliards de dollars de revenus annuels d’ici 2030, etc., tandis que la croissance des clients entreprises d’Anthropic joue également un rôle concurrentiel
  • OpenAI met en place un contrôle quotidien et une réallocation d’équipes, tout en indiquant en interne que le nouveau modèle de reasoning qui sera annoncé prochainement devance la dernière version de Gemini, ce qui fait de la reconquête de la main un passage décisif

Activation du code rouge et plan d’amélioration de ChatGPT

  • Il a été révélé dans une note interne qu’OpenAI a déclenché le niveau d’urgence maximum, le « code rouge », pour résoudre les problèmes de ChatGPT
    • OpenAI utilise un dispositif d’alerte en trois niveaux : yellow → orange → red, et cette mesure correspond à un cran au-dessus du code orange
  • Le champ d’amélioration couvre l’expérience globale, incluant le renforcement de la personnalisation, l’accélération de la latence, l’amélioration de la fiabilité des serveurs et l’extension du champ des questions auxquelles le modèle peut répondre
  • Pour ce faire, la publicité, Pulse (assistant personnel), les agents santé et shopping ainsi que tous les nouveaux projets ont été relégués en priorité plus basse
    • OpenAI encourage la réallocation de l’ensemble des effectifs et prévoit de mettre en place un daily call dédié pour vérifier chaque jour l’avancement du développement
  • Récemment, il y avait des plaintes sur le ton froid de GPT-5 et les erreurs sur des questions de base, ce qui a également inclus un réajustement du ton du modèle et de sa capacité à exécuter les consignes

Poursuite de Google Gemini et pression concurrentielle

  • Le plus récent modèle Gemini 3 de Google dépasse OpenAI sur plusieurs benchmarks sectoriels, dans une situation où l’équilibre concurrentiel semble fortement bouleversé
    • L’action de Google a grimpé après l’annonce de Gemini, et les performances ont fortement émergé sur le marché
  • Depuis le lancement en août du modèle de génération d’images Nano Banana, le MAU global de Google AI a
    • connu une hausse de 450 millions en juillet à 650 millions en octobre selon les données fournies
  • Anthropic s’étend également sur la base clients entreprises, révélant une dynamique où l’avance exclusive d’OpenAI s’affaiblit
  • L’épisode où le « code rouge » annoncé par Google juste après l’arrivée de ChatGPT est présenté comme une situation désormais retournée vers OpenAI est décrit comme ironique

Investissements, pression financière et inquiétude des marchés

  • OpenAI a conclu avec Microsoft et Amazon un contrat d’énergie pour centres de données d’une taille de 36 GW,
    • ce qui pourrait entraîner annuellement un coût de location de data centers de l’ordre de 620 milliards de dollars
  • Un scénario interne évoque également qu’il faut environ 2 000 milliards de dollars de revenus annuels pour devenir rentable d’ici 2030
  • Bien qu’OpenAI ne prévoie pas d’introduction en bourse,
    • cette structure financière est fortement corrélée au cours de sociétés technologiques clés comme Nvidia, Oracle et Microsoft, et pèse sur l’ensemble du marché
  • OpenAI reste déficitaire et est jugée en survie difficile sans levées de fonds massives et continues

Annonce imminente d’un nouveau modèle et confiance interne

  • Altman indique dans la note que le nouveau modèle de reasoning qui sera dévoilé la semaine prochaine devance la version la plus récente de Google Gemini
    • présenté comme un facteur de relance interne, il met l’accent sur la capacité de croissance de ChatGPT et la volonté de reconquérir le leadership
  • ChatGPT dispose encore d’une base solide avec plus de 800 millions d’utilisateurs hebdomadaires,
    • OpenAI prévoit d’y ajouter à nouveau des améliorations de vitesse, précision et personnalisation pour maintenir la dynamique de croissance

Contexte global

  • Dans un contexte de concurrence accrue (Google, Anthropic), de débat sur la qualité des produits et de coûts d’infrastructure massifs, il ressort que rétablir la qualité de base de ChatGPT est la stratégie de survie d’OpenAI et la priorité la plus urgente

3 commentaires

 
slowandsnow 2025-12-04

Les problèmes de ChatGPT
Il y a beaucoup trop de bugs. On appuie sur envoyer, mais le message ne se génère pas, ou bien une erreur apparaît pendant le streaming du message et tout disparaît, etc. Deep Research a encore moins de sources que le mode raisonnement. Il n’y a donc plus vraiment de raison d’utiliser Deep Research.
Les problèmes de Codex
C’est trop lent. Une tâche qui prendrait 5 minutes avec Claude Code met plus de 10 minutes avec Codex. C’est vraiment trop bête.

 
yinn27 2025-12-04

Mais Gemini n’est-il pas aussi, côté UI et globalement, plus inconfortable à utiliser que ChatGPT.. ?

 
GN⁺ 2025-12-03
Avis Hacker News
  • La semaine dernière, un client a envoyé une question sur une fonctionnalité que j’avais en partie développée. Un ingénieur support a généré une réponse avec Claude et, bien qu’il ait été entraîné sur de la documentation interne et publique, il a produit avec énormément d’assurance une hallucination plausible
    Pendant que j’expliquais pourquoi c’était faux, un autre ingénieur a essayé avec Augment, qui a à son tour sorti une autre absurdité avec aplomb. Au final, on s’est juste échangé des emojis en larmes, et moi je vais continuer à utiliser ma propre intelligence

    • Mon code prend 0,11 seconde, celui de Gemini prend 0,5 seconde. Mon manager me demande pourquoi, et je ne sais pas quoi répondre ¯\(ツ)
    • Les LLM sont vraiment mauvais quand il s’agit de choses impossibles. Parfois, il vaut mieux implémenter pour de vrai la fonctionnalité qu’ils ont halluciné. Certains fournisseurs d’API publiques le font déjà
  • J’ai entendu la rumeur qu’OpenAI n’avait plus réussi de pre-training convaincant depuis la mi-2024. Si on demande à ChatGPT 5.1 des événements actuels sans accès à Internet, il dit que sa coupure de connaissances date de juin 2024. Je ne sais pas si c’est lié à un petit modèle, mais à ce stade, avoir 18 mois de retard ressemble à un signal inquiétant

    • La même chose a aussi été évoquée dans la newsletter SemiAnalysis, et cela n’a jamais été démenti
    • Quand j’essaie parfois de coder avec des modèles GPT, le style de conversation concis donne une bonne impression pendant quelques jours. Mais au final, la qualité est inférieure à Claude ou Gemini, avec davantage de schémas d’échec
    • J’ai demandé à ChatGPT 5.1 un problème d’installation de codex CLI, et il m’a affirmé avec assurance que codex était abandonné et que j’utilisais mal la commande « openai »
    • Google a aussi connu des problèmes de retard dans le crawl du Web au début des années 2000 et a survécu. Mais l’OpenAI d’aujourd’hui n’a pas une position différenciante aussi forte que le Google de l’époque, donc la situation peut être bien plus risquée
    • J’ai demandé s’il valait mieux jouer à Indiana Jones sur PS5 ou sur PC ; au début il a cru à une faute de frappe, puis il est allé chercher sur Internet avant de complimenter ma ligue gaming
  • On dirait que la fuite des chercheurs clés d’OpenAI qui dure depuis l’an dernier commence maintenant à avoir un vrai impact. Sam Altman est un commercial, pas un chercheur. Ilya n’est plus là, et des profils majeurs sont partis chez Google, Meta, Anthropic ou ont créé leur startup. Ceux qui restent sont bons pour l’amélioration incrémentale, mais on peut douter de leur capacité à mener eux-mêmes le prochain grand saut

  • L’OpenAI actuel ressemble à Netscape : innovant, mais sans modèle économique durable. D’un côté, Google bundle l’IA gratuitement dans ses produits existants ; de l’autre, Deepseek ou Qwen font baisser les prix en open source. Au final, l’entreprise se retrouve prise en étau des deux côtés

    • OpenAI devrait dépasser 20 milliards de dollars de chiffre d’affaires annuel cette année (article CNBC)
    • Si OpenAI échoue à se commercialiser et revient à un modèle non lucratif en partageant des outils gratuits, ce sera en quelque sorte la voie de Mozilla
    • On dit que « Google va bundler Gemini gratuitement », mais j’ai l’impression qu’ils le font déjà dans presque tous leurs produits
    • Ma femme refuse de passer à Claude. Elle a l’impression que ChatGPT est parfaitement réglé pour ses goûts
    • Pour bundler Gemini gratuitement, il faudrait probablement abaisser le coût d’inférence de Flash 3.0 bien en dessous de celui de 2.5
  • Il y a une question que je me pose sincèrement : comment OpenAI peut-il échouer en pre-training ? Ils ont déjà réussi auparavant, ils ont des talents de tout premier plan ; il ne suffirait pas de réentraîner le modèle de 2024 ?

    • Pour la même raison que tout le monde échoue : on ajuste les hyperparamètres pour le nouveau hardware, on intègre des améliorations vues dans les papiers, puis après des mois et des millions de dollars, la loss plafonne et les résultats restent minimes
    • Si « réussir » veut dire obtenir des performances nettement meilleures que le modèle précédent, alors oui, c’est vraiment difficile
    • J’ai entendu dire que GPT-4.5 était une tentative en ce sens. Il n’a simplement pas été publié faute de performances suffisantes
    • Les nouveaux modèles ne poursuivent pas l’entraînement des précédents, parce que l’architecture est complètement différente. Cette fois, il est très possible que cette conception soit ratée et qu’elle fasse moins bien que le modèle de mi-2024
  • Dans mon expérience, un « Code Red » servait surtout à emballer le fait qu’une entreprise avait perdu sa direction. Les managers intermédiaires ne savent plus quoi faire, et au final la charge retombe sur les ingénieurs

    • Licencier des PM et des managers intermédiaires n’empêche pas ce genre de situation. C’est une vision bien trop simpliste de la structure de décision dans une grande organisation
    • Un vrai Code Red devrait unifier les priorités de l’entreprise et réaffecter les ingénieurs aux projets clés
    • Dans le seul cas que j’ai vu, ils ont effectivement licencié des PM, puis une série de problèmes inattendus est apparue, et ils l’ont accepté en mode « au moins maintenant on connaît les problèmes »
    • Il existe aussi cette illusion d’ingénieur selon laquelle « tous les problèmes viennent des autres, et si je suis seul tout sera résolu »
    • Ce Code Red peut aussi être un prétexte pour suspendre des fonctionnalités de monétisation. Une façon d’éviter l’écart avec une valorisation plus réaliste
  • Le vrai Code Red, ce n’est pas que Google ait dépassé OpenAI, c’est que l’industrie de l’IA n’a pas de moat. Au final, tout le monde se livre à la guerre des prix plancher la plus coûteuse qui soit

    • Ces entreprises finiront probablement par socialiser leurs pertes via des contrats publics ou des sauvetages indirects
    • On ne sait pas clairement si les performances de Gemini 3 ont réellement provoqué une fuite des utilisateurs de ChatGPT
    • Je ne comprends pas pourquoi les investisseurs s’enthousiasment pour une concurrence de commoditisation à perte. J’étais fan à l’époque de GPT-3 et 4, mais aujourd’hui j’utilise Claude et Gemini en parallèle. Ma fidélité est nulle
    • Alors pourquoi l’action Google a-t-elle fortement grimpé après la sortie de Gemini 2.5 Pro ?
    • Moi aussi, je pensais qu’OpenAI avait une technique d’entraînement secrète, mais il n’y en avait pas
  • OpenAI a pris des engagements de dépenses à long terme de l’ordre de 500 milliards de dollars avec le projet Stargate et d’autres initiatives. L’entreprise prévoit de consacrer 250 milliards de dollars à Microsoft Azure et plusieurs milliards de plus à des GPU AMD. Oracle a contracté pour cela 18 milliards de dollars d’obligations et 9,6 milliards de dollars de prêts
    Si OpenAI prend du retard, il pourrait ne pas être en mesure d’honorer ces contrats, avec un risque de défaut en chaîne. Une intervention publique devient alors possible

    • Altman dit qu’il n’y aura pas de sauvetage, mais le dire fait justement partie d’une stratégie pour rassurer
    • Les 500 milliards de dollars sont un engagement de dépense, pas un revenu. La différence est énorme
    • J’espère presque qu’un blocage au Congrès empêchera ce type de sauvetage
    • La plupart ne sont que des LOI non contraignantes, donc ce ne sont pas des engagements aussi solides qu’ils en ont l’air
    • Il est possible qu’on ne puisse pas atteindre l’AGI avec l’architecture des LLM. Sans architecture de remplacement, tous ces contrats pourraient devenir vides de sens
  • On dit qu’OpenAI reporte des projets comme publicité, shopping, agent santé, Pulse pour se concentrer sur l’amélioration de ChatGPT, mais au fond les talents clés sont peu nombreux, tandis que les autres peuvent très bien travailler sur la pub ou des fonctions commerciales. Les deux ne sont pas forcément en conflit

    • Le goulot d’étranglement n’est peut-être pas le personnel, mais la capacité de réflexion stratégique du leadership
    • Le problème n’est peut-être pas la qualité du produit, mais la capacité à construire un écosystème. Google est déjà intégré aux outils du quotidien
    • Les progrès des LLM se divisent en deux couches : ① l’architecture de bas niveau ② les systèmes d’application et de vérification. La seconde contribue aussi à l’amélioration du modèle central grâce à la génération automatisée de données de validation
    • Le « report » peut simplement être une réallocation des ressources de calcul, pas un arrêt complet
    • Du point de vue des utilisateurs, on peut espérer que cette concurrence se traduise par une amélioration de la qualité des modèles
  • Selon le WSJ, OpenAI reporte la publicité, l’IA pour la santé et le shopping, ainsi que l’assistant personnel Pulse. Avec en plus la collaboration hardware avec Jony Ive, cela donne une impression de dispersion

    • En plus de cela, ils avaient aussi annoncé des projets comme un réseau social ou un navigateur
    • S’ils veulent rivaliser avec Google, entrer sur le marché publicitaire est ce qu’il y a de plus important. Sinon, les budgets pub continueront d’aller vers Meta, Amazon et Google
    • Au final, la publicité et les assistants de type Siri/Alexa sont le cœur du sujet, donc c’est étrange de les repousser
    • Ce n’est pas seulement qu’ils ont perdu de vue leur objectif ; c’est qu’ils sont désormais devenus une entreprise focalisée sur les résultats à court terme. Difficile de battre un adversaire comme Google qui joue à ce jeu depuis 25 ans. L’expansion hardware ne suffira pas
    • En réalité, le sujet n’est pas la concurrence avec Google, mais le fait que la publicité est le vrai test de survie d’OpenAI.
      Si la publicité rapporte, OpenAI pourrait devenir une entreprise de niveau Mag 7 ; si elle échoue, la réalité apparaîtra au grand jour.
      Si les résultats des expérimentations publicitaires sont déjà inférieurs aux attentes, alors ce « Code Red » peut aussi être un signal pour gagner du temps et le masquer.
      ChatGPT n’est pas un point d’entrée de recherche comme Google, et il ne peut pas non plus faire de publicité basée sur un feed comme Meta.
      Au final, il y a de fortes chances que cela répète l’échec d’Alexa.