Grok 3 : une nouvelle victoire de The Bitter Lesson

(thealgorithmicbridge.com)

3 points par GN⁺ 2025-02-21 | 3 commentaires | Partager sur WhatsApp

I. Les lois de scaling qui gouvernent les progrès de l’IA

Il est très probable que le fait qu’Elon Musk qualifie Grok 3 d’« IA la plus intelligente sur Terre » ne soit pas une exagération
Par rapport à Grok 2, le modèle a réalisé un bond spectaculaire et se situe au niveau, voire au-dessus dans certains domaines, des modèles issus de laboratoires bien établis comme OpenAI, Google DeepMind et Anthropic
Sur LMSys Arena, il a pris la 1re place dans toutes les catégories, tout en affichant des performances de haut niveau (niveau o3) en mathématiques, en code et sur les problèmes scientifiques
Il reste en retrait des meilleurs modèles sur certaines tâches spécifiques, mais sur la plupart des critères, il se situe au niveau du meilleur état de l’art partagé (co-state-of-the-art)
Grok 3 ne représente pas seulement un succès de xAI : c’est aussi une nouvelle victoire de The Bitter Lesson, qui souligne l’importance de l’échelle dans la recherche en IA
Contrairement aux lectures critiques ou à certains récits médiatiques, les lois de scaling (Scaling Laws) restent valides dans les progrès de l’IA, et leur importance ne fait que croître

II. DeepSeek : l’exception qui confirme la règle

Le contexte du succès de DeepSeek
- DeepSeek a réussi à rivaliser avec les meilleurs acteurs du secteur avec des ressources de calcul relativement limitées (environ 50K GPU Nvidia Hopper)
- Alors que les laboratoires américains utilisaient plus de 100K Nvidia H100, DeepSeek a obtenu des résultats en optimisant l’ensemble de sa stack technique
- Cela a conduit certains à remettre en question ce que la communauté tenait pour acquis au sujet de « Bitter Lesson » et du « paradigme du scaling »
Les mauvaises conclusions et le vrai sens de Bitter Lesson
- Certains ont interprété le succès de DeepSeek comme la preuve que « les GPU ne comptent pas, et que l’optimisation algorithmique compte davantage »
- Pourtant, Bitter Lesson ne dit pas que « les améliorations algorithmiques sont inutiles », mais que, quand c’est possible, exploiter davantage de ressources de calcul est la meilleure stratégie
- DeepSeek a été contraint de se concentrer sur l’optimisation faute de GPU ; s’il s’était entraîné avec 100K GPU, ses résultats auraient probablement été meilleurs
- En d’autres termes, ce que DeepSeek a démontré, c’est le potentiel de l’optimisation, pas que « le scaling n’a aucun sens »
La position du CEO de DeepSeek
- Même son CEO, Liang Wenfeng, a déclaré que les contrôles à l’export américains constituaient le principal obstacle au développement de meilleurs modèles
- Le fait qu’il dise cela tout en disposant de 50K GPU Hopper signifie exactement l’inverse de l’idée selon laquelle « les GPU n’ont pas d’importance »
- Le succès de DeepSeek peut donc être vu comme un cas qui soutient Bitter Lesson et le paradigme du scaling, même s’il reste exceptionnel

III. xAI prouve que « scaling > optimisation »

Grok 3 et l’approche de xAI
- On peut se demander si les résultats de xAI suffiront à faire évoluer la perception des sceptiques selon laquelle « le scaling compte plus que l’optimisation »
- On ne sait pas clairement si Grok 3 a introduit des changements d’architecture ni à quel niveau d’optimisation de l’infrastructure il a eu recours, mais une chose est sûre : il a été entraîné sur le supercalculateur Colossus de Memphis, équipé de 100K GPU H100
- C’est bien davantage que le nombre de GPU dont disposait DeepSeek
Une stratégie différente de celle de DeepSeek
- DeepSeek a dû pousser l’optimisation de ressources GPU limitées à l’extrême, tandis que xAI a pu se contenter d’un niveau d’optimisation plus standard
- Le cœur de Bitter Lesson est le suivant : « si vous disposez de suffisamment de ressources de calcul, ne perdez pas de temps dans des optimisations inutiles ; faites simplement du scaling »
- xAI a consacré encore plus de ressources de calcul qu’OpenAI à l’entraînement de Grok 3, et a ainsi produit un modèle de pointe
Bitter Lesson n’est pas seulement vrai pour l’IA, mais de façon générale
- « Quand la ressource principale est abondante, il n’est pas nécessaire de perdre du temps à essorer les ressources auxiliaires »
- C’est un peu comme les Fremen du désert : au lieu de recycler leur sueur, il est tout simplement plus efficace de vivre sur une planète où il pleut
- Les améliorations algorithmiques et l’augmentation de la puissance de calcul sont toutes deux importantes, mais à partir d’un certain point, injecter plus de ressources devient plus efficace que chercher à optimiser davantage
- La puissance de calcul peut s’acheter, tandis qu’une percée algorithmique ne se prévoit pas et rien ne garantit qu’elle restera extensible à l’avenir
Il est important de ne pas arrêter le scaling
- Lorsqu’on atteint une limite, il ne faut pas forcément optimiser davantage, mais changer l’élément que l’on fait passer à l’échelle
- Des ressources limitées peuvent stimuler l’innovation, mais au final, « plus de ressources » l’emportent sur « une meilleure optimisation »
- DeepSeek a été obligé de se concentrer sur l’optimisation, mais xAI ou OpenAI n’essaieront probablement pas de travailler, comme DeepSeek, sous de telles contraintes d’innovation
- En fin de compte, xAI et DeepSeek représentent deux cas d’école : « une approche fondée sur des ressources massives » contre « une approche qui exploite des ressources limitées jusqu’à leurs limites »
- Les deux entreprises ont fait de leur mieux dans leur contexte, mais tant que DeepSeek restera à court de ressources de calcul, xAI conservera vraisemblablement une position favorable
- Ainsi, malgré les controverses académiques autour de Bitter Lesson, cette idée se vérifie en pratique dans le développement réel de l’IA depuis plus de dix ans

IV. Le changement de paradigme qui a aidé xAI et DeepSeek

La difficulté des entrants tardifs dans la course à l’IA
- Partir tard dans la course à l’IA semblait être un handicap difficile à surmonter
- Au début, rien ne garantissait que xAI pourrait rattraper OpenAI ou Anthropic
- Pourtant, entre Grok 2 (août 2024) et Grok 3 (février 2025), un autre facteur que le cluster GPU Colossus a joué en faveur de xAI
- Ce facteur, c’est le changement de paradigme du scaling en IA
L’ère du pre-training (2019-2024)
- Au départ, progresser en IA signifiait entraîner des modèles plus grands sur des jeux de données plus vastes avec des ressources de calcul plus puissantes
- Exemple : GPT-2 (février 2019) comptait 1,5 milliard de paramètres, tandis que GPT-4 (mars 2023) en comptait environ 1,76 trillion, soit plus de 1 000 fois plus
- Cette approche favorisait les pionniers comme OpenAI
  - Parce qu’ils avaient eu le temps de collecter des données, d’agrandir leurs modèles et de sécuriser des GPU
- En outre, comme l’entraînement de chaque modèle prenait souvent plus de six mois, le rythme d’itération entre générations était lent, ce qui rendait le rattrapage difficile pour les retardataires
L’ère du post-training (2024-???)
- À partir de 2024, l’industrie de l’IA a compris que le simple fait d’agrandir les modèles entraînait un ralentissement des gains de performance incrémentaux
- Les médias ont mal interprété cela comme « la fin de l’ère du scaling », alors qu’en réalité il s’agissait seulement d’un changement de paradigme (voir l’intervention d’Ilya Sutskever à NeurIPS 2024)
- Le centre de gravité s’est déplacé vers :
  - « l’extension du test-time compute » → une méthode qui permet au modèle de réfléchir plus en profondeur avant de répondre
  - la combinaison RLHF + SFT, qui s’est révélée efficace
  - en particulier, dans des domaines structurés comme les mathématiques et le code, où l’on peut appliquer des fonctions de récompense vérifiables, les gains de performance sont importants
- OpenAI a mené ce mouvement avec o1-preview, puis les acteurs de l’IA ont cessé de chercher seulement à agrandir les modèles pour se tourner vers la création de modèles dotés de meilleures capacités de raisonnement
Pourquoi ce nouveau paradigme a favorisé xAI et DeepSeek
- Le post-training en est encore à ses débuts, ce qui permet d’obtenir des gains rapides à un coût relativement modéré
- C’est aussi ce qui a permis à OpenAI de passer de o1 à o3 en seulement trois mois
- C’est pour la même raison que DeepSeek, malgré un nombre moindre de GPU et des GPU inférieurs, a pu atteindre le niveau de R1
- Grok, lui aussi, a atteint le niveau des meilleurs modèles d’IA en à peine deux ans
L’évolution de la dynamique concurrentielle
- OpenAI conserve encore une certaine avance, mais pas au point d’être irrattrapable pour les entrants tardifs
- OpenAI doit équilibrer recherche de pointe et exploitation produit, notamment en raison de la charge liée à ChatGPT et ses 300 millions (300M) d’utilisateurs hebdomadaires
- À l’inverse, xAI et DeepSeek peuvent se concentrer plus librement sur l’innovation technique
- Si l’application DeepSeek a connu un pic de popularité avant de redescendre, c’est aussi parce qu’elle manquait de ressources de calcul pour absorber de l’inference à grande échelle
- Avec l’ouverture de ce nouveau paradigme, une nouvelle configuration concurrentielle est en train d’émerger

V. Bien comprendre les résultats de xAI et de DeepSeek

Bitter Lesson et le changement de paradigme ne doivent pas servir à minimiser ces résultats
- Bitter Lesson et le changement du paradigme de scaling ont certes rendu le succès de xAI et de DeepSeek plus accessible, mais ils ont tout de même réussi
- D’autres entreprises disposant d’opportunités comparables (Mistral, Character, Inflection) ont échoué
- Grok 3 est une victoire de Bitter Lesson, et DeepSeek un cas exceptionnel qui confirme la règle, mais leur importance va au-delà de cela
Les ressources de calcul ne font pas tout
- Tout comme Bitter Lesson ne nie pas la valeur des algorithmes et de l’optimisation d’infrastructure, les ressources humaines et la stratégie des entreprises comptent aussi
- xAI compte actuellement environ 1 000 employés, un niveau comparable à OpenAI (environ 2 000) et Anthropic (environ 700)
- Grâce au réseau technologique et financier d’Elon Musk, xAI peut également lever de très gros financements avec facilité
- DeepSeek, de son côté, mérite aussi d’être salué pour avoir innové dans un environnement contraint
  - L’écosystème IA chinois manquait relativement d’ambition, d’expérience et de soutien public (même si cela pourrait bientôt changer)
Il faut replacer cela dans son contexte historique
- OpenAI, Google DeepMind et Anthropic ont dû développer leurs modèles pendant l’ère du pre-training
  - À l’époque, le scaling en IA était bien plus difficile, plus lent et plus coûteux qu’aujourd’hui
  - On ne savait même pas si un produit comme ChatGPT réussirait, et OpenAI a hésité à le lancer (il a d’abord été publié comme simple research preview)
  - Ces entreprises ont été des pionnières qui ont porté l’innovation en IA avec une forte conviction malgré l’incertitude
- À l’inverse, DeepSeek et xAI sont partis sur les épaules de ces géants
  - Ils ont pu éviter les tâtonnements de la recherche existante et progresser rapidement en s’appuyant sur des approches déjà validées
  - Au même moment, le paradigme de l’IA basculait vers l’ère du post-training, permettant d’obtenir rapidement des résultats avec moins de coûts
  - Ils ont eu moins besoin de subir les investissements massifs et l’incertitude auxquels les pionniers de l’IA avaient dû faire face
Reconnaître la victoire, sans oublier le chemin parcouru
- Il n’y a pas lieu de dénigrer les résultats de xAI et de DeepSeek, mais il ne faut pas oublier non plus comment les progrès de l’IA en sont arrivés là
- Sans les premiers défricheurs comme OpenAI, DeepMind et Anthropic, les résultats actuels n’auraient pas été possibles
- Autrement dit, le succès de xAI et de DeepSeek s’explique moins par la « chance » que par le fait d’avoir très bien exécuté au bon moment

VI. Le post-training est peu coûteux aujourd’hui, mais ne le restera pas

La leçon clé montrée par Grok 3 et xAI
- Aujourd’hui, le post-training reste relativement abordable, mais il exigera bientôt des investissements aussi massifs que le pre-training
- Dès que les entreprises trouveront comment faire passer le post-training à grande échelle, l’argent et les ressources de calcul deviendront indispensables pour survivre à la concurrence
- Les entreprises de l’IA accumulent déjà des centaines de milliers de GPU et construisent de grands clusters
- Contrairement à l’idée selon laquelle « les GPU n’importent pas », la course à l’acquisition de GPU deviendra un facteur central de la compétition en IA
- C’est aussi pourquoi Dario Amodei (cofondateur d’OpenAI), entre autres, insiste sur l’importance des export controls
Le positionnement solide de xAI
- À l’heure actuelle, xAI se trouve dans une position plus favorable non seulement que DeepSeek, mais aussi qu’OpenAI et Anthropic
- Pourquoi : xAI dispose d’un cluster de 100K GPU H100 et prévoit de l’étendre prochainement à 200K
- Cela lui donne un avantage immense dans la course au développement de la prochaine génération d’IA
- Meta suit d’ailleurs la même stratégie et entraîne Llama 4 sur un cluster de plus de 100K H100
Les limites et le potentiel de DeepSeek
- Le niveau exceptionnel d’ingénierie de DeepSeek ne suffit plus à lui seul pour rester compétitif à ce stade
- Quelle que soit l’optimisation de la stack technique, combler un écart de 150K GPU est impossible
- Si c’était faisable, DeepSeek aurait lui aussi choisi le scaling comme xAI, mais les restrictions américaines à l’export freinent sa croissance
- Cela dit, une coopération avec Huawei pourrait permettre de contourner en partie ce problème
Les atouts supplémentaires de xAI
- Même OpenAI et Anthropic ne sont pas dans une position aussi stable que xAI en matière d’accès aux clusters de GPU
- Grâce au soutien de Nvidia, xAI reçoit en priorité le matériel IA de nouvelle génération
- Entre le réseau d’Elon Musk et l’attitude favorable de Nvidia, xAI a de fortes chances d’occuper une position singulièrement dominante dans la future compétition de l’IA

VII. Dans un an, qui sera devant ?

L’avantage des acteurs établis
- Malgré tout cela, OpenAI, Google DeepMind et Anthropic conservent encore une légère avance
- OpenAI : GPT-4.5/GPT-5 doivent arriver prochainement, puis le modèle o4 est également en développement
- Anthropic : lancement attendu de Claude 4
- Google DeepMind : améliore la version « Thinking-model » de Gemini 2.0 tout en cherchant à réduire les coûts et à étendre la fenêtre de contexte
Un avenir incertain
- En 2024, on s’attendait à ce que Google prenne l’avantage dans la course à l’IA, mais aujourd’hui plus rien n’est certain
- La compétition en IA est plus féroce que jamais, et dans la course à l’AGI (intelligence artificielle générale), aucun vainqueur clair ne se dégage
- Le nouveau paradigme joue en faveur des entrants tardifs, tout en exigeant une très grande capacité d’adaptation
- On ne sait pas si Google possède cette agilité
- Ou peut-être que Google communique simplement mal sur ses propres résultats
Conclusion : le scaling finit par l’emporter
- La conclusion de cet article n’est pas de prédire le vainqueur de la course à l’IA
- La leçon importante, c’est que le scaling finit par l’emporter sur l’ingéniosité humaine (ingenuity)
  - C’est regrettable à dire, mais certaines choses nous dépassent
- Le succès de Grok 3 rappelle une fois de plus que, dans les progrès de l’IA, une “plus grande puissance de calcul” pèse davantage que des “algorithmes plus intelligents”

3 commentaires

kobings 2025-02-23

« OpenAI compte 300 millions d’utilisateurs hebdomadaires de ChatGPT »
En voyant la source originale, c’était 300M, merci de corriger en 300 millions.

doolayer 2025-02-22

orthogonal mais non orthonormé.

GN⁺ 2025-02-21

Avis Hacker News

La création d’un modèle « co-state-of-the-art » n’est pas une victoire des lois de mise à l’échelle
- Le fait que xAI n’ait pas largement dépassé les modèles existants avec Grok 3 malgré davantage de calcul pourrait être une preuve que l’hyper-scaling n’apporte que des améliorations progressives
- Il est évident que davantage de puissance de calcul améliore les ordinateurs
- Cet article tente d’appliquer à la différence entre GPT-4 et Grok 3 la différence entre l’IA symbolique des années 70 et les réseaux de neurones des années 2010
- Beaucoup de gens doutent des performances réelles de Grok 3 et soupçonnent qu’il a été entraîné pour certains benchmarks spécifiques
- Sabine Hossenfelder a mentionné que Grok 3 avait échoué à expliquer le théorème de Bell
- Cela montrerait que la mise à l’échelle à grande échelle n’améliore pas l’intelligence
Deepseek a mis 17 mois à atteindre des résultats SOTA, et le modèle de xAI ne dépasse pas largement Deepseek R1
- xAI prévoit d’investir $2.5 billion sur $3 billion dans les GPU, et $0.5 billion dans les talents
- Deepseek prévoit d’investir $1 billion dans les GPU, et $2 billion dans les talents
- Il est avancé que l’approche de Deepseek est plus scalable
Scepticisme sur le fait qu’un modèle sans raisonnement ait obtenu 75 % sur GPQA Diamond
- xAI fournira l’API Grok 3 la semaine prochaine, ce qui permettrait de vérifier ses performances réelles via des évaluations individuelles
- Le fait que DeepSeek dispose de 50k GPU Hopper pourrait être un chiffre exagéré
- L’annonce de recrutement de stagiaires de DeepSeek ne mentionne que « un accès illimité à 10k A100s »
Des conclusions étranges sont tirées des changements récents
- Beaucoup d’argent afflue dans la bulle de l’IA, mais cela devrait bientôt se terminer
- Les personnes ayant une forte expérience des améliorations technologiques seront les mieux placées à long terme
Si Grok a une intelligence comparable à celle des autres modèles de pointe, on peut se demander quelles entreprises basculeraient vers Grok
Quand injecter davantage de calcul entraîne des coûts de plusieurs milliards, la « dure leçon » concerne peut-être désormais l’argent plutôt que le matériel
- Il pourrait exister une voie où des modèles moins énergivores restent exploitables sans financement de VC
Les affirmations de l’article sur la « dure leçon » reposent sur des erreurs logiques
- Il présente la mise à l’échelle et l’optimisation comme des stratégies mutuellement exclusives
- Les innovations algorithmiques de DeepSeek complètent les efforts de scaling
- L’affirmation selon laquelle le calcul dominera « l’ère post-entraînement » ignore de potentiels facteurs perturbateurs
Il est intéressant de voir comment la guerre des talents va évoluer
- Beaucoup d’ingénieurs sont déçus par une communication très centrée sur le DEI
- On peut se demander si ceux qui évitaient des liens étroits avec la Chine pour des raisons éthiques appliqueront le même raisonnement aux États-Unis
Encore un billet de blog de hype autour de l’IA
- Il n’y a même pas de mention des barres de couleurs différentes dans les résultats de benchmarks
- Grok-3 ne prouve ni ne réfute les lois de scaling d’une manière significative