Sortie de Grok 4

(twitter.com/xai)

7 points par GN⁺ 2025-07-11 | 6 commentaires | Partager sur WhatsApp

Grok 4 est le tout dernier modèle d’IA lancé par xAI après environ deux ans, avec une intelligence et des capacités de raisonnement qui dépasseraient celles d’étudiants de troisième cycle dans tous les domaines
L’échelle d’entraînement et les ressources de calcul ont été multipliées par plus de 100, avec une progression centrée sur l’apprentissage par renforcement (RL), démontrant une capacité de résolution de problèmes au-delà du niveau humain
Score de 15,9 % à l’ARC-AGI, soit une performance de tout premier plan parmi les IA actuelles dans l’évaluation du raisonnement abstrait et de l’intelligence générale
Sur divers benchmarks comme Humanity’s Last Exam (HLE), le modèle affiche des résultats marquants avec 26,9 % sans outils, et 41 à 50,7 % avec outils
Avec l’introduction d’un mode vocal natif, il propose une interaction proche de l’humain, incluant conversation en temps réel, expression des émotions et réponses à faible latence

Grok 4

xAI, fondée par Elon Musk, a dévoilé Grok 4 après environ deux ans, en insistant sur le fait qu’il s’agit du « meilleur modèle d’IA au monde »
Il obtient des scores parfaits à des examens standardisés comme le SAT et le GRE, et affiche des performances sans précédent sur des problèmes de niveau master et doctorat dans tous les domaines académiques
> « Sur les questions académiques, Grok 4 est plus intelligent que des étudiants de troisième cycle dans toutes les disciplines »
Grok 2 était un modèle conceptuel, Grok 3 mettait l’accent sur le préentraînement à partir de diverses sources de données, et Grok 4 a été entraîné avec 100 fois plus de calcul et de données que Grok 2, et 10 fois plus que Grok 3
Entraînement sur le supercalculateur Colossus (200 000 GPU), avec un apprentissage centré sur le préentraînement et le RL
- Fort accent sur l’apprentissage par renforcement (RL), avec une structure d’auto-correction des erreurs où le modèle reçoit du feedback pendant la résolution de problèmes et améliore progressivement ses performances
- xAI souligne des avancées rapides fondées sur les capacités de résolution logique et une approche de pensée par « first principles »

Deux versions du modèle

Le modèle de base Grok 4 et une version renforcée, Grok 4 Heavy
Grok 4 Heavy met en œuvre une intelligence collective via une approche multi-agents, où plusieurs agents résolvent un problème en parallèle et comparent leurs résultats pour trouver la meilleure réponse
- Disponible via l’abonnement SuperGrok Heavy (300 dollars par mois)

AGI Scoring Breakthrough

Grok 4 a obtenu 15,9 % au test ARC-AGI, un score parmi les meilleurs du secteur
ARC-AGI évalue l’intelligence générale du modèle et ses capacités de résolution abstraite, en se concentrant sur la reconnaissance de motifs visuels et l’aptitude à s’adapter à de nouveaux scénarios

Résultats à Humanity's Last Exam (HLE)

Lancé en janvier 2025, Humanity’s Last Exam (HLE) est un benchmark d’une difficulté extrême composé de 2 500 questions couvrant plus de 100 domaines, dont les mathématiques, la biologie, les sciences sociales, la physique, l’IA, l’ingénierie et la chimie
Résultats de Grok 4 : « un niveau inaccessible aux humains réels comme aux IA existantes »
- Sans outils : 26,9 %
- Avec outils (Grok 4 Heavy) : 41 %
- Avec calcul supplémentaire au moment du test (32x) : jusqu’à 50,7 %
Sans outils signifie une résolution basée uniquement sur les capacités internes de langage et de raisonnement ; avec outils désigne une approche combinée à un système multi-agents, avec exécution de code, recherche web et utilisation de données externes
Le training compute repose sur le supercalculateur Colossus et ses 200 000 GPU pour entraîner les connaissances du modèle et sa capacité à utiliser des outils ; le test-time compute consiste à exécuter plusieurs modèles en parallèle pendant la résolution, avec un processus de vérification des résultats

> « Grok 4 est au niveau PhD ou au-delà dans tous les domaines »
> « Nous espérons bientôt aussi des découvertes de nouvelles technologies et d’une nouvelle physique »

Principaux résultats aux benchmarks IA

AIME : capacité à résoudre des problèmes mathématiques complexes de niveau lycée
GPQA : évaluation du raisonnement scientifique de niveau graduate, notamment en physique
LiveCodeBench : mesure des compétences en code basée sur des défis de programmation Python
MMLU-Pro : aptitude à résoudre des QCM difficiles dans divers domaines spécialisés
LOFT : évaluation de la capacité à extraire dans de longs textes les informations nécessaires à des requêtes complexes

Cas d’usage pratiques et déploiement dans le monde réel

Dans les simulations business (VendingBench), Grok 4 affiche des performances plus de deux fois supérieures aux modèles précédents et plus de régularité, démontrant sa capacité à exécuter des stratégies sur la durée
Dans des laboratoires de sciences de la vie notamment, il est déjà utilisé pour analyser de grands volumes de journaux d’expériences, formuler des hypothèses et interpréter des images médicales, avec des gains d’efficacité concrets
Dans le développement de jeux, il aide un seul développeur à finaliser rapidement un jeu 3D, jusqu’à la collecte automatique d’assets de jeu et la génération de code

L’innovation du mode vocal natif

Grok 4 prend en charge la conversation vocale en temps réel, avec des interruptions naturelles en cours d’échange, la compréhension et la reproduction des intonations émotionnelles, ainsi que des réponses à très faible latence, pour une interaction humanoïde dépassant les systèmes TTS existants
Plusieurs types de voix ont été ajoutés (britannique, style bande-annonce, etc.), et des démos live ont montré la fluidité, la rapidité et la polyvalence de la conversation en temps réel

API et extension de l’écosystème

Grok 4 est également proposé via API, ce qui permet à chacun de l’utiliser pour des benchmarks ou des applications métier
Des partenaires de secteurs variés comme la finance, la science et le divertissement sont déjà en train de l’adopter, renforçant son impact dans le monde réel
Il prend en charge un context length de 256k, améliorant le traitement de tâches longues et complexes

Limites et évolutions à venir

À ce stade, la plus grande faiblesse de Grok 4 est son manque de capacités de compréhension et de génération multimodales pour l’image, la vidéo, etc.
Avec le modèle foundation v7 dont l’entraînement s’achèvera bientôt, ainsi qu’un RL encore renforcé, des améliorations globales sont prévues sur la vision, la vidéo et l’audio
Un modèle de génération vidéo utilisant plus de 100,000 GB200 GPU est en développement et son lancement a été annoncé

Feuille de route de xAI

Août 2025 : lancement prévu d’un modèle de code
Septembre 2025 : présentation d’un agent multimodal
Octobre 2025 : annonce prévue d’un modèle de génération vidéo
Les outils comme les performances du modèle continueront d’être renforcés

Conclusion et implications

Grok 4 montre qu’il peut rivaliser concrètement avec les meilleures IA actuelles, voire les dépasser, notamment en raisonnement et en résolution de problèmes académiques
Avec une intelligence et des capacités de raisonnement inédites, des interactions vocales en temps réel, l’usage d’outils et une architecture multi-agents, il se présente comme un véritable tournant vers la prochaine génération d’AGI
Avec son potentiel d’extension dans le travail réel, le business, le jeu vidéo, la recherche et le divertissement, xAI entend s’imposer comme l’entreprise AGI la plus rapide du marché
Le rythme de développement rapide et l’offensive agressive de xAI montrent que la concurrence dans l’industrie de l’IA continue de s’accélérer

6 commentaires

xguru 2025-07-13

Grok 4 est désormais le modèle d’IA de tête
La critique de Grok 4 par Simon Willison
Grok recherche sur X ce qu’Elon Musk dit à propos de la question israélo-palestinienne

xguru 2025-07-11

Il faudra l’utiliser en conditions réelles pour le savoir, mais avec 200 000 GPU et un tel vivier de talents, on voit qu’une croissance aussi agressive est possible.
Je me demande à quel point ça s’améliorera encore quand Colossus atteindra 1 million de GPU.

En comptant 50 millions de wons par H100, rien que le prix des GPU représente 50 000 milliards de wons. En ajoutant la construction du datacenter et l’alimentation électrique nécessaire autour, on dit qu’il faut encore jusqu’à 20 000 milliards de wons, donc on arrive à 70 000 milliards de wons. J’ai l’impression que l’IA devient de plus en plus une guerre d’argent.

jujumilk3 2025-07-11

Pourquoi ils se mettent soudainement à s'en prendre aux doctorants, sérieux mdr

sknah 2025-07-11

MDRRR le doctorant soudain pris dans la ligne de mire, complètement sidéré ..

lcanon 2025-07-11

Je comprends bien que Grok 4 est impressionnant, mais les formules typiquement anglo-saxonnes du genre « on s’attend bientôt à ce qu’il découvre de nouvelles technologies / une nouvelle physique » sont assez amusantes. S’il pouvait bientôt prouver ou réfuter l’hypothèse de Riemann, on n’aurait alors plus besoin de benchmarks de quelque sorte que ce soit, n’est-ce pas ?

GN⁺ 2025-07-11

Avis Hacker News

Le modèle « Heavy » coûte 300 dollars par mois ; on a l’impression que les prix ne cessent de monter, alors qu’avant on avait l’impression qu’on nous promettait qu’ils baisseraient continuellement. Cela semble venir du fait que beaucoup d’entreprises manquent de GPU ; des acteurs comme Google ne semblent probablement pas avoir ce problème. Gemini 2.5 Pro est déjà utilisable gratuitement dans AI Studio, et même avec un réglage à 32k, cela ne coûte absolument rien. On peut peut-être espérer que Gemini 3.0 soit aussi proposé gratuitement.
- Je ne crois pas que quelqu’un ait jamais promis que les modèles haut de gamme seraient toujours bon marché. À niveau de performance et nombre de tokens équivalents, les prix baissent bien. C’est un peu comme la loi de Moore : les puces deviennent toujours plus complexes, mais la performance par unité coûte moins cher.
- C’est le même principe qu’une Ferrari plus chère qu’une Model T, ou que les ordinateurs les plus coûteux aujourd’hui sont bien plus chers que les premiers PC. Ce qui baisse réellement en prix, c’est l’entrée de gamme ou les gammes à performances constantes. Il est normal que l’éventail global des prix s’élargisse de plus en plus. J’y vois un signe que ce secteur mûrit. La différence ici, c’est que l’entrée de gamme était artificiellement à 0 ou très bas à cause du financement par les VC.
- Il faut aussi noter que Gemini voit lui aussi ses prix augmenter, lien connexe.
- C’est un phénomène de montée des coûts dû au temps d’inférence. Au final, l’écart entre ceux qui peuvent se permettre l’accès à l’IA et ceux qui ne le peuvent pas va probablement fortement se creuser. La majeure partie du monde ne peut pas assumer des abonnements à plusieurs centaines de dollars.
- O3 a récemment baissé ses prix de 80 %, Grok 4 vient tout juste de sortir et reste à un prix assez raisonnable vu ses performances. Hors version heavy, le prix unitaire par token est le même que pour Grok 3. Google semble accepter de supporter les coûts pour gagner en présence, donc je comprends mal la plainte initiale.
Il semble bien qu’on ait effectivement un nouveau SOTA (State of the Art, meilleur modèle du moment). Les scores sont nettement supérieurs à o3, Gemini et Claude sur Human’s Last Exam, GPQA, AIME25, HMMT25, USAMO 2025, LiveCodeBench, ARC-AGI 1 et 2, etc. Un modèle spécialisé pour le code devrait aussi sortir dans les prochaines semaines. À noter qu’aujourd’hui ils n’ont pas beaucoup parlé des performances en codage.
- D’accord. Aujourd’hui, dans la simulation des World Series, j’ai ressenti un raisonnement instable. Il a récupéré des chiffres sur Polymarket puis a répondu comme s’il s’agissait de ses propres données. Bien sûr, j’ai peut-être mal interprété faute d’avoir regardé de près, mais ce genre de cas me rappelle qu’il faut absolument dans l’équipe sécurité des modèles pionniers quelqu’un qui garde un regard sceptique. Malgré tout, c’est un progrès énorme. Si les benchmarks ne sont pas contaminés, je pense qu’il pourrait exploser comme daily driver. Pour le code, le seul regret est le contexte limité à 256k ; j’espère qu’en v7 il y aura une amélioration sur les contextes plus longs, surtout pour la vidéo. Quoi qu’il en soit, j’ai hâte de l’essayer.
- J’aimerais que le modèle de code soit proposé aux agents de codage ; impossible de le trouver nulle part.
- Il est démontré depuis longtemps que censurer un modèle fait fortement chuter ses scores. Il faut évidemment bloquer des choses comme la fabrication de bombes, mais Grok 3, tout en ayant accès aux pires données, a pourtant continué à adopter des positions progressistes de façon constante, compte tenu du profil de son sponsor.
- Même sans être favorable à Elon Musk, il est vraiment impressionnant que Grok ait rattrapé le big 3 — Google, OpenAI et Anthropic. On est maintenant presque au même niveau.
Je viens d’essayer Grok 4 et c’est excellent. Il a généré d’un coup 1 000 lignes de code Java CDK pour déployer une instance EC2, avec VPC et Security Groups, sans une seule erreur de syntaxe. En particulier, lors de la génération du userData (commande #!/bin/bash), il a wget le dernier artifact logiciel depuis GitHub avec l’URL exacte. Franchement impressionnant.
- Si tu peux partager le résultat, j’aimerais vraiment le voir. Si autant de code sort d’un coup sans erreur, c’est clairement impressionnant. Je me demande si Grok exécute aussi des outils sur ce type de requêtes, comme un linter, une sandbox, une recherche web, etc.
- C’est excellent pour du code jetable, mais on est encore très loin d’un code maintenable qui réponde aux exigences de gestion de source, de collaboration, de respect d’un SDLC standard, d’immutabilité et de suivi de l’historique des changements d’état. Si un stagiaire écrivait du code de déploiement EC2 comme ça, je pense qu’il faudrait une longue discussion sur chaque décision.
- Je me demande pourquoi utiliser Java pour CDK au lieu de TypeScript. Est-ce pour uniformiser tous les environnements autour d’un seul langage ?
L’astuce centrale de Grok Heavy, c’est une architecture qui lance plusieurs agents en parallèle puis compare les résultats. Globalement, les résultats de benchmark sont très impressionnants. C’est forcément cher et lent, mais c’est une évolution logique vers le design des agents de prochaine génération. J’ai vraiment envie de l’essayer. À noter aussi que l’API est ouverte. xAI semble avoir réellement accompli quelque chose.
- Je comprends comment cela fonctionne, mais malgré tout ça me donne un peu l’impression d’un « hack ». On a l’impression que le LLM lui-même ne progresse plus vraiment de façon nette et qu’on se contente d’élargir son périmètre en profondeur, en longueur ou en largeur. Au final, la croissance semble venir de l’ajout autour du modèle d’outils ou de logique « non-IA ». Comme pour les réseaux neuronaux primitifs, dont la solution a simplement été d’attendre une croissance exponentielle de la puissance matérielle, cette direction est peut-être effectivement la bonne.
- C’est cher et lent, mais de toute façon, pour entraîner le prochain modèle SOTA, il faut déjà utiliser ce genre d’approche avec du rejection sampling et d’autres techniques pour produire de bonnes données synthétiques. Faire payer 300 dollars aux utilisateurs pour leur offrir ce type d’expérience me semble être une proposition assez raisonnable.
- C’est proche de llm-consortium, sauf qu’il y a moins de diversité de modèles. On peut se référer au tweet de karpathy et à l’open source llm-consortium.
- Personnellement, j’aimerais surtout que ce genre de technique soit implémenté ailleurs que dans une « entreprise à problèmes ». J’aimerais continuer à respecter mes propres principes.
- Je pense que o3 pro fonctionne probablement lui aussi de cette manière.
Si vous n’avez pas le temps de regarder la vidéo de lancement, j’en ai préparé une version avec extraits. En résumé, c’est vraiment impressionnant et la concurrence dans l’IA devient de plus en plus féroce. Voir les extraits courts
Avec Grok 4, j’ai résolu un problème de comportement incohérent lors de l’exécution de lldb depuis Python. Il y avait une différence entre Docker et mon environnement Linux local, et la cause était que l’address sanitizer se comportait différemment selon l’environnement. O3 n’avait pas réussi à l’identifier, alors que Grok 4 l’a pointé correctement, ce qui m’a bluffé.
« Grok 4 (Thinking) » a atteint 15,9 % sur ARC-AGI-2, soit presque le double du précédent SOTA commercial, et a même battu le meilleur score actuel de la compétition Kaggle. Plus de détails
C’est très impressionnant, mais je doute que les entreprises puissent facilement choisir comme fournisseur d’API un modèle post-entraîné selon les préférences personnelles d’Elon. Techniquement, c’est excellent, mais côté business cela semble avoir des limites.
Pour la deep research, Grok a toujours été parmi les tout meilleurs, même sans utiliser l’API. Grok 4 semble encore renforcer ce potentiel.
- L’intégration de Grok à Twitter est de loin son meilleur cas d’usage réel. Pouvoir demander directement en temps réel le contexte ou le sens d’un terme dans un tweet est vraiment très utile.
- Pour moi, OpenAI reste clairement meilleur que tous ses concurrents, même si je ne dirais pas que c’est formidable. Cela dit, il est vrai que Grok me semble excellent pour les mises à jour en temps réel ou les questions de support IT.
- Pourrais-tu préciser un peu plus ce que tu entends par <deep research> ?
Je me demande si quelqu’un a déjà intégré Grok. J’ai fait énormément d’intégrations de LLM jusqu’ici, mais je n’ai encore jamais vu de cas réel d’usage de Grok. S’ils ne surmontent pas cela, personne ne fera confiance à ce modèle. Les entreprises ne l’utiliseront pas avant qu’il ne démontre de vraies capacités sérieuses. L’ensemble ne fait pas très entreprise non plus.
- Grok 3 est disponible sur Azure AI Foundry, et une intégration avec Telegram a aussi été annoncée, même si dans les faits c’était plutôt Grok qui payait 300 millions de dollars à Telegram. Liens : présentation de Grok 3 et mini sur Azure Foundry, article de la BBC. Quoi qu’il en soit, je pense que choisir Grok représente un vrai risque réputationnel.
- Je suis encore plus curieux de savoir d’où et comment Grok recrute ses talents. Il y a tellement d’argent dans ce secteur et tant de bons laboratoires qu’il devient difficile de décider de changer d’employeur sans idéologie ou conviction forte. Je me demande vraiment s’il y a tant de chercheurs IA que ça qui ont envie de considérer Elon comme un empereur.
- J’utilise Grok pour analyser visuellement des images de nourriture et ça fonctionne bien. Il reconnaît correctement les marques et identifie aussi bien les photos prises bizarrement par les utilisateurs. L’API est également très simple à utiliser.
- Intégrer réellement à un service un modèle qui s’est lui-même qualifié de « Mecha Hitler » la semaine dernière me semble complètement insensé. Je suis fan de Musk, mais je tiens à souligner qu’en critiquant Sama, il est en train de sortir lui-même une IA tout aussi puissante et tout aussi peu contrôlée.