Sortie de Grok 4
(twitter.com/xai)- Grok 4 est le tout dernier modèle d’IA lancé par xAI après environ deux ans, avec une intelligence et des capacités de raisonnement qui dépasseraient celles d’étudiants de troisième cycle dans tous les domaines
- L’échelle d’entraînement et les ressources de calcul ont été multipliées par plus de 100, avec une progression centrée sur l’apprentissage par renforcement (RL), démontrant une capacité de résolution de problèmes au-delà du niveau humain
- Score de 15,9 % à l’ARC-AGI, soit une performance de tout premier plan parmi les IA actuelles dans l’évaluation du raisonnement abstrait et de l’intelligence générale
- Sur divers benchmarks comme Humanity’s Last Exam (HLE), le modèle affiche des résultats marquants avec 26,9 % sans outils, et 41 à 50,7 % avec outils
- Avec l’introduction d’un mode vocal natif, il propose une interaction proche de l’humain, incluant conversation en temps réel, expression des émotions et réponses à faible latence
Grok 4
- xAI, fondée par Elon Musk, a dévoilé Grok 4 après environ deux ans, en insistant sur le fait qu’il s’agit du « meilleur modèle d’IA au monde »
- Il obtient des scores parfaits à des examens standardisés comme le SAT et le GRE, et affiche des performances sans précédent sur des problèmes de niveau master et doctorat dans tous les domaines académiques
> « Sur les questions académiques, Grok 4 est plus intelligent que des étudiants de troisième cycle dans toutes les disciplines » - Grok 2 était un modèle conceptuel, Grok 3 mettait l’accent sur le préentraînement à partir de diverses sources de données, et Grok 4 a été entraîné avec 100 fois plus de calcul et de données que Grok 2, et 10 fois plus que Grok 3
- Entraînement sur le supercalculateur Colossus (200 000 GPU), avec un apprentissage centré sur le préentraînement et le RL
- Fort accent sur l’apprentissage par renforcement (RL), avec une structure d’auto-correction des erreurs où le modèle reçoit du feedback pendant la résolution de problèmes et améliore progressivement ses performances
- xAI souligne des avancées rapides fondées sur les capacités de résolution logique et une approche de pensée par « first principles »
Deux versions du modèle
- Le modèle de base Grok 4 et une version renforcée, Grok 4 Heavy
- Grok 4 Heavy met en œuvre une intelligence collective via une approche multi-agents, où plusieurs agents résolvent un problème en parallèle et comparent leurs résultats pour trouver la meilleure réponse
- Disponible via l’abonnement SuperGrok Heavy (300 dollars par mois)
AGI Scoring Breakthrough
- Grok 4 a obtenu 15,9 % au test ARC-AGI, un score parmi les meilleurs du secteur
- ARC-AGI évalue l’intelligence générale du modèle et ses capacités de résolution abstraite, en se concentrant sur la reconnaissance de motifs visuels et l’aptitude à s’adapter à de nouveaux scénarios
Résultats à Humanity's Last Exam (HLE)
-
Lancé en janvier 2025, Humanity’s Last Exam (HLE) est un benchmark d’une difficulté extrême composé de 2 500 questions couvrant plus de 100 domaines, dont les mathématiques, la biologie, les sciences sociales, la physique, l’IA, l’ingénierie et la chimie
-
Résultats de Grok 4 : « un niveau inaccessible aux humains réels comme aux IA existantes »
- Sans outils : 26,9 %
- Avec outils (Grok 4 Heavy) : 41 %
- Avec calcul supplémentaire au moment du test (32x) : jusqu’à 50,7 %
-
Sans outils signifie une résolution basée uniquement sur les capacités internes de langage et de raisonnement ; avec outils désigne une approche combinée à un système multi-agents, avec exécution de code, recherche web et utilisation de données externes
-
Le training compute repose sur le supercalculateur Colossus et ses 200 000 GPU pour entraîner les connaissances du modèle et sa capacité à utiliser des outils ; le test-time compute consiste à exécuter plusieurs modèles en parallèle pendant la résolution, avec un processus de vérification des résultats
> « Grok 4 est au niveau PhD ou au-delà dans tous les domaines »
> « Nous espérons bientôt aussi des découvertes de nouvelles technologies et d’une nouvelle physique »
Principaux résultats aux benchmarks IA
- AIME : capacité à résoudre des problèmes mathématiques complexes de niveau lycée
- GPQA : évaluation du raisonnement scientifique de niveau graduate, notamment en physique
- LiveCodeBench : mesure des compétences en code basée sur des défis de programmation Python
- MMLU-Pro : aptitude à résoudre des QCM difficiles dans divers domaines spécialisés
- LOFT : évaluation de la capacité à extraire dans de longs textes les informations nécessaires à des requêtes complexes
Cas d’usage pratiques et déploiement dans le monde réel
- Dans les simulations business (VendingBench), Grok 4 affiche des performances plus de deux fois supérieures aux modèles précédents et plus de régularité, démontrant sa capacité à exécuter des stratégies sur la durée
- Dans des laboratoires de sciences de la vie notamment, il est déjà utilisé pour analyser de grands volumes de journaux d’expériences, formuler des hypothèses et interpréter des images médicales, avec des gains d’efficacité concrets
- Dans le développement de jeux, il aide un seul développeur à finaliser rapidement un jeu 3D, jusqu’à la collecte automatique d’assets de jeu et la génération de code
L’innovation du mode vocal natif
- Grok 4 prend en charge la conversation vocale en temps réel, avec des interruptions naturelles en cours d’échange, la compréhension et la reproduction des intonations émotionnelles, ainsi que des réponses à très faible latence, pour une interaction humanoïde dépassant les systèmes TTS existants
- Plusieurs types de voix ont été ajoutés (britannique, style bande-annonce, etc.), et des démos live ont montré la fluidité, la rapidité et la polyvalence de la conversation en temps réel
API et extension de l’écosystème
- Grok 4 est également proposé via API, ce qui permet à chacun de l’utiliser pour des benchmarks ou des applications métier
- Des partenaires de secteurs variés comme la finance, la science et le divertissement sont déjà en train de l’adopter, renforçant son impact dans le monde réel
- Il prend en charge un context length de 256k, améliorant le traitement de tâches longues et complexes
Limites et évolutions à venir
- À ce stade, la plus grande faiblesse de Grok 4 est son manque de capacités de compréhension et de génération multimodales pour l’image, la vidéo, etc.
- Avec le modèle foundation v7 dont l’entraînement s’achèvera bientôt, ainsi qu’un RL encore renforcé, des améliorations globales sont prévues sur la vision, la vidéo et l’audio
- Un modèle de génération vidéo utilisant plus de 100,000 GB200 GPU est en développement et son lancement a été annoncé
Feuille de route de xAI
- Août 2025 : lancement prévu d’un modèle de code
- Septembre 2025 : présentation d’un agent multimodal
- Octobre 2025 : annonce prévue d’un modèle de génération vidéo
- Les outils comme les performances du modèle continueront d’être renforcés
Conclusion et implications
- Grok 4 montre qu’il peut rivaliser concrètement avec les meilleures IA actuelles, voire les dépasser, notamment en raisonnement et en résolution de problèmes académiques
- Avec une intelligence et des capacités de raisonnement inédites, des interactions vocales en temps réel, l’usage d’outils et une architecture multi-agents, il se présente comme un véritable tournant vers la prochaine génération d’AGI
- Avec son potentiel d’extension dans le travail réel, le business, le jeu vidéo, la recherche et le divertissement, xAI entend s’imposer comme l’entreprise AGI la plus rapide du marché
- Le rythme de développement rapide et l’offensive agressive de xAI montrent que la concurrence dans l’industrie de l’IA continue de s’accélérer
6 commentaires
Grok 4 est désormais le modèle d’IA de tête
La critique de Grok 4 par Simon Willison
Grok recherche sur X ce qu’Elon Musk dit à propos de la question israélo-palestinienne
Il faudra l’utiliser en conditions réelles pour le savoir, mais avec 200 000 GPU et un tel vivier de talents, on voit qu’une croissance aussi agressive est possible.
Je me demande à quel point ça s’améliorera encore quand Colossus atteindra 1 million de GPU.
En comptant 50 millions de wons par H100, rien que le prix des GPU représente 50 000 milliards de wons. En ajoutant la construction du datacenter et l’alimentation électrique nécessaire autour, on dit qu’il faut encore jusqu’à 20 000 milliards de wons, donc on arrive à 70 000 milliards de wons. J’ai l’impression que l’IA devient de plus en plus une guerre d’argent.
Pourquoi ils se mettent soudainement à s'en prendre aux doctorants, sérieux mdr
MDRRR le doctorant soudain pris dans la ligne de mire, complètement sidéré ..
Je comprends bien que Grok 4 est impressionnant, mais les formules typiquement anglo-saxonnes du genre « on s’attend bientôt à ce qu’il découvre de nouvelles technologies / une nouvelle physique » sont assez amusantes. S’il pouvait bientôt prouver ou réfuter l’hypothèse de Riemann, on n’aurait alors plus besoin de benchmarks de quelque sorte que ce soit, n’est-ce pas ?
Avis Hacker News
userData(commande#!/bin/bash), il awgetle dernier artifact logiciel depuis GitHub avec l’URL exacte. Franchement impressionnant.