- Grok 4 de xAI a pris la 1re place des modèles d’IA sur les principaux benchmarks
- Dans l’AAI Index, Grok 4 obtient 73 points, devant OpenAI o3 (70), Google Gemini 2.5 Pro (70), Anthropic Claude 4 Opus (64) et DeepSeek R1 0528 (68)
- Grok 4 signe aussi les meilleurs scores sur les benchmarks liés au code et aux mathématiques, avec de nouveaux records sur GPQA Diamond (88 %) et Humanity’s Last Exam (24 %), entre autres
- Le prix est identique à celui de Grok 3 ; le tarif par token est le même que Claude 4 Sonnet, et légèrement plus élevé que Gemini 2.5 Pro ou o3
- Principales fonctionnalités : fenêtre de contexte de 256k tokens, entrée texte/image, appel de fonctions et sortie structurée
Grok 4 devient le modèle leader de xAI
- Avec un score de 73 à l’Artificial Analysis Intelligence Index, Grok 4 prend la 1re place sur les principaux benchmarks
- Avec un score supérieur à OpenAI o3 (70), Google Gemini 2.5 Pro (70), Anthropic Claude 4 Opus (64) et DeepSeek R1 0528 (68), il s’agit de la première fois que xAI prend la tête de l’IA
- Grok 3 était déjà compétitif, mais Grok 4 est le premier modèle avec lequel xAI prend la tête
Benchmarks et résultats d’évaluation
- 1re place à la fois sur l’indice de code (LiveCodeBench & SciCode) et l’indice de mathématiques (AIME24 & MATH-500)
- GPQA Diamond : 88 %, en hausse par rapport au précédent record de Gemini 2.5 Pro (84 %)
- Humanity’s Last Exam : 24 %, au-dessus du précédent score de Gemini 2.5 Pro (21 %)
- MMLU-Pro : 87 %, AIME 2024 : 94 %, soit des meilleurs scores ex æquo
- Une vitesse de sortie de 75 tokens/s : plus lente que o3 (188), Gemini 2.5 Pro (142) et Claude 4 Sonnet Thinking (85), mais plus rapide que Claude 4 Opus Thinking (66)
Autres informations clés
- Fenêtre de contexte de 256k tokens (à comparer à Gemini 2.5 Pro : 1M, Claude 4 Sonnet/Opus : 200k, o3 : 200k, R1 0528 : 128k), ce qui le place dans le haut du panier
- Prise en charge des entrées texte et image
- Prise en charge de l’appel de fonctions et de la sortie structurée
- Politique tarifaire : identique à Grok 3, avec $3/$15 par 1M de tokens en entrée/sortie, et $0.75 par token d’entrée en cache
- Identique à Claude 4 Sonnet, mais un peu plus cher que Gemini 2.5 Pro et o3
- Grok 4 sera proposé via l’API xAI, le chatbot Grok (X/Twitter) et Microsoft Azure AI Foundry, entre autres
Résumé
- Grok 4 est le premier modèle d’IA avec lequel xAI prend la tête, devant tous les principaux modèles concurrents sur les benchmarks et les métriques
- Ses fortes capacités de raisonnement, ses multiples modes d’entrée/sortie et son large contexte confirment son leadership dans le secteur
- Les détails d’implémentation peuvent différer entre la version destinée à X/Twitter et celle de l’API
5 commentaires
Je n’y croirai pas tant que ce ne sera pas dispo gratuitement. Grok est même à 30 dollars, ça fait peur de s’abonner...
On peut sans doute voir ça comme la performance d’un modèle avec peu d’alignement, mais je me dis qu’il va probablement se prendre un retour de bâton et voir ses performances baisser, non ?
Quand j’utilise gemini cli, l’expérience utilisateur est d’un tout autre niveau grâce au contexte de 1M.
Pouvoir mettre toute une codebase dans le contexte, c’est un véritable game changer.
Je me demande dans quelle mesure la taille du contexte influe sur l’usage d’un modèle ; pourtant, on continue encore à dire, sur la base de benchmarks et d’apparences, que tel ou tel est numéro un — en quoi est-ce différent d’un marketing viral destiné aux gens qui n’y connaissent rien ?
Commentaire Hacker News