5 points par GN⁺ 2025-07-11 | 5 commentaires | Partager sur WhatsApp
  • Grok 4 de xAI a pris la 1re place des modèles d’IA sur les principaux benchmarks
  • Dans l’AAI Index, Grok 4 obtient 73 points, devant OpenAI o3 (70), Google Gemini 2.5 Pro (70), Anthropic Claude 4 Opus (64) et DeepSeek R1 0528 (68)
  • Grok 4 signe aussi les meilleurs scores sur les benchmarks liés au code et aux mathématiques, avec de nouveaux records sur GPQA Diamond (88 %) et Humanity’s Last Exam (24 %), entre autres
  • Le prix est identique à celui de Grok 3 ; le tarif par token est le même que Claude 4 Sonnet, et légèrement plus élevé que Gemini 2.5 Pro ou o3
  • Principales fonctionnalités : fenêtre de contexte de 256k tokens, entrée texte/image, appel de fonctions et sortie structurée

Grok 4 devient le modèle leader de xAI

  • Avec un score de 73 à l’Artificial Analysis Intelligence Index, Grok 4 prend la 1re place sur les principaux benchmarks
  • Avec un score supérieur à OpenAI o3 (70), Google Gemini 2.5 Pro (70), Anthropic Claude 4 Opus (64) et DeepSeek R1 0528 (68), il s’agit de la première fois que xAI prend la tête de l’IA
  • Grok 3 était déjà compétitif, mais Grok 4 est le premier modèle avec lequel xAI prend la tête

Benchmarks et résultats d’évaluation

  • 1re place à la fois sur l’indice de code (LiveCodeBench & SciCode) et l’indice de mathématiques (AIME24 & MATH-500)
  • GPQA Diamond : 88 %, en hausse par rapport au précédent record de Gemini 2.5 Pro (84 %)
  • Humanity’s Last Exam : 24 %, au-dessus du précédent score de Gemini 2.5 Pro (21 %)
  • MMLU-Pro : 87 %, AIME 2024 : 94 %, soit des meilleurs scores ex æquo
  • Une vitesse de sortie de 75 tokens/s : plus lente que o3 (188), Gemini 2.5 Pro (142) et Claude 4 Sonnet Thinking (85), mais plus rapide que Claude 4 Opus Thinking (66)

Autres informations clés

  • Fenêtre de contexte de 256k tokens (à comparer à Gemini 2.5 Pro : 1M, Claude 4 Sonnet/Opus : 200k, o3 : 200k, R1 0528 : 128k), ce qui le place dans le haut du panier
  • Prise en charge des entrées texte et image
  • Prise en charge de l’appel de fonctions et de la sortie structurée
  • Politique tarifaire : identique à Grok 3, avec $3/$15 par 1M de tokens en entrée/sortie, et $0.75 par token d’entrée en cache
    • Identique à Claude 4 Sonnet, mais un peu plus cher que Gemini 2.5 Pro et o3
  • Grok 4 sera proposé via l’API xAI, le chatbot Grok (X/Twitter) et Microsoft Azure AI Foundry, entre autres

Résumé

  • Grok 4 est le premier modèle d’IA avec lequel xAI prend la tête, devant tous les principaux modèles concurrents sur les benchmarks et les métriques
  • Ses fortes capacités de raisonnement, ses multiples modes d’entrée/sortie et son large contexte confirment son leadership dans le secteur
  • Les détails d’implémentation peuvent différer entre la version destinée à X/Twitter et celle de l’API

5 commentaires

 
slowandsnow 2025-07-11

Je n’y croirai pas tant que ce ne sera pas dispo gratuitement. Grok est même à 30 dollars, ça fait peur de s’abonner...

 
paruaa 2025-07-11

On peut sans doute voir ça comme la performance d’un modèle avec peu d’alignement, mais je me dis qu’il va probablement se prendre un retour de bâton et voir ses performances baisser, non ?

 
click 2025-07-11

Quand j’utilise gemini cli, l’expérience utilisateur est d’un tout autre niveau grâce au contexte de 1M.
Pouvoir mettre toute une codebase dans le contexte, c’est un véritable game changer.

 
koolgu 2025-07-11

Je me demande dans quelle mesure la taille du contexte influe sur l’usage d’un modèle ; pourtant, on continue encore à dire, sur la base de benchmarks et d’apparences, que tel ou tel est numéro un — en quoi est-ce différent d’un marketing viral destiné aux gens qui n’y connaissent rien ?

 
GN⁺ 2025-07-11
Commentaire Hacker News
  • J’imagine mal qui paierait pour utiliser Grok, surtout qu’en ce moment il semble complètement partir en vrille ; la valorisation de xAI n’est qu’un mirage
    • Moi, je paie pour Grok et je l’utilise depuis des mois à la place de Google ; l’accès au graphe de X est vraiment utile et il a beaucoup d’informations récentes ; j’aimerais aussi pouvoir l’utiliser dans Cline ou Cursor
    • Je me demande si vous savez que ce qui a causé les problèmes, ce n’est pas le modèle Grok mais le bot @grok sur X ; la version API de Grok ne se met pas soudainement à imiter Hitler sans raison (sauf si on le lui demande directement)
  • Sur ARC-AGI2, il affiche des performances 4x supérieures à o3 et 2x à opus 4… et il sort aussi très fort sur d’autres benchmarks indépendants ; on continue de voir tourner cette mode des cycles très courts où chaque modèle affirme être « le meilleur au monde » pendant un mois ; à ce prix, c’est bon pour les consommateurs, et les jeux de données d’entraînement des modèles open deviennent eux aussi plus variés, donc tout le monde y gagne ; c’est triste de voir des gens se perdre dans des justifications pénibles à cause de querelles émotionnelles autour de personnalités publiques ; beaucoup de gens ont besoin d’une vraie détox médiatique ; autrefois on appelait les LLM des « perroquets probabilistes », mais quand on voit ce fil et Reddit, ce sont plutôt les gens qui répètent comme des perroquets des choses stupides et haineuses ; il faut faire mieux
  • Je me demande si je vais encore recevoir à l’avenir des réponses liées à Hitler dans mon code ; modification : je me sens idiot de ne pas avoir compris que c’était encore un coup de marketing « génial »