Grok 4 Fast

(x.ai)

4 points par GN⁺ 2025-09-21 | 2 commentaires | Partager sur WhatsApp

Grok 4 Fast, annoncé par xAI, est un modèle de raisonnement de nouvelle génération basé sur les acquis d'entraînement de Grok 4, avec un accent maximal sur la rentabilité et la rapidité
Ce modèle dispose d'une fenêtre de contexte de 2M de tokens, de fonctions de recherche Web et X, ainsi que d'une architecture unifiée reasoning / non-reasoning, ce qui le rend adapté à un usage en temps réel
Lors des benchmarks, il affiche des performances similaires à celles de Grok 4 tout en utilisant en moyenne 40 % de tokens en moins, permettant d'atteindre le même niveau de performance à un coût bien inférieur
Il se distingue aussi par de hautes performances dans l'exécution de code, l'exploration Web et d'autres usages grâce à l'apprentissage par renforcement pour l'utilisation d'outils, et a pris la 1re place sur la Search Arena de LMArena

Les progrès d'une intelligence rentable

Grok 4 Fast offre de meilleures performances que Grok 3 Mini tout en réduisant fortement le coût en tokens
- En moyenne, il atteint des performances comparables à Grok 4 en utilisant 40 % de « Thinking Tokens » en moins
- Exemples de scores de benchmark (pass@1) :
  - Grok 4 Fast : 85.7 %, 92.0 %, 93.3 %, 20.0 %, 80.0 %
  - Des résultats équivalents ou supérieurs aux modèles concurrents (GPT-5, etc.)
Il affiche des résultats proches de Grok 4 sur divers benchmarks de raisonnement comme GPQA, AIME, HMMT et LiveCodeBench
En plus d'une amélioration de 40 % de l'efficacité en tokens, Grok 4 Fast réduit fortement le prix par token
À performance égale, son prix est réduit de 98 % par rapport à Grok 4, établissant ainsi le « meilleur ratio prix-intelligence (SOTA Price-to-Intelligence Ratio) » parmi les modèles publics
- Ses très bons résultats ont été validés par une évaluation externe de l'organisme indépendant Artificial Analysis Intelligence Index

Utilisation native des outils et recherche SOTA

Entraîné avec de l'apprentissage par renforcement pour l'utilisation d'outils (RL), il peut automatiquement exécuter du code ou naviguer sur le Web lorsque nécessaire
Il dispose de capacités de recherche agentique lui permettant d'explorer le Web et X en temps réel, d'effectuer des recherches multi-sauts et de traiter aussi les médias (images, vidéos)
Sur divers benchmarks comme BrowseComp, SimpleQA et X Bench Deepsearch(zh), il dépasse les performances de Grok 4

Résultats du post-training en domaine général

Sur la Search Arena de LMArena, Grok 4 Fast (menlo) a pris la 1re place avec un Elo de 1163, soit 17 points d'avance sur le modèle concurrent
Sur la Text Arena, grok-4-fast (nom de code tahoe) se classe 8e, montrant des performances écrasantes face à d'autres modèles comparables (18e place ou moins)
Il montre une efficacité supérieure à celle des grands modèles sur les tâches réelles de recherche et de texte

Modèle unifié Reasoning et Non-Reasoning

Les modes reasoning / non-reasoning, qui nécessitaient auparavant des modèles séparés, sont intégrés dans une architecture unique
- Il suffit du system prompt pour basculer entre les modes reasoning (réflexion approfondie) et non-reasoning (réponse rapide)
- La réduction de la latence de bout en bout et du coût en tokens le rend adapté aux applications en temps réel
Dans l'API xAI, les développeurs peuvent ajuster finement la vitesse et la profondeur

Déploiement et politique tarifaire

Grok 4 Fast est disponible immédiatement et proposé gratuitement à titre temporaire sur OpenRouter et Vercel AI Gateway
Il est aussi proposé dans l'API xAI en deux versions, grok-4-fast-reasoning et grok-4-fast-non-reasoning, avec prise en charge d'une fenêtre de contexte de 2M de tokens
Les tarifs commencent à $0.20/1M pour les tokens en entrée et $0.50/1M pour les tokens en sortie, avec tarification doublée au-delà de 128k tokens
Les tokens d'entrée mis en cache sont proposés à $0.05/1M, ce qui aide à réduire les coûts

Feuille de route

Le modèle continuera d'être amélioré en intégrant les retours des utilisateurs
Le renforcement des capacités multimodales et des caractéristiques agentiques constitue l'objectif principal de la prochaine mise à jour
La model card et des détails supplémentaires sont disponibles via la model card de Grok 4 Fast (PDF)

2 commentaires

kuber 2025-09-21

C’est plus cher et plus lent que gpt-oss, donc je me demande pourquoi autant de gens l’utilisent..

GN⁺ 2025-09-21

Avis sur Hacker News

Je n’ai aucune envie d’utiliser un produit de Musk, même si on me payait pour le faire, surtout s’il s’agit d’un outil chargé de filtrer, transformer et synthétiser l’information ; ça peut peut-être avoir une utilité, mais je ne lui fais pas confiance et je n’ai pas envie d’enrichir encore davantage Musk
- Même sans avoir d’animosité particulière envers Musk lui-même, on a vu à plusieurs reprises qu’il intervenait directement dans le fonctionnement de Grok pour lui faire produire des résultats conformes à son idéologie ; dans ces conditions, je ne pense pas pouvoir utiliser ce produit. Certains partagent peut-être les opinions de Musk, mais la valeur d’un produit d’IA vient du fait qu’il produit des réponses à partir de données et d’algorithmes variés ; s’il ne fait que reproduire l’avis d’une seule personne, ça n’a pas grand intérêt
- J’ai entendu dire que Grok allait chercher les opinions de Musk sur Twitter avant de répondre ; je me demande si c’est le cas pour toutes les versions de Grok ou seulement pour la version intégrée à Twitter
- Il y a tellement d’alternatives que je ne vois absolument aucune raison d’utiliser Grok
- Musk est déjà intervenu directement sur Grok dans un cas où il se plaignait de l’absence de propagande Fox News autour de l’assassinat de Kirk cas 1, et ce genre d’épisode s’est répété plusieurs fois article du NYT. Grok est une technologie entourée de controverses sur la propagande ; le traiter comme un simple service technique ordinaire n’a aucun sens
Le modèle s’appelle « Fast », alors pourquoi ne pas publier sa vitesse de traitement des tokens ? Je me demande si « fast » ne veut pas dire vitesse, ou si les performances varient trop
- J’ai l’impression que ce n’est en pratique rien d’autre qu’un « grok 4 mini » ; s’ils l’avaient appelé « mini », les gens l’utiliseraient moins, donc ils l’ont sans doute nommé « fast » pour lui donner une raison d’être choisi
- Sur OpenRouter, il est actuellement autour de 160 tokens par seconde source
- Ils semblent le positionner comme rapide en mettant l’accent sur « l’efficacité en tokens », c’est-à-dire obtenir un résultat plus vite en utilisant moins de tokens
Grok 4 figure en haut du classement étendu de NYT Connections lien
- Je me suis dit que Sonoma sky Alpha, qui a récemment reçu des retours sur OpenRouter, pouvait peut-être être ce modèle ; comme il était gratuit, je l’ai beaucoup utilisé, mais je l’ai trouvé moins bon que le Grok 4 existant, donc ce n’est peut-être pas ça
J’utilise beaucoup le modèle grok-code-fast-1 ces derniers temps, donc c’est dommage qu’il ne soit pas mentionné dans cette nouvelle annonce ; j’espère qu’il y aura une version encore meilleure. Même s’il est un peu en dessous de Gemini 2.5 Pro, grok-code-fast-1 est imbattable sur la vitesse d’itération
- C’est un modèle assez simple, mais d’après mon expérience il me convenait mieux que somnet
J’ai du mal à comprendre comment une version plus rapide peut surpasser la version plus lente sur plusieurs benchmarks ; je me demande s’ils n’ont pas simplement entraîné le modèle encore et encore sur les tests de benchmark
- Il n’est pas meilleur sur tous les benchmarks. Grok 4 Fast est plus faible que Grok 4 sur GPQA Diamond, HLE et d’autres domaines fortement fondés sur la connaissance factuelle ; le grand modèle (= plus lent) est meilleur sur ce type de tâches. En revanche, sur les benchmarks axés sur le raisonnement ou l’usage d’outils, où la capacité à enchaîner les tokens compte davantage, un modèle plus petit et plus rapide peut rester compétitif. Ils ont probablement ajusté les données d’entraînement pour privilégier davantage certains types de tâches, et les résultats semblent d’ailleurs promus en sélectionnant précisément ce genre de benchmarks. À l’inverse, on pourrait tout aussi bien fabriquer un « contre-document promotionnel » en ne retenant que les benchmarks de mémoire factuelle pour insister sur ses faiblesses
- Techniquement, cela peut venir de changements d’architecture variés, de davantage de données, de RL, etc. ; récemment, ils semblent nettement en avance sur les modèles ouverts comparables dans leur usage du RL
- En réalité, ce sont simplement deux modèles au nom similaire ; Grok 4 Fast n’est pas la version plus rapide de Grok 4 au sens strict. C’est plutôt une relation du type gpt-4 / gpt-4o : des modèles complètement différents
- Il est probable que Grok 4 Fast soit une version du modèle Grok 4 allégée des parties presque jamais utilisées en production réelle, afin de le rendre plus léger et plus focalisé ; la structure logique de fond serait donc similaire, mais optimisée pour un objectif plus spécifique, avec un meilleur rendement
En ce moment, les grands modèles sont entraînés à des tailles comparables et sur des données similaires ; ce qui change surtout, c’est la politique tarifaire… Grok semble se distinguer par la suppression de filtres et de garde-fous, et les benchmarks eux-mêmes ont beaucoup de défauts qui les rendent faciles à manipuler ; c’est quelque chose que tout le monde dans le secteur sait déjà
Les performances sur benchmark ont l’air bonnes pour le prix ; je me demande ce que ça donne en tests utilisateurs réels
- Si c’est bien ce qui avait été proposé en aperçu sur OpenRouter sous le nom sonoma-dusk, alors c’était plutôt utilisable. Je l’ai testé sur une tâche de rétro-ingénierie de code, et en vitesse comme en performance il était comparable à gpt5-mini, voire meilleur. Il tenait bien jusqu’à 110k~130k tokens, mais au-delà il avait tendance à prétendre avoir terminé même quand les conditions n’étaient pas réunies (par ex. « xx tests réussis sur 400, le reste pourra être fait plus tard »)
On veut tous des modèles rapides et précis, mais je me demande s’il est vraiment possible d’avoir aussi la « précision » ; si le modèle était vraiment très précis, je serais prêt à attendre quelques secondes de plus
- Le seul moyen fiable d’y parvenir, c’est d’utiliser des outils
Lien de référence pour un tableau comparatif des grands modèles
Comme j’utilise personnellement un frontend personnalisé, je trouve dommage que grok4 fast n’ait pas d’API de test gratuite, contrairement à Qwen3 coder ; et les outils partenaires ne sont pas ceux que j’utilise habituellement
- Lien d’essai gratuit de grok-4-fast