- Grok 4 Fast, annoncé par xAI, est un modèle de raisonnement de nouvelle génération basé sur les acquis d'entraînement de Grok 4, avec un accent maximal sur la rentabilité et la rapidité
- Ce modèle dispose d'une fenêtre de contexte de 2M de tokens, de fonctions de recherche Web et X, ainsi que d'une architecture unifiée reasoning / non-reasoning, ce qui le rend adapté à un usage en temps réel
- Lors des benchmarks, il affiche des performances similaires à celles de Grok 4 tout en utilisant en moyenne 40 % de tokens en moins, permettant d'atteindre le même niveau de performance à un coût bien inférieur
- Il se distingue aussi par de hautes performances dans l'exécution de code, l'exploration Web et d'autres usages grâce à l'apprentissage par renforcement pour l'utilisation d'outils, et a pris la 1re place sur la Search Arena de LMArena
Les progrès d'une intelligence rentable
- Grok 4 Fast offre de meilleures performances que Grok 3 Mini tout en réduisant fortement le coût en tokens
- En moyenne, il atteint des performances comparables à Grok 4 en utilisant 40 % de « Thinking Tokens » en moins
- Exemples de scores de benchmark (pass@1) :
- Grok 4 Fast : 85.7 %, 92.0 %, 93.3 %, 20.0 %, 80.0 %
- Des résultats équivalents ou supérieurs aux modèles concurrents (GPT-5, etc.)
- Il affiche des résultats proches de Grok 4 sur divers benchmarks de raisonnement comme GPQA, AIME, HMMT et LiveCodeBench
- En plus d'une amélioration de 40 % de l'efficacité en tokens, Grok 4 Fast réduit fortement le prix par token
- À performance égale, son prix est réduit de 98 % par rapport à Grok 4, établissant ainsi le « meilleur ratio prix-intelligence (SOTA Price-to-Intelligence Ratio) » parmi les modèles publics
- Ses très bons résultats ont été validés par une évaluation externe de l'organisme indépendant Artificial Analysis Intelligence Index
Utilisation native des outils et recherche SOTA
- Entraîné avec de l'apprentissage par renforcement pour l'utilisation d'outils (RL), il peut automatiquement exécuter du code ou naviguer sur le Web lorsque nécessaire
- Il dispose de capacités de recherche agentique lui permettant d'explorer le Web et X en temps réel, d'effectuer des recherches multi-sauts et de traiter aussi les médias (images, vidéos)
- Sur divers benchmarks comme BrowseComp, SimpleQA et X Bench Deepsearch(zh), il dépasse les performances de Grok 4
Résultats du post-training en domaine général
- Sur la Search Arena de LMArena, Grok 4 Fast (
menlo) a pris la 1re place avec un Elo de 1163, soit 17 points d'avance sur le modèle concurrent
- Sur la Text Arena,
grok-4-fast (nom de code tahoe) se classe 8e, montrant des performances écrasantes face à d'autres modèles comparables (18e place ou moins)
- Il montre une efficacité supérieure à celle des grands modèles sur les tâches réelles de recherche et de texte
Modèle unifié Reasoning et Non-Reasoning
- Les modes reasoning / non-reasoning, qui nécessitaient auparavant des modèles séparés, sont intégrés dans une architecture unique
- Il suffit du system prompt pour basculer entre les modes reasoning (réflexion approfondie) et non-reasoning (réponse rapide)
- La réduction de la latence de bout en bout et du coût en tokens le rend adapté aux applications en temps réel
- Dans l'API xAI, les développeurs peuvent ajuster finement la vitesse et la profondeur
Déploiement et politique tarifaire
- Grok 4 Fast est disponible immédiatement et proposé gratuitement à titre temporaire sur OpenRouter et Vercel AI Gateway
- Il est aussi proposé dans l'API xAI en deux versions,
grok-4-fast-reasoning et grok-4-fast-non-reasoning, avec prise en charge d'une fenêtre de contexte de 2M de tokens
- Les tarifs commencent à $0.20/1M pour les tokens en entrée et $0.50/1M pour les tokens en sortie, avec tarification doublée au-delà de 128k tokens
- Les tokens d'entrée mis en cache sont proposés à $0.05/1M, ce qui aide à réduire les coûts
Feuille de route
- Le modèle continuera d'être amélioré en intégrant les retours des utilisateurs
- Le renforcement des capacités multimodales et des caractéristiques agentiques constitue l'objectif principal de la prochaine mise à jour
- La model card et des détails supplémentaires sont disponibles via la model card de Grok 4 Fast (PDF)
2 commentaires
C’est plus cher et plus lent que gpt-oss, donc je me demande pourquoi autant de gens l’utilisent..
Avis sur Hacker News