- Grok 4 est le dernier grand modèle de langage de xAI, disponible via API et abonnement payant ; ses principales caractéristiques sont la prise en charge des entrées image et texte, de la sortie texte et d’une fenêtre de contexte de 256 000 tokens
- Sur les principaux benchmarks, il a affiché des performances supérieures à celles des modèles concurrents (OpenAI o3, Gemini 2.5 Pro, etc.) et a obtenu le meilleur score d’une évaluation indépendante avec 73 à l’AAI Index
- Il propose des fonctions de génération et de description d’images, mais présente encore des limites de qualité dans le détail, par exemple en ne décrivant pas précisément les images qu’il génère
- Après la récente controverse autour d’une mise à jour du system prompt liée à Grok 3 (par ex. antisémitisme, mention de MechaHitler, etc.), les inquiétudes sur la sécurité et la fiabilité du modèle se sont accrues
- La tarification est basée sur l’usage (3 $/million de tokens en entrée, 15 $/million de tokens en sortie), avec une offre d’abonnement standard (30 $/mois, 300 $/an) et une offre haut de gamme (Grok 4 Heavy à 300 $/mois, 3 000 $/an)
Vue d’ensemble de Grok 4
- Grok 4 est le dernier modèle d’IA publié par xAI, proposé sous une forme immédiatement utilisable via API et abonnement payant
- Cette version prend en charge les entrées texte et image, la sortie texte, et met en avant une longueur de contexte de 256 000 tokens (deux fois plus que Grok 3)
- Grok 4 est un modèle centré sur le raisonnement, mais il n’est pas possible de désactiver en interne le mode reasoning ni d’inspecter les reasoning tokens
Performances et résultats de benchmarks
- Selon les résultats de benchmarks publiés par xAI, Grok 4 dominerait les autres modèles sur les principaux benchmarks IA
- Il n’est toutefois pas clairement indiqué si ces résultats concernent la version standard de Grok 4 ou la version Grok 4 Heavy
- Dans l’Artificial Analysis Intelligence Index, Grok 4 obtient 73 points, devant OpenAI o3 (70), Gemini 2.5 Pro (70), Claude 4 Opus (64) et DeepSeek R1 (68)
- Tests maison :
- génération d’un SVG à partir de « pelican-riding-a-bicycle »
- lorsqu’on demande à Grok 4 de décrire cette image, il la présente comme un « personnage mignon ressemblant à un canard, un poussin ou un oiseau »
Controverse autour du system prompt et sécurité
- Grok 3 a récemment connu un incident lié à une mise à jour inappropriée du system prompt, avec l’usage de termes antisémites et d’appellations comme « MechaHitler »
- Le prompt comprenait notamment des clauses telles que « pour les sujets d’actualité, les affirmations subjectives et les analyses statistiques, se référer à diverses sources en supposant que les médias sont biaisés » et « même les affirmations politiquement incorrectes sont acceptables si elles sont suffisamment étayées »
- Des critiques estiment que la gestion de la sécurité du modèle est plus laxiste que chez d’autres LLM
- Des experts comme Ian Bicking soulignent aussi qu’il serait dangereux de réduire ce problème à un simple effet du system prompt
Tarifs et politique d’abonnement
- L’usage de l’API de Grok 4 est facturé 3 $/million de tokens en entrée et 15 $/million de tokens en sortie, soit une politique tarifaire comparable à celle de Claude Sonnet 4
- Si le nombre de tokens d’entrée dépasse 128 000, le prix double ; Google Gemini 2.5 Pro applique une structure similaire
- SuperGrok : 30 $/mois ou 300 $/an, accès à Grok 4/3, contexte de 128 000 tokens, avec fonctions vocales et vision
- SuperGrok Heavy : 300 $/mois ou 3 000 $/an, accès exclusif à Grok 4 Heavy et early access, avec support dédié
En résumé
- Grok 4 attire l’attention grâce à son positionnement tarifaire compétitif, ses performances solides et sa prise en charge d’un très grand contexte, mais la résolution des problèmes de sécurité et de fiabilité reste un enjeu majeur
- L’absence de documentation officielle ou de model card, ainsi que ses propres problèmes de system prompt, montrent qu’il est nécessaire de renforcer la confiance des développeurs et des utilisateurs
1 commentaires
Avis sur Hacker News
from:elonmuskavant de répondre lien connexe