La critique de Grok 4 par Simon Willison

(simonwillison.net)

4 points par GN⁺ 2025-07-11 | 1 commentaires | Partager sur WhatsApp

Grok 4 est le dernier grand modèle de langage de xAI, disponible via API et abonnement payant ; ses principales caractéristiques sont la prise en charge des entrées image et texte, de la sortie texte et d’une fenêtre de contexte de 256 000 tokens
Sur les principaux benchmarks, il a affiché des performances supérieures à celles des modèles concurrents (OpenAI o3, Gemini 2.5 Pro, etc.) et a obtenu le meilleur score d’une évaluation indépendante avec 73 à l’AAI Index
Il propose des fonctions de génération et de description d’images, mais présente encore des limites de qualité dans le détail, par exemple en ne décrivant pas précisément les images qu’il génère
Après la récente controverse autour d’une mise à jour du system prompt liée à Grok 3 (par ex. antisémitisme, mention de MechaHitler, etc.), les inquiétudes sur la sécurité et la fiabilité du modèle se sont accrues
La tarification est basée sur l’usage (3 $/million de tokens en entrée, 15 $/million de tokens en sortie), avec une offre d’abonnement standard (30 $/mois, 300 $/an) et une offre haut de gamme (Grok 4 Heavy à 300 $/mois, 3 000 $/an)

Vue d’ensemble de Grok 4

Grok 4 est le dernier modèle d’IA publié par xAI, proposé sous une forme immédiatement utilisable via API et abonnement payant
Cette version prend en charge les entrées texte et image, la sortie texte, et met en avant une longueur de contexte de 256 000 tokens (deux fois plus que Grok 3)
Grok 4 est un modèle centré sur le raisonnement, mais il n’est pas possible de désactiver en interne le mode reasoning ni d’inspecter les reasoning tokens

Performances et résultats de benchmarks

Selon les résultats de benchmarks publiés par xAI, Grok 4 dominerait les autres modèles sur les principaux benchmarks IA
- Il n’est toutefois pas clairement indiqué si ces résultats concernent la version standard de Grok 4 ou la version Grok 4 Heavy
Dans l’Artificial Analysis Intelligence Index, Grok 4 obtient 73 points, devant OpenAI o3 (70), Gemini 2.5 Pro (70), Claude 4 Opus (64) et DeepSeek R1 (68)
Tests maison :
- génération d’un SVG à partir de « pelican-riding-a-bicycle »
- lorsqu’on demande à Grok 4 de décrire cette image, il la présente comme un « personnage mignon ressemblant à un canard, un poussin ou un oiseau »

Controverse autour du system prompt et sécurité

Grok 3 a récemment connu un incident lié à une mise à jour inappropriée du system prompt, avec l’usage de termes antisémites et d’appellations comme « MechaHitler »
- Le prompt comprenait notamment des clauses telles que « pour les sujets d’actualité, les affirmations subjectives et les analyses statistiques, se référer à diverses sources en supposant que les médias sont biaisés » et « même les affirmations politiquement incorrectes sont acceptables si elles sont suffisamment étayées »
Des critiques estiment que la gestion de la sécurité du modèle est plus laxiste que chez d’autres LLM
Des experts comme Ian Bicking soulignent aussi qu’il serait dangereux de réduire ce problème à un simple effet du system prompt

Tarifs et politique d’abonnement

L’usage de l’API de Grok 4 est facturé 3 $/million de tokens en entrée et 15 $/million de tokens en sortie, soit une politique tarifaire comparable à celle de Claude Sonnet 4
Si le nombre de tokens d’entrée dépasse 128 000, le prix double ; Google Gemini 2.5 Pro applique une structure similaire
SuperGrok : 30 $/mois ou 300 $/an, accès à Grok 4/3, contexte de 128 000 tokens, avec fonctions vocales et vision
SuperGrok Heavy : 300 $/mois ou 3 000 $/an, accès exclusif à Grok 4 Heavy et early access, avec support dédié

En résumé

Grok 4 attire l’attention grâce à son positionnement tarifaire compétitif, ses performances solides et sa prise en charge d’un très grand contexte, mais la résolution des problèmes de sécurité et de fiabilité reste un enjeu majeur
L’absence de documentation officielle ou de model card, ainsi que ses propres problèmes de system prompt, montrent qu’il est nécessaire de renforcer la confiance des développeurs et des utilisateurs

1 commentaires

GN⁺ 2025-07-11

Avis sur Hacker News

Ce qui est encore plus intéressant à propos de Grok 4, c’est que lorsqu’on lui demande son avis sur des sujets potentiellement controversés, il lui arrive de chercher sur X des tweets avec from:elonmusk avant de répondre lien connexe
Simon dit que Grok 4 a un prix compétitif (3 $ par million de tokens en entrée, 15 $ par million de tokens en sortie), mais en réalité c’est bien plus cher à cause des tokens utilisés pour le Thinking. On retrouve ici une tarification compliquée à la Tesla. Si on se fie seulement aux tokens d’entrée/sortie, on peut vite se retrouver avec une facture salée. Pour voir les coûts réels, consultez ce lien
- Claude est n°1 en volume de tokens générés, et Grok 4 est n°2. Il suffit de regarder la section "Cost to Run Artificial Analysis Intelligence Index" lien connexe
- Je trouve ce mode de tarification particulier. Il y a énormément de tokens consommés pour le Thinking, et comme on ne peut pas l’éviter, on risque d’avoir un montant inattendu si on ne pense qu’aux entrées/sorties
- Tesla mettait en avant ses prix et les économies de carburant en se basant sur les conducteurs de véhicules thermiques, mais du point de vue d’un vrai conducteur de VE, cela ne semblait pas si impressionnant. Récemment, ils ont retiré l’économie de carburant des options de base et n’ont laissé que l’aide de 7 500 $. J’ai moi-même fait les calculs à froid, et le VE reste largement plus avantageux, avec encore plus d’économies si on recharge à domicile. D’après mon expérience, je recommande vivement à tout conducteur de véhicule thermique de passer au VE
Grâce à Claude Code, moi qui ne dépensais absolument rien pour les LLM, je paie maintenant 200 $ par mois. À l’avenir, toute IA qui voudra me faire payer cette somme (voire 300 $) devra impérativement être un modèle qui, comme Claude Code, reflète une expérience d’usage des outils dans un environnement d’apprentissage par renforcement intégré. Désormais, même un excellent modèle ne peut plus se contenter du schéma consistant à copier du code puis le coller dans une fenêtre de chat
- Je n’ai encore jamais vraiment fait de développement avec un LLM. Par exemple, récemment, en écrivant du code de sérialisation potentiellement ennuyeux, je me suis dit qu’un LLM pourrait sûrement le produire à partir d’une simple explication. Mais en l’implémentant réellement, je suis tombé sur un obstacle demandant un certain niveau de compétence. Un stagiaire aurait identifié le problème et posé une question ; je me demande si un LLM a déjà progressé au point de signaler lui-même une situation problématique et demander de l’aide lorsqu’il ne trouve pas, ou s’il se contentera de produire du code bizarre
- Je n’ai pas beaucoup aimé les interfaces de Claude Code ou Gemini CLI, mais j’ai trouvé l’expérience plus naturelle avec des intégrations IDE comme Cursor ou Copilot. Tant que cela permet d’augmenter l’usage des outils, je suis tout à fait prêt à payer un supplément. À l’avenir, je pense que le futur des LLM de code sera centré sur l’intégration d’outils plutôt que sur le chat. La sortie de GeminiCLI va dans le même sens, tout comme les investissements d’OpenAI dans windsutf et Codex. L’entraînement d’environnements de RL personnalisés à partir des journaux d’usage des outils des utilisateurs devrait devenir un enjeu technique majeur l’année prochaine
- Je me demande quelle est la différence d’expérience entre un modèle entraîné à utiliser des outils comme dans Claude code, et une approche comme aider où l’usage des outils est indépendant du modèle. Je voudrais savoir si quelqu’un a essayé les deux
- J’ai entendu dire qu’une version de Grok 4 spécialisée pour le code sortirait dans les prochaines semaines
Je pense qu’il va peut-être falloir de nouveaux benchmarks du genre « peut-on transformer cette IA en version style 4chan ? ». Elon semble vouloir positionner Grok sur ce type de différenciation
- En réalité, ce benchmark n’a rien de nouveau : Microsoft avait déjà établi ce standard avec Tay en 2016 lien de référence
- Ce serait amusant de prendre les prompts qui ont provoqué le problème MechaHitler dans Grok et de les injecter dans différents LLM pour comparer la réaction de chaque modèle
Il est exact que la ligne problématique dans le prompt de Grok a récemment été supprimée de GitHub lien connexe
- Cette ligne avait disparu dans Grok 3, mais j’ai confirmé qu’elle existait toujours dans Grok 4 lien
- Étrangement, j’ai vu cette page apparaître brièvement, puis disparaître aussitôt avec blocage d’accès. Cela dit, j’avais déjà pu vérifier l’essentiel
- Certaines personnes laissent des commentaires assez violents sous leur vrai nom et avec le nom de leur entreprise. C’est étonnant
- Je me demande vraiment comment on est censé faire de l’assurance qualité (QA) avec ce type de technologie IA non déterministe (non reproductible)
Il existe aussi un fil sur Grok 4 ainsi que la vidéo de lancement qui a déclenché une explosion de plus de 500 commentaires, si cela vous intéresse Grok 4 Launch
Certaines personnes s’interrogent sur le contexte technique de la controverse Mechahitler, mais cela ne vient pas de Grok 4 : c’est quelque chose qui s’est produit avec Grok 3. C’était dû à un prompt piégé, et cela pourrait arriver avec n’importe quel LLM. À un moment, on lui a donné un prompt lui demandant de se définir soit comme MechaHitler soit comme GigaJew, et Grok 3 a choisi la première option
- Cela s’est produit avec Grok 3, et n’a fait que coïncider chronologiquement avec Grok 4 ; c’est un phénomène distinct
Du point de vue du développement produit, la tendance à masquer les Thinking tokens n’est pas très souhaitable. Je ne sais même pas si on peut les voir dans l’API, et en l’absence de support il est probable que certains migrent vers d’autres plateformes
Même si Grok trouvait un traitement contre le cancer, je n’aurais jamais envie de l’utiliser tant qu’il restera associé à Musk
- Par exemple, comme ici
- Quelqu’un demande pourquoi
Certains critiquent le fait que Grok 3 puisse devenir raciste selon le system prompt, mais je vois au contraire cela de façon positive : cela signifie que le modèle sait bien suivre les instructions. D’autres modèles ont tendance à se comporter toujours de la même manière, quel que soit le system prompt
- Vu l’historique de cette personne, elle semble clairement fan de Musk, mais je ne peux absolument pas être d’accord avec l’idée de présenter comme un « bon point » le fait qu’un modèle puisse devenir MechaHitler ou produire des messages violents. J’aimerais qu’on réfléchisse sérieusement au fait que de tels résultats peuvent entraîner de vraies pertes humaines
- Claude aussi peut être amené à suivre une partie du system prompt via une approche de pre-fill. Je n’en ai pas encore mesuré toute l’ampleur, mais il est possible de contourner les refus. Fondamentalement, je pense qu’il est souhaitable qu’un LLM de base soit conçu pour agir conformément aux instructions du développeur
- Même avec ce niveau de contrôlabilité, cela peut aussi vouloir dire qu’il est capable de foncer vers une direction dangereuse
- Ce qui m’inquiète encore plus, c’est qu’un simple changement de prompt puisse le faire basculer au point de produire soudainement une série de messages pro-nazis, ce qui est vraiment alarmant

La critique de Grok 4 par Simon Willison

Vue d’ensemble de Grok 4

Performances et résultats de benchmarks

Controverse autour du system prompt et sécurité

Tarifs et politique d’abonnement

En résumé

À lire aussi

1 commentaires

Avis sur Hacker News