xAI dévoile Grok 4.3
(docs.x.ai)- Fenêtre de contexte de 1 million de tokens et fonctionnalités d’API orientées développeurs, dont raisonnement, appel de fonctions et sorties structurées
- Contrairement à Grok 4.20, le raisonnement est désormais activé en permanence, avec un processus de réflexion exécuté automatiquement avant la réponse pour chaque requête
- Baisse d’environ 40 % du prix des tokens d’entrée et d’environ 60 % pour les tokens de sortie, soit une réduction de coûts majeure par rapport au modèle précédent
- Tarification : entrée 1,25 $/1M de tokens, entrée en cache 0,20 $/1M, sortie 2,50 $/1M
- Se positionne parmi les modèles du même niveau d’intelligence les moins chers
- Forte amélioration des performances sur les tâches agentiques — score ELO de 1500 sur le benchmark GDPval-AA, soit +321 points par rapport à Grok 4.20, dépassant Gemini 3.1 Pro Preview, Muse Spark et GPT-5.4 mini
- Première prise en charge de la vidéo native en entrée pour un modèle de l’API xAI, avec traitement direct des images vidéo via un encodeur de vision
- N°1 en raisonnement juridique (précision de 79,3 % sur CaseLaw v2) et n°1 en finance d’entreprise (CorpFin), avec un bond de 25 points en raisonnement juridique par rapport à Grok 4.20
- Possibilité de générer directement des diapositives de présentation dans l’interface de chat, avec création en temps réel et téléchargement de fichiers PDF, Excel et PowerPoint pendant la conversation
- Environnement intégré d’exécution de code permettant de gérer dans le modèle lui-même l’écriture, l’exécution et la génération de fichiers
- Lancement officiel conjoint de l’API Speech-to-Text (25 langues, prise en charge de la séparation des locuteurs) et de l’API Text-to-Speech
- Score de 53 dans l’Artificial Analysis Intelligence Index, au-dessus de Muse Spark et Claude Sonnet 4.6, avec un positionnement sur la frontière de Pareto intelligence/coût
- Rate limit de 1 800 requêtes par minute / 10 millions de tokens, avec facturation séparée au-delà de 200K
- Le nom du modèle est grok-4.3 et les régions prises en charge sont us-east-1 et eu-west-1
1 commentaires
Avis Hacker News
En tant que personne dont l’anglais est la deuxième langue, je trouve que Grok est particulièrement bon pour saisir le ton et le niveau de formalité d’un texte et les reproduire tels quels
J’ai l’impression qu’il comprend mieux les nuances humaines subtiles du langage que les autres grands fournisseurs. ChatGPT a tendance à devenir trop raide et formel, ou au contraire à partir dans un registre familier bizarre façon « aye guvnor ». Claude est parfois meilleur, mais pas toujours
Globalement, Grok semble plus « humain » d’une manière difficile à définir. Par exemple, si on lui demande « est-ce que ce message transmet à peu près correctement l’idée compte tenu de cette longueur ? », il répond comme une personne, par oui/non ou avec une suggestion de reformulation qui garde le ton et la longueur, alors que ChatGPT écrit encore un long essai peu clair
Dernièrement, j’ai aussi trouvé la dictée vocale de Grok plutôt bonne. Avec la fonction micro pour poser une question, ChatGPT atteint 90 à 95 % avec mon accent, la saisie vocale Android Gboard autour de 75 %, et Grok, étonnamment, environ 98 %
Tous les trois s’en sortaient bien sur un ton plus formel, mais sur le ton décontracté, le seul à ne pas être gênant était GPT-4.1
À noter aussi que Grok était le plus rapide et le moins cher, tandis que Claude était le plus lent et le plus coûteux
J’imagine que c’est un avantage lié à l’entraînement massif sur les données de Twitter. En revanche, comme il y a de plus en plus de contenu généré par IA sur Twitter, je me demande si continuer à s’y entraîner ne finira pas par dégrader ce naturel
Ce n’est pas pour vous rabaisser, mais ça ressemble davantage à une impression
Pour le reste, il préfère ChatGPT
Grok est mon modèle préféré pour discuter, et c’est aussi son mode vocal que je préfère
Ça semble être le seul mode vocal qui ne redirige pas vers un modèle extrêmement bon marché, du genre Haiku, et c’était celui avec la meilleure qualité parmi les modèles de pointe
Avec SuperGrok, on peut créer un « council » d’agents avec chacun leur propre prompt système, puis poser une question : ils répondent tous en parallèle avant d’aboutir à une conclusion
Cela dit, j’aimerais qu’ils investissent un peu dans l’app. En réalité, l’app est la seule raison qui m’empêche de m’abonner à SuperGrok
Il n’y a pas de prise en charge de MCP / des apps connectées, c’est seulement annoncé et toujours inutilisable. Impossible de connecter Grok à quoi que ce soit, donc difficile de l’utiliser pour un travail sérieux
Les projets ne sont toujours pas pris en charge dans l’app, donc dès qu’on déplace quelque chose dans un projet, ça disparaît de toutes les apps natives
Il n’y a aucun moyen d’ajouter directement au projet des artefacts comme des documents Markdown générés, donc il faut les exporter en PDF/Markdown puis les réimporter. Il n’y a même pas d’export d’artefacts. Ça rend l’évolution dynamique d’un projet avec de nouvelles informations difficile et gênante pour un vrai travail de projet
Il n’y a pas non plus de mémoire ni de moyen de retrouver d’autres discussions, donc chaque conversation repart entièrement de zéro
Et dans les projets, il n’y a absolument pas de mode vocal
Si quelqu’un de chez xAI lit ceci, ce serait bien d’ajouter au moins une partie de tout ça
Claude se souvient que j’ai un grill, donc même dans des conversations totalement hors sujet ou qui parlent juste de nourriture, il intervient pour dire que ça pourrait bien aller avec un BBQ
La personnalité est correcte, et c’est bien plus naturel que le chat web de Gemini. Mon seul reproche, c’est qu’il essaie sans cesse de proposer des « prochaines étapes », mais j’ai l’impression que tous ces modèles font ça
Je ne sais pas si ces « prochaines étapes » servent à faire monter les coûts, ou s’ils n’ont simplement pas encore appris le schéma conversationnel naturel qui permet de distinguer les questions où l’on veut juste une réponse courte des longues conversations exploratoires. Mais quand on leur demande de ne pas faire ça, ils devraient quand même obéir
Pour l’instant, le forfait Heavy donne un peu de crédits API, ce qui permet d’utiliser Grok pour coder dans une certaine mesure, mais je ne trouve pas que ça vaille 300 dollars
Je ne veux pas dire qu’ils devraient créer leur propre harness grok-code, juste le rendre utilisable dans les outils existants. Le rachat de Cursor finira probablement par aller dans ce sens
Il n’est pas clair si SuperGrok fournit une clé API
Dans nos tests, Grok 4.3 est un modèle assez singulier
C’est l’un des plus rapides, et il produit des réponses beaucoup plus courtes et plus denses en tokens que d’autres modèles aux performances comparables
En revanche, pour le raisonnement en programmation de façon générale, il n’est pas compétitif avec les grosses sorties d’avril, et ni Grok 4.20 ni Grok 4.3 n’ont vraiment repoussé la frontière de l’intelligence depuis Grok 4
Grok 4.3 est meilleur sur les tâches agentiques, et il est raisonnable de le situer à peu près au niveau de GPT 5.1 / Gemini 3 Pro Preview, mais en nettement plus rapide et moins cher. Donc, à sa manière, c’est clairement une bonne sortie
Parmi les modèles à poids ouverts publiés récemment, beaucoup sont plus intelligents mais plus lents
Le benchmark complet est ici : https://gertlabs.com/rankings
Ça semble être l’usage principal de Grok, donc je me demande aussi s’il existe des benchmarks sur ce point
Dernièrement, Grok a fini par devenir mon moteur de recherche
On dirait que c’est la seule IA qui a accès aux posts X, et de façon générale il donne plus l’impression de « chercher » que les autres grands modèles de langage
Lors des événements liés à l’Iran, je voulais comprendre la situation au fur et à mesure qu’elle était rapportée, et les deux s’en sont plutôt bien sortis
Vu la situation actuelle, Claude semble destiné aux entreprises et aux gouvernements, Codex aux développeurs, et Grok, je ne sais pas à quoi ça sert
Autour de moi, je n’entends parler de Grok qu’en lien avec le roleplay et le racisme
Tous les autres modèles ont refusé une tâche ponctuelle de classification, alors que Grok l’a volontiers effectuée
Je pense qu’il existe étonnamment beaucoup de cas d’usage réels dans des zones grises pour des modèles semi-frontier un peu moins bardés de garde-fous. Et grok-fast est bon marché
Il est considéré comme incohérent et brouillon
Les gens utilisent surtout GLM et DeepSeek via API, et en local des modèles Gemma4 et Mistral fine-tunés
Le marché du roleplay est relativement ancien et mûr, donc les utilisateurs sont sensibles au coût et veulent que le modèle s’adapte à leur workflow et à leurs préférences. C’est pourquoi ils aiment bien quelque chose comme Opus parce qu’il est intelligent, mais le trouvent trop cher et trop têtu
Ça pourrait être un point de donnée intéressant sur la façon dont d’autres marchés évolueront à l’avenir
Je l’utilise tout le temps pour des questions du genre « quel est le tiling window manager que les gens branchés de Twitter encensent en ce moment ? »
Et Grok répond aussi en général aux questions vaguement douteuses. Du style : « trouve-moi un site gris pour des licences Windows »
Un modèle de langage n’est qu’un système, et je vois mal pourquoi il serait responsable de l’usage que fait l’utilisateur de ses sorties. C’est comme quand on ne considère pas un stylo comme un outil « raciste » et bon à jeter sous prétexte que quelqu’un peut écrire des choses odieuses sur une cloison de toilettes
Vous vivez probablement dans un endroit où le harcèlement est un délit, avec possiblement des règles sur l’expression. N’est-ce pas suffisant ? Je me demande s’il faut vraiment aligner tous les efforts de tout le monde sur Terre avec des modes éthiques qui changent tous les quelques années
Il suffit de deviner quel grand modèle de langage était le plus gros outlier, et sur quel type de questions il divergeait de tous les autres modèles
Je suis sincèrement curieux de savoir si les gens utilisent vraiment Grok pour autre chose que comprendre des mèmes Twitter ou des tweets
Il se comporte moins comme un chaperon que les autres modèles. Je cherche souvent beaucoup de contenus épuisés depuis des décennies et couverts par des droits orphelins, et les grands modèles me font la leçon sur le copyright avant de refuser. Grok, lui, le fait [0]
[0] Il faut parfois le jailbreaker légèrement ou relancer le prompt. À cause de sa nature non déterministe, il refuse parfois
Le mode vocal de ChatGPT est extrêmement stupide, alors que Grok semble utiliser le même modèle que le chat principal. Donc si je veux utiliser la voix, je prends Grok
Je l’utilise aussi sur des sujets simples. Il donne des réponses précises, courtes et sans remplissage, ce qui est très rafraîchissant
C’est utile pour les mèmes et les tendances, mais très mauvais pour le reste
S’il devient aussi bon en code que Kimi K2.6, j’utiliserai probablement uniquement Grok. C’est de loin la meilleure IA conversationnelle que j’aie utilisée jusqu’ici
Il m’a aidé à réparer un réfrigérateur en panne et un four électrique, et rien que cette année il m’a fait économiser au moins 4 000 dollars
J’ai aussi fait ma déclaration d’impôts avec Grok et économisé 600 dollars. H&R Block, c’est fini
Apparemment, il est devenu aussi intelligent que Kimi K2.6. Il est temps de le tester
Je suis surpris que personne ne parle de son prix par rapport à Opus 4.x et GPT-5.5
C’est 1,25 dollar par million de tokens en entrée, 2,50 dollars par million en sortie
Je ne sais pas si c’est parce que le modèle est plus petit et moins puissant, ou si quelque chose m’échappe
Globalement, c’est leur meilleur modèle à ce jour, et j’apprécie qu’ils soient l’un des rares acteurs à faire baisser les prix au token
[0]: https://aibenchy.com/compare/x-ai-grok-4-20-medium/x-ai-grok...
C’est une tendance récente, qu’on voit aussi sur DeepSeek 4 Pro
On le voit aussi dans les commentaires ici. Du genre : « Claude c’est pour les entreprises et les gouvernements, Codex pour les développeurs, et Grok c’est pour quoi, le roleplay et le racisme ? Je n’ai entendu parler de Grok autour de moi qu’à propos de ces deux choses »
Si on prend les marges de $TSLA comme indicateur indirect, elles n’ont plus l’air aussi élevées qu’avant. Il y a sans doute d’autres facteurs, mais ça pourrait expliquer en partie les prix bas de Grok
Grok 4.3 a été terminé avant que son CEO n’ait appris ce qu’étaient les habituelles publications sur la sécurité
À la question de savoir s’il connaissait la « safety card » d’OpenAI, Musk a répondu en riant : « Safety card ? Pourquoi ça devrait être une carte ? »
https://www.axios.com/2026/04/30/musk-openai-safety-grok
Indépendamment de la taille du cluster ou du recours temporaire à des générateurs, cela semble peu pertinent
Dans un témoignage ultérieur, Musk a été interrogé sur sa déclaration de l’été dernier selon laquelle xAI allait bientôt dépasser de très loin toutes les entreprises sauf Google ; il a alors cité Anthropic, OpenAI, Google, puis les modèles open source chinois comme leaders mondiaux de l’IA, et expliqué que xAI était une entreprise bien plus petite avec seulement quelques centaines d’employés
https://techcrunch.com/2026/04/30/elon-musk-testifies-that-x...
Je ne suis lié à aucune entreprise d’IA, mais j’ai lu ça hier et ça m’a surpris. Le fait qu’Elon puisse ne pas savoir ce qu’est une model card est inquiétant, et ça montre aussi que l’argent n’achète pas toujours le succès
En cherchant, j’ai vu que ça venait de la définition assez floue par HuggingFace du README d’un dépôt de modèles. C’est un terme tellement spécifique que seuls quelques initiés doivent le connaître, certainement pas les utilisateurs ou les dirigeants
Je n’aime ni Musk ni Grok, mais ne pas savoir ce qu’est une safety card ne me paraît pas être un signal particulier
Il a affirmé que seul un modèle aligné au mieux avec la vérité du monde réel pouvait être sûr, et xAI est resté cohérent avec cette idée en ayant, dans les benchmarks, l’un des plus faibles taux d’hallucination, voire le plus faible
En relisant sa déclaration, il voulait dire : « comment peut-on quantifier la sécurité avec une carte ? »
Grok est excellent pour faire vivre des conversations hypothétiques de manière amusante
Pour obtenir les résultats les plus drôles, le mieux est de préciser qu’« on a déjà eu l’autorisation »
Il est aussi très bon pour écrire des paroles de rap. Si on le « prime » comme un dictionnaire de gros mots et d’expressions qu’il peut reprendre depuis d’autres chansons, puis qu’on lui donne un sujet comme « développement web », le résultat est hilarant
Je continue à penser qu’ils auraient dû lui donner un autre nom, mais ça ressemble à une bonne sortie, donc bravo à l’équipe
Par rapport aux modèles concurrents comparables, le prix est aussi assez surprenant. On dirait qu’ils ont soit énormément de capacité, soit envie d’attirer beaucoup plus d’utilisateurs