5 points par GN⁺ 2026-05-02 | 1 commentaires | Partager sur WhatsApp
  • Fenêtre de contexte de 1 million de tokens et fonctionnalités d’API orientées développeurs, dont raisonnement, appel de fonctions et sorties structurées
  • Contrairement à Grok 4.20, le raisonnement est désormais activé en permanence, avec un processus de réflexion exécuté automatiquement avant la réponse pour chaque requête
  • Baisse d’environ 40 % du prix des tokens d’entrée et d’environ 60 % pour les tokens de sortie, soit une réduction de coûts majeure par rapport au modèle précédent
    • Tarification : entrée 1,25 $/1M de tokens, entrée en cache 0,20 $/1M, sortie 2,50 $/1M
    • Se positionne parmi les modèles du même niveau d’intelligence les moins chers
  • Forte amélioration des performances sur les tâches agentiques — score ELO de 1500 sur le benchmark GDPval-AA, soit +321 points par rapport à Grok 4.20, dépassant Gemini 3.1 Pro Preview, Muse Spark et GPT-5.4 mini
  • Première prise en charge de la vidéo native en entrée pour un modèle de l’API xAI, avec traitement direct des images vidéo via un encodeur de vision
  • N°1 en raisonnement juridique (précision de 79,3 % sur CaseLaw v2) et n°1 en finance d’entreprise (CorpFin), avec un bond de 25 points en raisonnement juridique par rapport à Grok 4.20
  • Possibilité de générer directement des diapositives de présentation dans l’interface de chat, avec création en temps réel et téléchargement de fichiers PDF, Excel et PowerPoint pendant la conversation
  • Environnement intégré d’exécution de code permettant de gérer dans le modèle lui-même l’écriture, l’exécution et la génération de fichiers
  • Lancement officiel conjoint de l’API Speech-to-Text (25 langues, prise en charge de la séparation des locuteurs) et de l’API Text-to-Speech
  • Score de 53 dans l’Artificial Analysis Intelligence Index, au-dessus de Muse Spark et Claude Sonnet 4.6, avec un positionnement sur la frontière de Pareto intelligence/coût
  • Rate limit de 1 800 requêtes par minute / 10 millions de tokens, avec facturation séparée au-delà de 200K
  • Le nom du modèle est grok-4.3 et les régions prises en charge sont us-east-1 et eu-west-1

1 commentaires

 
GN⁺ 2026-05-02
Avis Hacker News
  • En tant que personne dont l’anglais est la deuxième langue, je trouve que Grok est particulièrement bon pour saisir le ton et le niveau de formalité d’un texte et les reproduire tels quels
    J’ai l’impression qu’il comprend mieux les nuances humaines subtiles du langage que les autres grands fournisseurs. ChatGPT a tendance à devenir trop raide et formel, ou au contraire à partir dans un registre familier bizarre façon « aye guvnor ». Claude est parfois meilleur, mais pas toujours
    Globalement, Grok semble plus « humain » d’une manière difficile à définir. Par exemple, si on lui demande « est-ce que ce message transmet à peu près correctement l’idée compte tenu de cette longueur ? », il répond comme une personne, par oui/non ou avec une suggestion de reformulation qui garde le ton et la longueur, alors que ChatGPT écrit encore un long essai peu clair
    Dernièrement, j’ai aussi trouvé la dictée vocale de Grok plutôt bonne. Avec la fonction micro pour poser une question, ChatGPT atteint 90 à 95 % avec mon accent, la saisie vocale Android Gboard autour de 75 %, et Grok, étonnamment, environ 98 %

    • J’ai évalué rapidement Grok 4.3, Opus 4.7 et GPT 4.1, et en pratique ils m’ont paru assez proches : https://ofw640g9re.evvl.io/
      Tous les trois s’en sortaient bien sur un ton plus formel, mais sur le ton décontracté, le seul à ne pas être gênant était GPT-4.1
      À noter aussi que Grok était le plus rapide et le moins cher, tandis que Claude était le plus lent et le plus coûteux
    • Même quand je parle avec Grok dans ma langue maternelle, j’ai l’impression que le ton est plus naturel qu’avec les autres modèles
      J’imagine que c’est un avantage lié à l’entraînement massif sur les données de Twitter. En revanche, comme il y a de plus en plus de contenu généré par IA sur Twitter, je me demande si continuer à s’y entraîner ne finira pas par dégrader ce naturel
    • Je n’utilise Grok qu’à travers la personnalité « Gork » de Tesla, et les réponses sont assez réalistes, souvent vraiment drôles, et parfois même utiles
    • Si « l’anglais est votre deuxième langue », je me demande comment vous savez qu’il est réellement meilleur
      Ce n’est pas pour vous rabaisser, mais ça ressemble davantage à une impression
    • Un ami l’utilise pour préparer du D&D, et il m’a dit que pour cet usage c’était particulièrement bon grâce à sa capacité à coller à l’ambiance et au style voulus
      Pour le reste, il préfère ChatGPT
  • Grok est mon modèle préféré pour discuter, et c’est aussi son mode vocal que je préfère
    Ça semble être le seul mode vocal qui ne redirige pas vers un modèle extrêmement bon marché, du genre Haiku, et c’était celui avec la meilleure qualité parmi les modèles de pointe
    Avec SuperGrok, on peut créer un « council » d’agents avec chacun leur propre prompt système, puis poser une question : ils répondent tous en parallèle avant d’aboutir à une conclusion
    Cela dit, j’aimerais qu’ils investissent un peu dans l’app. En réalité, l’app est la seule raison qui m’empêche de m’abonner à SuperGrok
    Il n’y a pas de prise en charge de MCP / des apps connectées, c’est seulement annoncé et toujours inutilisable. Impossible de connecter Grok à quoi que ce soit, donc difficile de l’utiliser pour un travail sérieux
    Les projets ne sont toujours pas pris en charge dans l’app, donc dès qu’on déplace quelque chose dans un projet, ça disparaît de toutes les apps natives
    Il n’y a aucun moyen d’ajouter directement au projet des artefacts comme des documents Markdown générés, donc il faut les exporter en PDF/Markdown puis les réimporter. Il n’y a même pas d’export d’artefacts. Ça rend l’évolution dynamique d’un projet avec de nouvelles informations difficile et gênante pour un vrai travail de projet
    Il n’y a pas non plus de mémoire ni de moyen de retrouver d’autres discussions, donc chaque conversation repart entièrement de zéro
    Et dans les projets, il n’y a absolument pas de mode vocal
    Si quelqu’un de chez xAI lit ceci, ce serait bien d’ajouter au moins une partie de tout ça

    • Le fait qu’il n’y ait pas de mémoire commence de plus en plus à me plaire
      Claude se souvient que j’ai un grill, donc même dans des conversations totalement hors sujet ou qui parlent juste de nourriture, il intervient pour dire que ça pourrait bien aller avec un BBQ
    • Le mode vocal de l’app Gemini utilise un modèle relativement récent, pas une petite version dégradée, donc il est plutôt compétent
      La personnalité est correcte, et c’est bien plus naturel que le chat web de Gemini. Mon seul reproche, c’est qu’il essaie sans cesse de proposer des « prochaines étapes », mais j’ai l’impression que tous ces modèles font ça
      Je ne sais pas si ces « prochaines étapes » servent à faire monter les coûts, ou s’ils n’ont simplement pas encore appris le schéma conversationnel naturel qui permet de distinguer les questions où l’on veut juste une réponse courte des longues conversations exploratoires. Mais quand on leur demande de ne pas faire ça, ils devraient quand même obéir
    • Je pense que Grok aurait beaucoup à gagner à permettre d’utiliser le forfait à 300 dollars par mois « SuperGrok Heavy » comme quota inclus dans des coding harnesses
      Pour l’instant, le forfait Heavy donne un peu de crédits API, ce qui permet d’utiliser Grok pour coder dans une certaine mesure, mais je ne trouve pas que ça vaille 300 dollars
      Je ne veux pas dire qu’ils devraient créer leur propre harness grok-code, juste le rendre utilisable dans les outils existants. Le rachat de Cursor finira probablement par aller dans ce sens
    • À mon avis, tous les problèmes mentionnés s’expliquent par la transaction Cursor
    • Je ne sais pas très bien si, en s’abonnant à SuperGrok, on peut l’utiliser dans Pi agent ou Opencode
      Il n’est pas clair si SuperGrok fournit une clé API
  • Dans nos tests, Grok 4.3 est un modèle assez singulier
    C’est l’un des plus rapides, et il produit des réponses beaucoup plus courtes et plus denses en tokens que d’autres modèles aux performances comparables
    En revanche, pour le raisonnement en programmation de façon générale, il n’est pas compétitif avec les grosses sorties d’avril, et ni Grok 4.20 ni Grok 4.3 n’ont vraiment repoussé la frontière de l’intelligence depuis Grok 4
    Grok 4.3 est meilleur sur les tâches agentiques, et il est raisonnable de le situer à peu près au niveau de GPT 5.1 / Gemini 3 Pro Preview, mais en nettement plus rapide et moins cher. Donc, à sa manière, c’est clairement une bonne sortie
    Parmi les modèles à poids ouverts publiés récemment, beaucoup sont plus intelligents mais plus lents
    Le benchmark complet est ici : https://gertlabs.com/rankings

    • Je me demande quels compromis ont pu être faits pour donner l’impression que ça fonctionne bien sur des informations postérieures au knowledge cutoff
      Ça semble être l’usage principal de Grok, donc je me demande aussi s’il existe des benchmarks sur ce point
  • Dernièrement, Grok a fini par devenir mon moteur de recherche
    On dirait que c’est la seule IA qui a accès aux posts X, et de façon générale il donne plus l’impression de « chercher » que les autres grands modèles de langage

    • Pour trouver des infos sur des événements d’actualité brûlante, j’utilise surtout Grok et Gemini
      Lors des événements liés à l’Iran, je voulais comprendre la situation au fur et à mesure qu’elle était rapportée, et les deux s’en sont plutôt bien sortis
    • Je me demande pourquoi on voudrait chercher sur Twitter au départ
  • Vu la situation actuelle, Claude semble destiné aux entreprises et aux gouvernements, Codex aux développeurs, et Grok, je ne sais pas à quoi ça sert
    Autour de moi, je n’entends parler de Grok qu’en lien avec le roleplay et le racisme

    • Fait intéressant, je connais un cas où Grok est utilisé par une association qui lutte contre la traite des êtres humains
      Tous les autres modèles ont refusé une tâche ponctuelle de classification, alors que Grok l’a volontiers effectuée
      Je pense qu’il existe étonnamment beaucoup de cas d’usage réels dans des zones grises pour des modèles semi-frontier un peu moins bardés de garde-fous. Et grok-fast est bon marché
    • D’après ce que j’ai pu voir, Grok n’est pas beaucoup utilisé pour le roleplay
      Il est considéré comme incohérent et brouillon
      Les gens utilisent surtout GLM et DeepSeek via API, et en local des modèles Gemma4 et Mistral fine-tunés
      Le marché du roleplay est relativement ancien et mûr, donc les utilisateurs sont sensibles au coût et veulent que le modèle s’adapte à leur workflow et à leurs préférences. C’est pourquoi ils aiment bien quelque chose comme Opus parce qu’il est intelligent, mais le trouvent trop cher et trop têtu
      Ça pourrait être un point de donnée intéressant sur la façon dont d’autres marchés évolueront à l’avenir
    • Si vous devez demander de quoi parlent les gens sur Twitter, Grok est évidemment très bon pour ça
      Je l’utilise tout le temps pour des questions du genre « quel est le tiling window manager que les gens branchés de Twitter encensent en ce moment ? »
      Et Grok répond aussi en général aux questions vaguement douteuses. Du style : « trouve-moi un site gris pour des licences Windows »
    • Je comprends bien qu’il est très important de signaler, à l’écrit comme à l’oral, qu’on est en phase avec les valeurs de l’époque, mais je ne pense pas que le but des laboratoires d’IA doive être de faire en sorte qu’un modèle de langage soit structurellement incapable de froisser certaines races/ethnies/castes
      Un modèle de langage n’est qu’un système, et je vois mal pourquoi il serait responsable de l’usage que fait l’utilisateur de ses sorties. C’est comme quand on ne considère pas un stylo comme un outil « raciste » et bon à jeter sous prétexte que quelqu’un peut écrire des choses odieuses sur une cloison de toilettes
      Vous vivez probablement dans un endroit où le harcèlement est un délit, avec possiblement des règles sur l’expression. N’est-ce pas suffisant ? Je me demande s’il faut vraiment aligner tous les efforts de tout le monde sur Terre avec des modes éthiques qui changent tous les quelques années
    • Il y a 2 ou 3 mois, il y avait en première page de HN une table ronde IA, et quelqu’un a fait une analyse des valeurs aberrantes qu’il a publiée sur GitHub
      Il suffit de deviner quel grand modèle de langage était le plus gros outlier, et sur quel type de questions il divergeait de tous les autres modèles
  • Je suis sincèrement curieux de savoir si les gens utilisent vraiment Grok pour autre chose que comprendre des mèmes Twitter ou des tweets

    • Oui, pour certaines tâches c’est vraiment utile
      Il se comporte moins comme un chaperon que les autres modèles. Je cherche souvent beaucoup de contenus épuisés depuis des décennies et couverts par des droits orphelins, et les grands modèles me font la leçon sur le copyright avant de refuser. Grok, lui, le fait [0]
      [0] Il faut parfois le jailbreaker légèrement ou relancer le prompt. À cause de sa nature non déterministe, il refuse parfois
    • Bien sûr. Les utilisateurs s’en servent pour toutes sortes de choses : https://arstechnica.com/tech-policy/2026/03/elon-musks-xai-s...
    • Grok a le mode vocal le plus utile
      Le mode vocal de ChatGPT est extrêmement stupide, alors que Grok semble utiliser le même modèle que le chat principal. Donc si je veux utiliser la voix, je prends Grok
      Je l’utilise aussi sur des sujets simples. Il donne des réponses précises, courtes et sans remplissage, ce qui est très rafraîchissant
    • Je me demande quelle part de tout ça vient des données d’entraînement Twitter
      C’est utile pour les mèmes et les tendances, mais très mauvais pour le reste
    • J’utilise surtout Grok pour la recherche, le DIY, les finances personnelles et comme IA du quotidien
      S’il devient aussi bon en code que Kimi K2.6, j’utiliserai probablement uniquement Grok. C’est de loin la meilleure IA conversationnelle que j’aie utilisée jusqu’ici
      Il m’a aidé à réparer un réfrigérateur en panne et un four électrique, et rien que cette année il m’a fait économiser au moins 4 000 dollars
      J’ai aussi fait ma déclaration d’impôts avec Grok et économisé 600 dollars. H&R Block, c’est fini
      Apparemment, il est devenu aussi intelligent que Kimi K2.6. Il est temps de le tester
  • Je suis surpris que personne ne parle de son prix par rapport à Opus 4.x et GPT-5.5
    C’est 1,25 dollar par million de tokens en entrée, 2,50 dollars par million en sortie
    Je ne sais pas si c’est parce que le modèle est plus petit et moins puissant, ou si quelque chose m’échappe

    • Le prix par token est plus bas, mais il semble raisonner beaucoup plus, donc au final le coût rejoint celui de 4.20 avec de meilleures performances
      Globalement, c’est leur meilleur modèle à ce jour, et j’apprécie qu’ils soient l’un des rares acteurs à faire baisser les prix au token
      [0]: https://aibenchy.com/compare/x-ai-grok-4-20-medium/x-ai-grok...
    • Ils ont baissé le coût de sortie, mais le coût d’entrée reste relativement élevé
      C’est une tendance récente, qu’on voit aussi sur DeepSeek 4 Pro
    • Parmi mes collègues, il existe un fort rejet moral de tout ce qui touche à Elon Musk et aux données d’entraînement
      On le voit aussi dans les commentaires ici. Du genre : « Claude c’est pour les entreprises et les gouvernements, Codex pour les développeurs, et Grok c’est pour quoi, le roleplay et le racisme ? Je n’ai entendu parler de Grok autour de moi qu’à propos de ces deux choses »
    • Oui, c’est parce que c’est un modèle bien moins puissant
    • Grok est associé à Elon Musk
      Si on prend les marges de $TSLA comme indicateur indirect, elles n’ont plus l’air aussi élevées qu’avant. Il y a sans doute d’autres facteurs, mais ça pourrait expliquer en partie les prix bas de Grok
  • Grok 4.3 a été terminé avant que son CEO n’ait appris ce qu’étaient les habituelles publications sur la sécurité
    À la question de savoir s’il connaissait la « safety card » d’OpenAI, Musk a répondu en riant : « Safety card ? Pourquoi ça devrait être une carte ? »
    https://www.axios.com/2026/04/30/musk-openai-safety-grok
    Indépendamment de la taille du cluster ou du recours temporaire à des générateurs, cela semble peu pertinent
    Dans un témoignage ultérieur, Musk a été interrogé sur sa déclaration de l’été dernier selon laquelle xAI allait bientôt dépasser de très loin toutes les entreprises sauf Google ; il a alors cité Anthropic, OpenAI, Google, puis les modèles open source chinois comme leaders mondiaux de l’IA, et expliqué que xAI était une entreprise bien plus petite avec seulement quelques centaines d’employés
    https://techcrunch.com/2026/04/30/elon-musk-testifies-that-x...
    Je ne suis lié à aucune entreprise d’IA, mais j’ai lu ça hier et ça m’a surpris. Le fait qu’Elon puisse ne pas savoir ce qu’est une model card est inquiétant, et ça montre aussi que l’argent n’achète pas toujours le succès

    • Honnêtement, je me demande pourquoi on appelle ça une model « card », une safety « card »
      En cherchant, j’ai vu que ça venait de la définition assez floue par HuggingFace du README d’un dépôt de modèles. C’est un terme tellement spécifique que seuls quelques initiés doivent le connaître, certainement pas les utilisateurs ou les dirigeants
      Je n’aime ni Musk ni Grok, mais ne pas savoir ce qu’est une safety card ne me paraît pas être un signal particulier
    • Elon a dit publiquement à plusieurs reprises qu’il accordait énormément d’importance à la sécurité
      Il a affirmé que seul un modèle aligné au mieux avec la vérité du monde réel pouvait être sûr, et xAI est resté cohérent avec cette idée en ayant, dans les benchmarks, l’un des plus faibles taux d’hallucination, voire le plus faible
      En relisant sa déclaration, il voulait dire : « comment peut-on quantifier la sécurité avec une carte ? »
  • Grok est excellent pour faire vivre des conversations hypothétiques de manière amusante
    Pour obtenir les résultats les plus drôles, le mieux est de préciser qu’« on a déjà eu l’autorisation »
    Il est aussi très bon pour écrire des paroles de rap. Si on le « prime » comme un dictionnaire de gros mots et d’expressions qu’il peut reprendre depuis d’autres chansons, puis qu’on lui donne un sujet comme « développement web », le résultat est hilarant

  • Je continue à penser qu’ils auraient dû lui donner un autre nom, mais ça ressemble à une bonne sortie, donc bravo à l’équipe
    Par rapport aux modèles concurrents comparables, le prix est aussi assez surprenant. On dirait qu’ils ont soit énormément de capacité, soit envie d’attirer beaucoup plus d’utilisateurs

    • Je me demande si c’est toute la culture de la référence à la science-fiction qui vous agace, ou si c’est Heinlein en particulier