7 points par GN⁺ 2025-08-30 | 1 commentaires | Partager sur WhatsApp
  • grok-code-fast-1, lancé par xAI, est un modèle de codage IA ultra-rapide pour les développeurs, doté d’une forte réactivité et de fonctionnalités pensées pour les IDE
  • Ce modèle a été préentraîné principalement sur des jeux de données de programmation et conçu, à partir d’évaluations d’utilisateurs réels, pour exceller dans l’usage d’outils comme grep, le terminal et l’édition de fichiers
  • Côté performances, il atteint une vitesse de génération de 190 tokens par seconde et un score de 70,8 % sur SWE-Bench-Verified, avec de solides capacités en TypeScript, Python, Java, Rust, C++, Go et d’autres langages
  • Son tarif est fixé à 0,20 $ par million de tokens en entrée, 1,50 $ en sortie et 0,02 $ pour l’entrée mise en cache ; sur certaines plateformes partenaires (GitHub Copilot, Cursor, etc.), il est proposé gratuitement pour une durée limitée
  • Une variante prenant bientôt en charge les entrées multimodales, les appels d’outils parallèles et un contexte étendu devrait également être annoncée

Vue d’ensemble

  • grok-code-fast-1 de xAI est un modèle de codage IA ultra-rapide développé pour résoudre les problèmes de ralentissement dans les environnements de développement réels, où le raisonnement itératif et l’usage d’outils sont fréquents
  • Sur la base des retours d’ingénieurs en activité, l’architecture du modèle a été reconstruite depuis zéro pour être rapide, agile et adaptée aux tâches concrètes du quotidien
  • Les équipes d’ingénierie du raisonnement et du calcul ont introduit de nombreuses méthodes innovantes dans une technologie de service extrêmement rapide
    • L’utilisateur peut avoir l’impression que plusieurs appels d’outils ont déjà eu lieu avant même d’avoir eu le temps de suivre le fil de la réflexion
  • L’optimisation du prompt caching a permis d’atteindre plus de 90 % de taux de hit cache dans les environnements partenaires

Conception et jeux de données

  • L’environnement d’apprentissage a été construit sur la base d’un vaste corpus de préentraînement centré sur la programmation
  • Un post-entraînement de haute qualité a été mené à partir de données réelles de pull requests et d’écriture de code
  • En collaborant étroitement avec différents partenaires de lancement, xAI améliore en continu le comportement du modèle dans les plateformes agentiques

Principales caractéristiques et environnements pris en charge

  • grok-code-fast-1 maîtrise de façon fiable des outils de développement courants comme grep, le terminal et l’édition de fichiers
  • Les utilisateurs peuvent l’exploiter directement dans les principaux environnements de développement, notamment les IDE

Performances en programmation

  • Il prend en charge l’ensemble de la stack de développement logiciel
  • Il se montre particulièrement efficace en TypeScript, Python, Java, Rust, C++, Go et autres
  • Même avec une supervision minimale, il traite rapidement et avec précision diverses tâches de programmation telles que la création de projets from scratch, les questions-réponses sur une base de code et la correction précise de bugs
  • Grok Code Fast 1 offre la réactivité la plus rapide parmi les modèles actuels
  • Utilisé en le découpant en petites unités de travail, il est très avantageux pour construire des workflows itératifs et rapides
  • Exemple concret : un prototype de Battle Simulator a été achevé en une seule journée dans l’environnement Cursor
  • Il est plus efficace de planifier de grandes fonctionnalités, puis de les décomposer étape par étape pour les exécuter de manière itérative

Tarification

  • 0,20 $ par million de tokens en entrée
  • 1,50 $ par million de tokens en sortie
  • 0,02 $ par million de tokens d’entrée mis en cache
  • Grâce à ses performances élevées et à son tarif économique, il permet de traiter rapidement et efficacement les tâches de programmation du quotidien

Performances du modèle et évaluation

  • Avec une vitesse de traitement de 190 tokens par seconde (TPS), il se situe au plus haut niveau du secteur
  • Comparé à d’autres modèles (Gemini 2.5 Pro, GPT-5, Claude Sonnet 4, Qwen3-Coder, Grok 4), il montre une forte compétitivité à la fois sur le prix et sur la vitesse de traitement
  • Des benchmarks publics variés et des tests réels menés par des développeurs ont été utilisés en parallèle
    • 70,8 % obtenus sur un sous-ensemble de SWE-Bench-Verified
  • En combinant des évaluations humaines régulières par des ingénieurs en activité et des tests automatisés, xAI cherche à maximiser l’utilité concrète et la satisfaction

Feuille de route et indications d’usage

  • Le modèle est proposé via l’API officielle et les principaux partenaires, avec un essai gratuit également disponible pour une durée limitée
    • GitHub Copilot, Cursor, Cline, Roo Code, Kilo Code, opencode, Windsurf, etc.
  • Des mises à jour continues et un cycle d’amélioration rapide sont promis
  • Une nouvelle variante, incluant des fonctionnalités comme les entrées multimodales, les appels d’outils parallèles et la prise en charge d’un contexte étendu, est également en cours d’entraînement
  • Un guide de prompt engineering est aussi proposé séparément
  • Il est possible de partager ses retours via la model card et des canaux de feedback (Discord, etc.)

1 commentaires

 
GN⁺ 2025-08-30
Avis Hacker News
  • J’ai testé hier avec Cline : c’est rapide, ça s’intègre bien à un flow agentic, et la qualité du code est franchement correcte. Je ne comprends pas pourquoi ce fil est aussi négatif (je me suis même fait flag pendant que je tapais). Je trouve ce modèle plutôt bon, au niveau de gpt5-mini ou au-dessus. J’ai utilisé gpt5-mini comme modèle principal pendant quelques jours : ça tenait dans le budget et faisait bien le travail.

    • Ce que j’ai remarqué :

      • c’est rapide (testé sur le fuseau horaire UE)
      • il gère l’approche agentic de façon intéressante : au lieu de modifier tout un fichier d’un coup, il corrige petit à petit en plusieurs passes
      • j’ai utilisé environ 110k tokens sur une fonctionnalité liée au parsing HTML (bs4) et il a terminé la tâche sans problème ; aucun souci en contexte long
      • s’il échoue au premier essai, il crée un nouveau fichier à part pour mock/test, puis une fois que ça marche il modifie le fichier du module principal ; GPT5-mini, lui, se perdait parfois avec les modifications de fichiers en cours de tâche et échouait
    • Globalement, c’est correct ; vu le prix, ça peut servir de daily driver. On peut aussi imaginer Opus + gpt5 high comme planner, et ce modèle comme implementer. Comme il est rapide, un setup parallèle façon pass@x pourrait aussi être intéressant.

    • C’est bien d’avoir des options variées à tous les niveaux. Il faut que plusieurs acteurs se concurrencent pour se maintenir sous pression et faire baisser les prix. gpt5-mini est à 2$/MTok, ce modèle autour de 1,5$/MTok, donc ça donne presque l’impression d’être « gratuit ». Je ne comprends pas cette ambiance négative.

    • Qwen3-Coder-480B (hébergé chez Cerebras) coûte 2$/Mtok via OpenRouter, entrée/sortie comprises

      • Sur OpenRouter, Cerebras affirme fournir plus de 2000 tokens par seconde, soit 10 fois plus rapide
      • D’après des benchmarks indépendants, Qwen3-Coder-480B semble meilleur
    • Si on utilise à peu près la moitié de la context length, faut-il considérer que les performances sont bonnes ? Avec qwen3-coder, j’ai l’impression qu’il commence à se perdre vers 65k/256k, et il est 50 % plus cher que grok

    • J’ai bien lu la review ; je me demande comment ça se compare à Claude Code

    • J’ai à peu près le même avis. J’utilise ce modèle en ce moment, et il est plutôt bon, tout en étant très rapide.

      • Les commentaires HN sont négatifs envers Elon Musk et montrent des réactions biaisées sur les LLM, donc j’ai l’impression qu’il n’est pas évalué correctement
  • Ce qui est intéressant, c’est que le benchmark mis en avant par ce modèle est la vitesse de sortie des tokens ; il porte même le nom de « fast »

    • En général, j’imagine que les ingénieurs logiciels accordent plus d’importance à la qualité des tokens qu’à la vitesse

    • Tout dépend de la vitesse réelle

      • Si, de toute façon, les résultats des LLM sont souvent faux, il peut être plus intéressant d’enchaîner rapidement plusieurs prompts et d’itérer
      • À l’extrême, si un projet entier pouvait être traité en quelques millisecondes, ce serait bien plus précieux même à taux de réussite égal
      • Ce niveau de vitesse pourrait changer non seulement l’expérience utilisateur, mais aussi la manière même d’utiliser l’outil
      • On pourrait aussi obtenir instantanément 3 propositions différentes
      • Personnellement, je n’ai pas envie d’être lié à X, donc je n’ai pas l’intention d’utiliser Grok ; c’est un choix personnel
    • Ce n’est pas la pire métrique inventée par xAI

    • J’ai testé l’API gratuite de Cerebras (Qwen Coder 480b, gpt-oss-120b disponibles, pas affilié), et c’est vraiment rapide, autour de 3000 tokens par seconde

      • Du coup, je regarde toujours la vitesse des modèles
      • Cela dit, le cloud Cerebras a une limite de 70 millions de tokens par jour, et certains retours disent qu’on l’atteint très vite, donc c’est assez contraignant pour du développement quotidien
    • Ça dépend de l’usage

      • Pour l’autocomplétion de fonctions simples (traitement de chaînes, définition de fonctions, etc.), la vitesse devient plus importante
      • Pour du code où l’on hésite encore sur l’approche, la qualité compte davantage, mais si je sais précisément ce que je fais, un modèle moins intelligent mais plus rapide aide davantage le flow de travail
      • Les modèles lents obligent à relire le code comme une review de PR, donc le workflow change beaucoup
    • La vitesse est très importante

      • Bien sûr, si la qualité s’effondre, ça n’a aucun intérêt, mais si un modèle est aussi bon que Claude Sonnet 4 tout en étant plus rapide, ça pourrait changer la donne pour le codage agentic
      • Aujourd’hui, il faut envoyer un prompt puis attendre 30 secondes à plusieurs minutes, donc expérimenter pour de vrai est difficile
      • Si ça se terminait en quelques secondes, on pourrait travailler de façon bien plus expérimentale et itérative
      • C’est particulièrement utile pour du code frontend, quand il faut modifier l’UI encore et encore
  • Je me demande ce que les gens utilisent sur HN comme assistant de code IA, par exemple des plugins VSCode, et quels conseils pratiques ils auraient en usage réel

  • Je me demande si la version « coding » sortie quand Grok-4 avait la réputation d’être mauvais en code correspond à ce modèle

    • Quand un modèle est faible sur les benchmarks, on dirait qu’il met en avant un indicateur plus facile à gonfler : la vitesse

    • En cherchant, je n’ai trouvé sur Reddit que des posts d’un compte manifestement spam qui encensaient ce modèle

    • Lien vers le compte

    • J’ai l’impression que c’est basé sur Grok 3 ; Grok 3 était extrêmement rapide et spécialisé en programmation

  • Pour l’ensemble de « SWE-Bench-Verified », grok-code-fast-1 serait à 70,8 % selon leur benchmark interne, mais j’aimerais bien voir de plus près cet outil de benchmark

    • Les rapports tiers le placent plutôt autour de 57,6 %

    • Lien associé

      • C’est peut-être du nitpick, mais j’ai été surpris de voir que l’affichage des dates était en vrac dès l’ouverture du site (ordre jour/mois/année mélangé)

      • Ce n’est pas seulement confus, ça casse aussi le tri

      • J’ai trié la colonne des dates, et le résultat n’avait aucun sens (trié à partir d’un élément intermédiaire)

      • Quand on ne fait pas attention à ce genre de bases, ça donne envie de soupçonner que le code lui-même est bancal

      • [Certains pays utilisent encore cette notation, mais la majorité est passée à un standard]

      • Cela dit, comparé aux autres modèles, les résultats restent bons

  • J’ai déjà obtenu des résultats plutôt bons avec la version de base de Grok 4

    • Le problème, c’est qu’il donne peu d’explications et a tendance à simplement remplacer du code, mais le résultat final n’était pas mauvais
    • Personnellement, plus qu’une version plus rapide, j’aimerais davantage de retours et d’explications sur les changements proposés
    • Ces derniers temps, j’ai trouvé GPT-5 plus utile que Sonnet 4
      • Il donne d’excellentes réponses quand on lui demande différents choix d’architecture, et j’aime le fait qu’il guide la résolution du problème étape par étape

      • Je préfère ce processus qui converge progressivement vers ce que je veux plutôt qu’une réécriture complète en « one shot »

      • Je pense qu’Opus 4.1 ou la série Sonnet ne sont pas très bien évalués par les tests de résolution one shot ; le vrai critère, c’est leur capacité à jouer le rôle d’assistant

      • GPT-5 aussi peut s’entêter dans une direction que je ne veux pas, et même en discutant il continue parfois à répéter le même comportement

        • De ce point de vue, certains préfèrent la réaction façon Claude, du type « oui, vous avez raison »
        • Selon le niveau d’expérience en développement, on n’attend pas la même chose d’un modèle, mais pour moi il est important de garder la décision finale
      • Même si Sonnet 4 est peut-être inférieur à GPT-5 pour l’architecture ou l’analyse approfondie, quand le plan détaillé existe déjà et qu’il faut simplement produire beaucoup de code, Sonnet 4 est meilleur

  • Après avoir testé Grok pendant quelques jours, j’ai plutôt eu l’impression d’une régression

    • Ça faisait longtemps que ça ne m’était pas arrivé, mais il m’a supprimé au hasard une partie de mon code

    • Les meilleurs modèles de code sont devenus assez fiables ces derniers temps, mais Grok ne semble pas encore à ce niveau

    • Même si c’est rapide et gratuit, si je ne peux pas lui confier mon code en confiance, je ne peux pas l’utiliser comme outil

      • J’ai essayé Grok Code Fast 1 gratuitement via Kilo Code, et le résultat était vraiment mauvais

        • Moins fiable que GPT 5 Mini et, ironiquement, plus lent aussi
      • Full Self Coding ?

      • Je me demande quelle plateforme / quel langage tu utilises

        • Sans ce genre de précision, les reviews semblent aller dans tous les sens
        • Il y a de gros écarts selon les langages ; en développement web TS, les résultats sont toujours meilleurs
      • Est-ce vraiment un problème s’il supprime une partie du code ? Il y a bien du contrôle de version, non ?

  • Il fait des choses absurdes à une vitesse impressionnante, et ce n’est pas une qualité

    • Ça peut convenir à des tâches simples et concrètes comme des endpoints CRUD, des fichiers i8n, etc., mais pour le reste, j’ai des doutes

      • C’est exactement pour ça que j’utilise ce modèle

        • Il est parfait pour gérer les « tâches simples et pénibles »
        • On n’a pas toujours besoin d’un modèle intelligent ; on peut s’en servir pour traiter vite beaucoup de travail que personne n’a envie de faire
        • En revanche, si on ne lui donne pas des consignes plus précises, le résultat part vite dans tous les sens
        • Mais si on fournit des exemples clairs, il exécute bien ce qu’on lui demande
      • Je lui ai demandé d’améliorer un Justfile, et il a tout complètement embrouillé, a tout cassé et s’est retrouvé dans une boucle infinie

        • Je l’utilisais dans Kilo Code ; d’après mon expérience, ça peut vraiment varier selon les personnes
  • Même pendant la période stealth du modèle « sonic », il allait vite, mais la qualité n’était pas assez précise

    • Il créait bien du code de test et l’exécutait en boucle, mais au lieu de vérifier le comportement attendu, il se contentait de vérifier les appels de mock

    • Il a des limites dès qu’il faut tenir compte des vrais patterns d’usage

      • Dans ce genre de cas, il semble avoir un vrai point fort pour générer du boilerplate
  • Moi, je l’ai trouvé impressionnant

    • Sur une question de refactorisation, il a enchaîné plusieurs appels d’outils, lu le code rapidement, l’a analysé de façon logique et m’a dit avoir trouvé 2 bugs
    • Bien sûr, aucun des deux n’était réellement un bug
    • Mais ça « faisait bonne impression »