13 points par xguru 2026-02-08 | 3 commentaires | Partager sur WhatsApp
  • Utilise le même modèle Opus 4.6, mais modifie la configuration de l’API pour minimiser la latence
  • Optimisé pour les tâches interactives sensibles au temps, comme les itérations rapides ou le débogage en direct
  • Dans le CLI ou l’extension VS Code, saisir /fast pour activer/désactiver l’option, ou définir "fastMode": true dans le fichier de configuration utilisateur pour une activation permanente
  • Une fois activé, bascule automatiquement vers Opus 4.6, avec affichage d’un message d’état et de l’icône
  • Le coût par token du Fast Mode augmente par rapport à Opus 4.6 standard
    • Pour un contexte inférieur à 200K : entrée à $30/MTok, sortie à $150/MTok (standard : $5 en entrée, $25 en sortie)
    • Pour un contexte supérieur à 200K : entrée à $60/MTok, sortie à $225/MTok (standard : $10 en entrée, $37.5 en sortie)
    • Réduction de 50 % appliquée jusqu’au 16/2
  • Un rate limit distinct propre au Fast Mode s’applique, avec bascule automatique vers le mode standard en cas de dépassement de quota ou d’épuisement des crédits
  • Le Fast Mode est proposé en aperçu de recherche ; les fonctionnalités et les prix peuvent évoluer

3 commentaires

 
GN⁺ 2026-02-09
Avis sur Hacker News
  • La vitesse a été multipliée par 2,5, mais le prix est 6 fois plus élevé
    C’est une prime assez coûteuse. En particulier, Gemini 3 Pro offre une vitesse en tokens par seconde 1,8 fois supérieure à Opus 4.6, pour un prix d’environ 0,45x
    En revanche, ses performances en codage sont inférieures, et Gemini CLI n’a pas encore les capacités d’agent de Claude Code

    • Si le prix par token est 6 fois plus élevé, alors par seconde il est 15 fois plus cher. Et ça, c’est pour l’API ; les abonnements sont bien moins chers
      Au final, c’est une structure intéressante qui pousse les gros clients (whales) à dépenser rapidement
    • Gemini est plutôt correct pour le travail frontend
    • On peut aussi utiliser OpenCode au lieu de Gemini CLI
  • Ce serait bien d’avoir un mode lent (slow-mode) : une fonction permettant de planifier l’exécution sur des GPU spot à moindre coût
    Je lance souvent des processus avant la pause déjeuner ou avant de quitter le travail, et ils n’ont pas besoin de démarrer immédiatement. S’ils tournent à bas prix sur des GPU inactifs, cela me suffit

    • La Batches API s’exécute à 50 % du tarif de l’API standard
    • OpenAI proposait aussi autrefois une fonction de traitement par lots similaire
    • Je pense pareil. Ce serait bien de pouvoir l’exécuter la nuit à 50 % du tarif. En revanche, ce n’est pas encore intégré à Claude Code
    • Le forfait MAX déjà remisé fonctionne en pratique comme un mode lent
    • Si le temps n’est pas critique, on peut aussi faire tourner ça sur CPU/RAM plutôt que sur GPU
  • Ce mode ne permet pas d’utiliser le quota restant de l’abonnement
    L’usage du mode rapide est toujours facturé séparément, et des frais supplémentaires s’appliquent dès le premier token, indépendamment des tokens inclus dans le forfait
    Il y a actuellement une offre de 50 $ de crédit d’usage supplémentaire gratuit

    • Au final, ça n’a presque aucune utilité. Même avec Claude Max, il faut surveiller sa consommation pendant le TDD
      Avec l’outil ccusage, on voit qu’en équivalent API on peut monter à 200 $ par jour. Avec un tarif 6 fois plus élevé, les 50 $ partent en 20 minutes
  • Je ne pense pas que cette fonctionnalité me soit particulièrement utile
    Le goulot d’étranglement, ce n’est pas le modèle, mais la vitesse à laquelle je comprends le code généré par le LLM

    • Beaucoup de gens ne regardent même pas vraiment le code en détail. Époque fascinante
    • Si la vitesse devenait suffisante, je l’utiliserais en posant des questions plutôt qu’en lisant le code, mais on n’en est pas encore là
    • Ceux qui codent « au feeling » se concentrent davantage sur le résultat que sur la compréhension
    • Si l’on met en place un bon harnais de test et des procédures de validation, on peut lui faire confiance sans regarder directement le code
  • En lisant le document « décider quand utiliser Fast mode »,

    • les agents de longue durée ou les tâches en arrière-plan relèvent du mode normal
    • les scénarios avec intervention humaine relèvent du mode rapide
      on dirait que cette distinction est intentionnelle. Reste à voir si la tarification est raisonnable
    • Les tarifs API d’Opus sont déjà chers, donc cela risque de rester un service haut de gamme
      Ceux qui privilégient le rapport qualité-prix s’en sortiront avec l’exécution en parallèle
  • Mon workflow habituel se divise entre une phase de planification et une phase d’implémentation
    Le mode rapide semble surtout utile pendant la phase de planification
    J’aimerais qu’il y ait non seulement l’option « réinitialiser le contexte puis exécuter en mode rapide »,
    mais aussi une option « réinitialiser le contexte puis exécuter à vitesse normale »
    Les agents exploratoires peuvent être lents, mais pouvoir itérer rapidement sur la planification serait bien plus efficace

  • Un compte Pro classique est en pratique un mode lent
    Je teste en ce moment Kimi2.5 CLI : c’est rapide, et il y a aussi une interface web, ce qui permet de l’utiliser à distance même dans un environnement avec VPN

  • On pourrait presque faire un CNAME de Hacker News vers un simple blog marketing de Claude

    • On raterait alors les billets d’auto-promotion de simonw
    • En réalité, il y a bien plus de billets sur OpenAI. Il vaudrait peut-être mieux renommer ça en AINews
  • Je me demande d’où vient ce gain de vitesse. Cela semble difficile à expliquer par un simple ajustement de priorité
    Cela pourrait être un nouveau matériel (Groq, Cerebras, etc.). Le fait que ce ne soit proposé que sur certains clouds rend cette hypothèse plausible
    Je me demande aussi si les fournisseurs de LLM vont finir par tarifer séparément la « vitesse vs intelligence »

    • Cela consiste à augmenter le traitement par lots et les multi-streams sur GPU pour accroître le débit en tokens
      Quand on agrandit les batches, le parallélisme augmente, mais la vitesse de chaque requête diminue.
      Le graphique SemiAnalysis InferenceMAX™ montre qu’il existe une courbe de Pareto entre le débit par GPU et la vitesse en tokens
    • Outre une mise à niveau matérielle ou une priorisation du trafic, on peut aussi agir de multiples façons : réduire la fenêtre de batch, conserver le cache KV sur le GPU, etc.
    • Cela peut aussi être simplement un modèle fondé sur la priorité qui fait passer certaines requêtes devant la file d’attente. C’est la façon la plus simple de gagner plus d’argent
    • Ils l’ont peut-être d’abord implémenté pour un usage interne. En pratique, ce n’est peut-être qu’un simple ajustement de priorité, en pariant qu’il n’y aurait pas beaucoup de clients externes
    • Ou alors ils utilisent peut-être de nouveaux GPU comme les Nvidia GB300 (Blackwell)
  • Après avoir vu le billet « Claude a créé un compilateur C », je me suis mis à me demander à quelle vitesse tournait l’inférence en interne dans des labos comme Anthropic et OpenAI
    Plus l’inférence est rapide, plus il est facile de dominer le marché du logiciel
    Si Anthropic annonce une vitesse 2,5 fois supérieure, il se peut qu’en interne ils utilisent déjà un mode 5 à 10 fois plus rapide
    Dans un futur où les agents négocieront entre eux, la puissance de calcul la plus rapide l’emportera

    • Anthropic a indiqué qu’il s’agissait du mode 2,5x qu’ils utilisaient déjà en interne, désormais rendu public via l’API officielle
      Il est possible que certains serveurs sacrifient le débit global afin d’augmenter la vitesse des requêtes individuelles.
      Cela tourne peut-être aussi sur une nouvelle génération de matériel
    • Dire qu’ils « cachent des performances 10 fois supérieures » n’a pas de sens. Une entreprise SaaS en concurrence sur le marché ne peut pas se permettre ça
      En réalité, ils ont probablement simplement obtenu un gain de vitesse de 2,5x grâce à la parallélisation
    • On pourrait aussi y voir une sorte de modèle de vitesse en otage, où l’on ralentit artificiellement la vitesse de base pour pousser les gens à payer pour le mode rapide
 
kimjoin2 2026-02-09

« Quelle est la meilleure prochaine tâche ? »
Un paiement supplémentaire de 3,46 $ a été ajouté d’un coup, et on dirait que ce n’est pas couvert par le modèle d’abonnement.
Je me dis aussi que les 50 $ qu’ils ont donnés il y a quelque temps, c’était peut-être pour nous faire essayer ça lol

 
elbum 2026-02-08

On se dirige de plus en plus vers une IA réservée aux riches...