- Utilise le même modèle Opus 4.6, mais modifie la configuration de l’API pour minimiser la latence
- Optimisé pour les tâches interactives sensibles au temps, comme les itérations rapides ou le débogage en direct
- Dans le CLI ou l’extension VS Code, saisir
/fastpour activer/désactiver l’option, ou définir"fastMode": truedans le fichier de configuration utilisateur pour une activation permanente - Une fois activé, bascule automatiquement vers Opus 4.6, avec affichage d’un message d’état et de l’icône
↯ - Le coût par token du Fast Mode augmente par rapport à Opus 4.6 standard
- Pour un contexte inférieur à 200K : entrée à $30/MTok, sortie à $150/MTok (standard : $5 en entrée, $25 en sortie)
- Pour un contexte supérieur à 200K : entrée à $60/MTok, sortie à $225/MTok (standard : $10 en entrée, $37.5 en sortie)
- Réduction de 50 % appliquée jusqu’au 16/2
- Un rate limit distinct propre au Fast Mode s’applique, avec bascule automatique vers le mode standard en cas de dépassement de quota ou d’épuisement des crédits
- Le Fast Mode est proposé en aperçu de recherche ; les fonctionnalités et les prix peuvent évoluer
3 commentaires
Avis sur Hacker News
La vitesse a été multipliée par 2,5, mais le prix est 6 fois plus élevé
C’est une prime assez coûteuse. En particulier, Gemini 3 Pro offre une vitesse en tokens par seconde 1,8 fois supérieure à Opus 4.6, pour un prix d’environ 0,45x
En revanche, ses performances en codage sont inférieures, et Gemini CLI n’a pas encore les capacités d’agent de Claude Code
Au final, c’est une structure intéressante qui pousse les gros clients (whales) à dépenser rapidement
Ce serait bien d’avoir un mode lent (
slow-mode) : une fonction permettant de planifier l’exécution sur des GPU spot à moindre coûtJe lance souvent des processus avant la pause déjeuner ou avant de quitter le travail, et ils n’ont pas besoin de démarrer immédiatement. S’ils tournent à bas prix sur des GPU inactifs, cela me suffit
Ce mode ne permet pas d’utiliser le quota restant de l’abonnement
L’usage du mode rapide est toujours facturé séparément, et des frais supplémentaires s’appliquent dès le premier token, indépendamment des tokens inclus dans le forfait
Il y a actuellement une offre de 50 $ de crédit d’usage supplémentaire gratuit
Avec l’outil ccusage, on voit qu’en équivalent API on peut monter à 200 $ par jour. Avec un tarif 6 fois plus élevé, les 50 $ partent en 20 minutes
Je ne pense pas que cette fonctionnalité me soit particulièrement utile
Le goulot d’étranglement, ce n’est pas le modèle, mais la vitesse à laquelle je comprends le code généré par le LLM
En lisant le document « décider quand utiliser Fast mode »,
on dirait que cette distinction est intentionnelle. Reste à voir si la tarification est raisonnable
Ceux qui privilégient le rapport qualité-prix s’en sortiront avec l’exécution en parallèle
Mon workflow habituel se divise entre une phase de planification et une phase d’implémentation
Le mode rapide semble surtout utile pendant la phase de planification
J’aimerais qu’il y ait non seulement l’option « réinitialiser le contexte puis exécuter en mode rapide »,
mais aussi une option « réinitialiser le contexte puis exécuter à vitesse normale »
Les agents exploratoires peuvent être lents, mais pouvoir itérer rapidement sur la planification serait bien plus efficace
Un compte Pro classique est en pratique un mode lent
Je teste en ce moment Kimi2.5 CLI : c’est rapide, et il y a aussi une interface web, ce qui permet de l’utiliser à distance même dans un environnement avec VPN
On pourrait presque faire un CNAME de Hacker News vers un simple blog marketing de Claude
Je me demande d’où vient ce gain de vitesse. Cela semble difficile à expliquer par un simple ajustement de priorité
Cela pourrait être un nouveau matériel (Groq, Cerebras, etc.). Le fait que ce ne soit proposé que sur certains clouds rend cette hypothèse plausible
Je me demande aussi si les fournisseurs de LLM vont finir par tarifer séparément la « vitesse vs intelligence »
Quand on agrandit les batches, le parallélisme augmente, mais la vitesse de chaque requête diminue.
Le graphique SemiAnalysis InferenceMAX™ montre qu’il existe une courbe de Pareto entre le débit par GPU et la vitesse en tokens
Après avoir vu le billet « Claude a créé un compilateur C », je me suis mis à me demander à quelle vitesse tournait l’inférence en interne dans des labos comme Anthropic et OpenAI
Plus l’inférence est rapide, plus il est facile de dominer le marché du logiciel
Si Anthropic annonce une vitesse 2,5 fois supérieure, il se peut qu’en interne ils utilisent déjà un mode 5 à 10 fois plus rapide
Dans un futur où les agents négocieront entre eux, la puissance de calcul la plus rapide l’emportera
Il est possible que certains serveurs sacrifient le débit global afin d’augmenter la vitesse des requêtes individuelles.
Cela tourne peut-être aussi sur une nouvelle génération de matériel
En réalité, ils ont probablement simplement obtenu un gain de vitesse de 2,5x grâce à la parallélisation
« Quelle est la meilleure prochaine tâche ? »
Un paiement supplémentaire de 3,46 $ a été ajouté d’un coup, et on dirait que ce n’est pas couvert par le modèle d’abonnement.
Je me dis aussi que les 50 $ qu’ils ont donnés il y a quelque temps, c’était peut-être pour nous faire essayer ça lol
On se dirige de plus en plus vers une IA réservée aux riches...