Agents de code : pourquoi certaines requêtes coûtent-elles 46 fois plus cher avec le même modèle ?
(dev.to)En utilisant OpenCode Go, j’ai remarqué quelque chose d’étrange sur le tableau de bord. Même modèle, volume de tokens d’entrée similaire (300K vs 257K), mais un coût de $0.0096 contre $0.4455 — soit un écart de 46x. La cause : le prompt caching.
Les LLM réutilisent des calculs précédents lorsque le même préfixe se répète, mais la plupart des agents de code envoient à chaque tour l’intégralité de l’historique de la conversation (transcript) tel quel. À court terme, c’est peu coûteux grâce au cache, mais lorsque la fenêtre de contexte se remplit et qu’une compaction se produit, le préfixe est cassé et le cache est invalidé.
Cet article analyse le coût caché de l’approche par transcript, ainsi qu’une approche alternative consistant à n’envoyer qu’un état structuré, avec à l’appui les données réelles d’une session de débogage de 44 tours (réduction de 80,4 % des tokens). L’enjeu n’est pas seulement la présence ou l’absence de cache, mais la différence entre une structure « où l’on ne sait jamais quand le cache va casser » et une structure « qui ne dépend pas du cache ».
Aucun commentaire pour le moment.