Benchmark de latence de Vertex AI Context Caching + Priority PayGo (400 essais, Gemini 3 Flash)

(cloudturing.com)

1 points par calmlake79 2026-02-12 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Benchmark de l’effet d’amélioration de la latence de Context Caching de Vertex AI et du nouveau Priority PayGo, sur la base d’un prompt système (entrée) d’environ 7 500 tokens et d’une réponse (sortie) d’environ 100 tokens utilisés dans un service de chatbot IA

4 scénarios (Standard/Priority × avec cache/sans cache), 100 essais chacun, soit 400 requêtes au total
Modèle : gemini-3-flash-preview
Méthode de requête : démarrage échelonné à 1 seconde d’intervalle

Principaux résultats :

Context Caching : temps de réponse moyen presque identique avec ou sans cache (~3 secondes)
Priority PayGo : en période de faible congestion, 3 à 7 % plus lent au contraire
Confirmation que Vertex AI effectue aussi un Implicit Caching en interne, même dans les scénarios sans cache
L’écart de latence selon le Thinking Level est de loin le plus important : DEFAULT 7,4 s → LOW 3 s → MINIMAL 2,6 s

Conclusion : plus que le cache ou les réglages de priorité, c’est la structure même des requêtes qu’il est efficace de modifier pour optimiser la latence

Benchmark de latence de Vertex AI Context Caching + Priority PayGo (400 essais, Gemini 3 Flash)

À lire aussi

Aucun commentaire pour le moment.