Benchmark de latence de Vertex AI Context Caching + Priority PayGo (400 essais, Gemini 3 Flash)
(cloudturing.com)Benchmark de l’effet d’amélioration de la latence de Context Caching de Vertex AI et du nouveau Priority PayGo, sur la base d’un prompt système (entrée) d’environ 7 500 tokens et d’une réponse (sortie) d’environ 100 tokens utilisés dans un service de chatbot IA
- 4 scénarios (Standard/Priority × avec cache/sans cache), 100 essais chacun, soit 400 requêtes au total
- Modèle :
gemini-3-flash-preview - Méthode de requête : démarrage échelonné à 1 seconde d’intervalle
Principaux résultats :
- Context Caching : temps de réponse moyen presque identique avec ou sans cache (~3 secondes)
- Priority PayGo : en période de faible congestion, 3 à 7 % plus lent au contraire
- Confirmation que Vertex AI effectue aussi un Implicit Caching en interne, même dans les scénarios sans cache
- L’écart de latence selon le Thinking Level est de loin le plus important : DEFAULT 7,4 s → LOW 3 s → MINIMAL 2,6 s
Conclusion : plus que le cache ou les réglages de priorité, c’est la structure même des requêtes qu’il est efficace de modifier pour optimiser la latence
Aucun commentaire pour le moment.