- Partage des résultats d’analyse horaire d’environ 27 000 requêtes cumulées sur près de deux semaines, après application de Priority PayGo de Vertex AI à un chatbot IA en production
- En se basant sur le temps de réponse médian, ON_DEMAND(Standard) et ON_DEMAND_PRIORITY se situaient la plupart du temps dans une plage de 100 à 300 ms, avec des performances en pratique identiques
- Le seul créneau où Priority était significativement plus rapide était 16 h (-338 ms) ; sur les 23 autres heures, les performances étaient similaires ou Standard était même plus rapide
- Le taux de requêtes dépassant 10 secondes était de 3,4 % pour Standard contre 5,9 % pour Priority, ce qui rendait Priority 1,7 fois plus instable
- En particulier la nuit (22 h à 23 h), le taux de dépassement de 10 secondes de Priority dépassait 12 %, soit plus de 3 fois celui de Standard
- En tenant compte d’un coût par token 1,8 fois plus élevé, il est jugé qu’à ce stade, Priority PayGo n’offre aucun avantage coût/performance
- Ces résultats concernent un environnement gemini-3-flash-preview (modèle preview) + asia-northeast3 (région de Séoul) et peuvent donc évoluer après la sortie en GA
Aucun commentaire pour le moment.