3 points par xguru 2024-08-21 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Prompt Caching optimise l’utilisation de l’API et permet de reprendre une tâche à partir d’un préfixe spécifique du prompt
    • Les grands prompts peuvent être réutilisés sur plusieurs appels API sans être retraités à chaque fois, ce qui réduit fortement le temps de traitement et les coûts pour les tâches répétitives
  • Fonctionnement
    • Mise en cache du préfixe du prompt : le système vérifie si le préfixe du prompt a été mis en cache lors d’une requête récente. S’il est trouvé, la version en cache est utilisée pour réduire le temps de traitement et les coûts. Sinon, le prompt complet est traité et le préfixe est mis en cache.
    • Cas d’usage : utile pour les prompts contenant de nombreux exemples, de gros volumes de contexte ou d’informations de fond, des tâches répétitives avec des consignes cohérentes, et les longues conversations multi-tours
    • Durée de vie du cache : le cache reste valide pendant 5 minutes et est rafraîchi à chaque utilisation du contenu mis en cache
  • Contenu du prompt mis en cache
    • Le prompt complet est pris en compte, y compris les outils, le système et les messages (dans cet ordre). Cela inclut les blocs désignés par cache_control
  • Tarification
    • Claude 3.5 Sonnet : jetons d’entrée standard 3 $ / MTok, écriture dans le cache 3,75 $ / MTok, lecture du cache 0,30 $ / MTok, jetons de sortie 15 $ / MTok
    • Claude 3 Haiku : jetons d’entrée standard 0,25 $ / MTok, écriture dans le cache 0,30 $ / MTok, lecture du cache 0,03 $ / MTok, jetons de sortie 1,25 $ / MTok
    • Claude 3 Opus (à venir) : jetons d’entrée standard 15 $ / MTok, écriture dans le cache 18,75 $ / MTok, lecture du cache 1,50 $ / MTok, jetons de sortie 75 $ / MTok
  • Points clés
    • Les jetons d’écriture dans le cache sont 25 % plus chers que les jetons d’entrée standard
    • Les jetons de lecture du cache sont 90 % moins chers que les jetons d’entrée standard
  • Limites du cache
    • Longueur minimale du prompt pouvant être mise en cache :
      • Claude 3.5 Sonnet et Claude 3 Opus : 1024 jetons
      • Claude 3 Haiku : 2048 jetons
    • Le cache a un TTL de 5 minutes, et actuellement ephemeral est le seul type de cache pris en charge correspondant à cette durée de 5 minutes
  • Divers cas d’usage
    • Agents conversationnels : permet de réduire les coûts et la latence dans les conversations contenant de longues consignes ou des documents téléversés
    • Assistants de programmation : améliore l’autocomplétion et les performances en Q&R sur la base de code en conservant dans le prompt les sections pertinentes ou une version résumée du codebase
    • Traitement de grands documents : permet d’inclure dans le prompt de longs contenus, y compris des images, sans allonger le temps de réponse
    • Jeux d’instructions détaillés : affine davantage les réponses de Claude en incluant plus de 20 exemples variés de réponses de haute qualité
    • Utilisation d’outils par des agents : peut améliorer les performances dans des scénarios comportant de multiples appels d’outils et des modifications de code répétitives
    • Conversations autour de livres, articles scientifiques, documents, transcriptions de podcasts et autres contenus longs : permet d’inclure le ou les documents complets dans le prompt afin que l’utilisateur puisse poser des questions

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.