2 points par GN⁺ 13 일 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Mise en place d’une couche d’inférence unifiée qui réduit la complexité des applications agentiques en intégrant divers modèles et fournisseurs
  • Grâce à AI Gateway et Workers AI, il est possible d’appeler plus de 70 modèles et plus de 12 fournisseurs via une seule API, avec une gestion centralisée des coûts et de l’usage
  • Prise en charge de l’exécution de modèles en conteneur en s’appuyant sur la technologie Cog de Replicate afin de permettre le déploiement direct de modèles personnalisés
  • Utilisation de l’infrastructure présente dans 330 villes à travers le monde pour minimiser la latence et garantir une inférence stable grâce au routage automatique en cas d’incident
  • L’équipe de Replicate rejoint Cloudflare afin d’intégrer complètement l’hébergement et le déploiement de modèles, avec une extension vers une plateforme unique pour le développement d’agents

Vue d’ensemble de Cloudflare AI Platform

  • Avec l’évolution rapide des modèles d’IA et les différences entre fournisseurs, la complexité des applications agentiques utilisant plusieurs modèles combinés augmente
    • Par exemple, un agent de support client peut utiliser un modèle rapide pour classifier les messages, un grand modèle pour la planification et un modèle léger pour l’exécution
    • Il devient nécessaire de gérer de façon unifiée les coûts, la fiabilité et la latence sans dépendre d’un fournisseur unique
  • Cloudflare a construit, sur la base de AI Gateway et Workers AI, une couche d’inférence unifiée permettant d’appeler tous les modèles via une seule API
    • Des améliorations récentes ont ajouté une refonte du tableau de bord, la configuration automatique d’une passerelle par défaut, le retry automatique en cas de panne upstream et des contrôles de journalisation plus granulaires

Un seul catalogue, un seul endpoint unifié

  • Grâce au binding AI.run(), il est possible d’appeler directement depuis Cloudflare Workers des modèles tiers (OpenAI, Anthropic, etc.)
    • Lors du passage d’un modèle hébergé par Cloudflare à un modèle tiers, une seule ligne de code doit être modifiée
    • La prise en charge de l’API REST arrivera bientôt, ce qui permettra d’accéder à l’ensemble du catalogue de modèles depuis n’importe quel environnement
  • Plus de 70 modèles et plus de 12 fournisseurs sont accessibles via une seule API et une seule unité de facturation
    • Principaux fournisseurs : Alibaba Cloud, AssemblyAI, Bytedance, Google, InWorld, MiniMax, OpenAI, Pixverse, Recraft, Runway, Vidu
    • Il est possible de créer des applications multimodales incluant des modèles d’image, de vidéo et de voix
  • Tous les appels de modèles sont unifiés dans une seule API, ce qui permet une gestion centralisée de l’usage IA et des coûts
    • En moyenne, les entreprises appellent 3,5 modèles chez plusieurs fournisseurs, mais AI Gateway permet d’en assurer le suivi depuis un tableau de bord unique
    • Il est possible d’inclure des métadonnées personnalisées dans les requêtes pour analyser les coûts par client ou par workflow

Déployer directement ses propres modèles (Bring Your Own Model)

  • AI Gateway unifie les modèles de tous les fournisseurs, mais se prépare aussi à permettre le déploiement direct de modèles finement ajustés sur les données des utilisateurs
    • Les clients enterprise exécutent déjà des modèles personnalisés sur des instances dédiées, et cette possibilité sera étendue aux utilisateurs généraux
  • Cloudflare s’appuie sur la technologie Cog de Replicate pour conteneuriser les modèles de machine learning
    • Il suffit de définir les dépendances dans un fichier cog.yaml et d’écrire le code d’inférence dans predict.py pour que le packaging soit automatisé
    • Cog abstrait les réglages complexes comme CUDA, les versions de Python et le chargement des poids
  • Après avoir construit une image de conteneur avec la commande cog build puis l’avoir envoyée vers Workers AI, Cloudflare prend en charge le déploiement et l’exploitation du service
    • Sont prévus à l’avenir : une commande wrangler, des cold starts rapides basés sur des snapshots GPU et une API pour les clients
    • La solution est actuellement testée avec des clients internes et certains clients externes, avec l’objectif de permettre à tous d’utiliser leurs propres modèles sur Workers AI

Optimisation de la vitesse jusqu’au premier token

  • La combinaison AI Gateway + Workers AI est particulièrement avantageuse pour les agents temps réel où la rapidité de réponse est essentielle
    • Même si l’inférence complète prend 3 secondes, recevoir le premier token 50 ms plus tôt améliore la perception de rapidité côté utilisateur
  • Cloudflare minimise la latence réseau entre les utilisateurs et les endpoints d’inférence grâce à ses datacenters répartis dans 330 villes à travers le monde
  • Workers AI héberge des modèles open source spécialisés pour les agents, dont Kimi K2.5 et des modèles vocaux temps réel
    • Lorsqu’ils sont appelés via AI Gateway, le code et l’inférence s’exécutent sur le même réseau, ce qui permet d’obtenir la latence la plus faible possible

Fiabilité fondée sur le basculement automatique

  • Les workflows agentiques présentent une forte dépendance entre les étapes, ce qui fait de la stabilité de l’inférence un point critique
    • Si un même modèle existe chez plusieurs fournisseurs, AI Gateway redirige automatiquement vers un autre fournisseur en cas de panne de l’un d’eux
    • Les développeurs n’ont pas besoin d’écrire eux-mêmes une logique spécifique de gestion de panne
  • Pour les agents de longue durée exécutés avec le Agents SDK, l’inférence en streaming peut être restaurée même en cas de coupure de connexion
    • AI Gateway met en tampon les réponses de streaming de manière indépendante, ce qui permet de réutiliser la même réponse après reconnexion en cas d’interruption
    • Les mêmes tokens sont restaurés sans double facturation et, combinés à la fonction de checkpoint du SDK, l’interruption devient imperceptible pour l’utilisateur

Intégration de Replicate

  • L’équipe de Replicate a rejoint l’équipe Cloudflare AI Platform et une intégration complète est en cours
    • Tous les modèles de Replicate seront migrés vers AI Gateway, et les modèles hébergés seront replatformés sur l’infrastructure de Cloudflare
    • Les utilisateurs pourront appeler les modèles Replicate existants via AI Gateway, ou héberger sur Workers AI les modèles qu’ils ont déployés sur Replicate

Pour commencer

Le rôle de Cloudflare

  • Cloudflare est un connectivity cloud qui aide à protéger les réseaux d’entreprise, à créer des applications à grande échelle, à accélérer les performances web, et à prendre en charge la protection DDoS ainsi que la sécurité Zero Trust
  • L’application gratuite 1.1.1.1 permet d’utiliser Internet de façon plus rapide et plus sûre
  • La mission de Cloudflare est de construire un meilleur Internet, et des informations complémentaires ainsi que les offres d’emploi sont disponibles sur son site officiel

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.