La plateforme IA de Cloudflare : une couche d’inférence pour les agents
(blog.cloudflare.com)- Mise en place d’une couche d’inférence unifiée qui réduit la complexité des applications agentiques en intégrant divers modèles et fournisseurs
- Grâce à AI Gateway et Workers AI, il est possible d’appeler plus de 70 modèles et plus de 12 fournisseurs via une seule API, avec une gestion centralisée des coûts et de l’usage
- Prise en charge de l’exécution de modèles en conteneur en s’appuyant sur la technologie Cog de Replicate afin de permettre le déploiement direct de modèles personnalisés
- Utilisation de l’infrastructure présente dans 330 villes à travers le monde pour minimiser la latence et garantir une inférence stable grâce au routage automatique en cas d’incident
- L’équipe de Replicate rejoint Cloudflare afin d’intégrer complètement l’hébergement et le déploiement de modèles, avec une extension vers une plateforme unique pour le développement d’agents
Vue d’ensemble de Cloudflare AI Platform
- Avec l’évolution rapide des modèles d’IA et les différences entre fournisseurs, la complexité des applications agentiques utilisant plusieurs modèles combinés augmente
- Par exemple, un agent de support client peut utiliser un modèle rapide pour classifier les messages, un grand modèle pour la planification et un modèle léger pour l’exécution
- Il devient nécessaire de gérer de façon unifiée les coûts, la fiabilité et la latence sans dépendre d’un fournisseur unique
- Cloudflare a construit, sur la base de AI Gateway et Workers AI, une couche d’inférence unifiée permettant d’appeler tous les modèles via une seule API
- Des améliorations récentes ont ajouté une refonte du tableau de bord, la configuration automatique d’une passerelle par défaut, le retry automatique en cas de panne upstream et des contrôles de journalisation plus granulaires
Un seul catalogue, un seul endpoint unifié
- Grâce au binding AI.run(), il est possible d’appeler directement depuis Cloudflare Workers des modèles tiers (OpenAI, Anthropic, etc.)
- Lors du passage d’un modèle hébergé par Cloudflare à un modèle tiers, une seule ligne de code doit être modifiée
- La prise en charge de l’API REST arrivera bientôt, ce qui permettra d’accéder à l’ensemble du catalogue de modèles depuis n’importe quel environnement
- Plus de 70 modèles et plus de 12 fournisseurs sont accessibles via une seule API et une seule unité de facturation
- Principaux fournisseurs : Alibaba Cloud, AssemblyAI, Bytedance, Google, InWorld, MiniMax, OpenAI, Pixverse, Recraft, Runway, Vidu
- Il est possible de créer des applications multimodales incluant des modèles d’image, de vidéo et de voix
- Tous les appels de modèles sont unifiés dans une seule API, ce qui permet une gestion centralisée de l’usage IA et des coûts
- En moyenne, les entreprises appellent 3,5 modèles chez plusieurs fournisseurs, mais AI Gateway permet d’en assurer le suivi depuis un tableau de bord unique
- Il est possible d’inclure des métadonnées personnalisées dans les requêtes pour analyser les coûts par client ou par workflow
Déployer directement ses propres modèles (Bring Your Own Model)
- AI Gateway unifie les modèles de tous les fournisseurs, mais se prépare aussi à permettre le déploiement direct de modèles finement ajustés sur les données des utilisateurs
- Les clients enterprise exécutent déjà des modèles personnalisés sur des instances dédiées, et cette possibilité sera étendue aux utilisateurs généraux
- Cloudflare s’appuie sur la technologie Cog de Replicate pour conteneuriser les modèles de machine learning
- Il suffit de définir les dépendances dans un fichier
cog.yamlet d’écrire le code d’inférence danspredict.pypour que le packaging soit automatisé - Cog abstrait les réglages complexes comme CUDA, les versions de Python et le chargement des poids
- Il suffit de définir les dépendances dans un fichier
- Après avoir construit une image de conteneur avec la commande
cog buildpuis l’avoir envoyée vers Workers AI, Cloudflare prend en charge le déploiement et l’exploitation du service- Sont prévus à l’avenir : une commande wrangler, des cold starts rapides basés sur des snapshots GPU et une API pour les clients
- La solution est actuellement testée avec des clients internes et certains clients externes, avec l’objectif de permettre à tous d’utiliser leurs propres modèles sur Workers AI
Optimisation de la vitesse jusqu’au premier token
- La combinaison AI Gateway + Workers AI est particulièrement avantageuse pour les agents temps réel où la rapidité de réponse est essentielle
- Même si l’inférence complète prend 3 secondes, recevoir le premier token 50 ms plus tôt améliore la perception de rapidité côté utilisateur
- Cloudflare minimise la latence réseau entre les utilisateurs et les endpoints d’inférence grâce à ses datacenters répartis dans 330 villes à travers le monde
- Workers AI héberge des modèles open source spécialisés pour les agents, dont Kimi K2.5 et des modèles vocaux temps réel
- Lorsqu’ils sont appelés via AI Gateway, le code et l’inférence s’exécutent sur le même réseau, ce qui permet d’obtenir la latence la plus faible possible
Fiabilité fondée sur le basculement automatique
- Les workflows agentiques présentent une forte dépendance entre les étapes, ce qui fait de la stabilité de l’inférence un point critique
- Si un même modèle existe chez plusieurs fournisseurs, AI Gateway redirige automatiquement vers un autre fournisseur en cas de panne de l’un d’eux
- Les développeurs n’ont pas besoin d’écrire eux-mêmes une logique spécifique de gestion de panne
- Pour les agents de longue durée exécutés avec le Agents SDK, l’inférence en streaming peut être restaurée même en cas de coupure de connexion
- AI Gateway met en tampon les réponses de streaming de manière indépendante, ce qui permet de réutiliser la même réponse après reconnexion en cas d’interruption
- Les mêmes tokens sont restaurés sans double facturation et, combinés à la fonction de checkpoint du SDK, l’interruption devient imperceptible pour l’utilisateur
Intégration de Replicate
- L’équipe de Replicate a rejoint l’équipe Cloudflare AI Platform et une intégration complète est en cours
- Tous les modèles de Replicate seront migrés vers AI Gateway, et les modèles hébergés seront replatformés sur l’infrastructure de Cloudflare
- Les utilisateurs pourront appeler les modèles Replicate existants via AI Gateway, ou héberger sur Workers AI les modèles qu’ils ont déployés sur Replicate
Pour commencer
- Les développeurs peuvent démarrer via la documentation AI Gateway ou la documentation Workers AI
- Il est possible de créer des agents sur Cloudflare via le Agents SDK
Le rôle de Cloudflare
- Cloudflare est un connectivity cloud qui aide à protéger les réseaux d’entreprise, à créer des applications à grande échelle, à accélérer les performances web, et à prendre en charge la protection DDoS ainsi que la sécurité Zero Trust
- L’application gratuite 1.1.1.1 permet d’utiliser Internet de façon plus rapide et plus sûre
- La mission de Cloudflare est de construire un meilleur Internet, et des informations complémentaires ainsi que les offres d’emploi sont disponibles sur son site officiel
1 commentaires
Commentaires sur Hacker News
Au final, ça ressemble à openrouter avec Cloudflare Argo networking greffé dessus
Il semble possible de faire quelque chose de plus intéressant en tirant parti de l’acquisition de Replicate
Le RL spécifique à l’application s’améliore de plus en plus, mais il manque des moyens de le déployer à l’échelle
Des acteurs comme Fireworks disent aussi déployer du LORA à grande échelle, mais en pratique ça fonctionne mal
Du coup, j’héberge actuellement la charge de base de mon appli moi-même sur plusieurs 3090 dans mon garage. C’est absurde, mais ça me fait économiser 1 000 dollars par mois
Ça a l’air assez utile. Cloudflare rassemble de bons outils
En particulier, D2 est de fait le seul vrai sqlite-as-a-service, avec une bonne stabilité et des limites de forfait gratuit assez généreuses
Il faut redéployer le Worker pour binder une nouvelle base, donc c’est pratiquement impossible
Des requêtes restaient bloquées plusieurs secondes, voire des dizaines de secondes, dans la couche réseau interne
Certaines requêtes n’apparaissaient même pas dans le dashboard d’observabilité, donc sans détection manuelle des timeouts, on ne voyait pas le problème
Les transactions ne sont pas prises en charge non plus, et dans le fil de discussion du ticket, le PM a indiqué qu’aucune implémentation n’était prévue
Pour garantir la cohérence des données, il faut utiliser Durable Object, ce qui implique encore d’autres coûts et compromis
L’idée est bonne, mais difficile à juger fiable pour la production ; pour un projet perso, ça va
Pour l’instant, ce n’est possible qu’avec du code personnalisé dans un Worker
Ils disent créer un OpenRouter, mais ne prennent en charge que leurs propres bindings de runtime, ce qui est difficile à comprendre
La liste des modèles Workers AI et le
catalogue de modèles IA n’ont pas la même sélection de modèles
L’espace de noms « workers-ai/* » contient beaucoup moins de modèles. Je me demande si c’est intentionnel
« workers-ai/@cf/nvidia/nemotron-3-120b-a12b » n’apparaissent pas dans l’endpoint /models de gateway.ai.cloudflare.com. Pourtant, ils existent bien comme modèles hébergés
J’utilise très bien openrouter sur Cloudflare Workers
Les fonctions de cascading et de waterfalling sont aussi bien meilleures quand un modèle est hors ligne
Ça n’a pas encore l’air possible dans la V1
J’aime tellement tout chez openrouter que j’en suis presque fan
Le problème de la couche d’inférence est en train d’être résolu rapidement
La prochaine difficulté, c’est la couche de gouvernance, c’est-à-dire ce que les agents peuvent faire et comment le prouver
Je me demande si Cloudflare réfléchit aussi à cette partie
J’imagine une structure où chaque agent soumet des identifiants RBAC pour obtenir des autorisations
C’est agréable de voir que l’acquisition de Replicate commence enfin à produire des résultats
Je ne vois pas de tarification sur la page des modèles
Je me demande combien c’est plus cher que de payer directement le fournisseur
Est-ce que Cloudflare propose ça au prix coûtant ?
Et puis la rétention zéro donnée n’est pas la valeur par défaut, et certains fournisseurs ne la prennent même pas en charge
Ce serait bien de pouvoir récupérer à la fois des completions au style OpenAI et Anthropic
Pour l’instant, c’est le même tarif que celui du fournisseur, avec de petits frais de traitement via les unified billing credits
La prise en charge des completions au format OpenAI/Anthropic arrive aussi bientôt
Lien d’explication sur unified billing
Au final, ça ressemble à un service similaire à openrouter
C’est une annonce assez importante. Cela semble tout à fait compétitif comme alternative à AWS Bedrock
Il est possible que l’uptime soit même meilleur que chez Anthropic ou AWS