La plateforme IA de Cloudflare : une couche d’inférence pour les agents

(blog.cloudflare.com)

2 points par GN⁺ 14 일 전 | 1 commentaires | Partager sur WhatsApp

Mise en place d’une couche d’inférence unifiée qui réduit la complexité des applications agentiques en intégrant divers modèles et fournisseurs
Grâce à AI Gateway et Workers AI, il est possible d’appeler plus de 70 modèles et plus de 12 fournisseurs via une seule API, avec une gestion centralisée des coûts et de l’usage
Prise en charge de l’exécution de modèles en conteneur en s’appuyant sur la technologie Cog de Replicate afin de permettre le déploiement direct de modèles personnalisés
Utilisation de l’infrastructure présente dans 330 villes à travers le monde pour minimiser la latence et garantir une inférence stable grâce au routage automatique en cas d’incident
L’équipe de Replicate rejoint Cloudflare afin d’intégrer complètement l’hébergement et le déploiement de modèles, avec une extension vers une plateforme unique pour le développement d’agents

Vue d’ensemble de Cloudflare AI Platform

Avec l’évolution rapide des modèles d’IA et les différences entre fournisseurs, la complexité des applications agentiques utilisant plusieurs modèles combinés augmente
- Par exemple, un agent de support client peut utiliser un modèle rapide pour classifier les messages, un grand modèle pour la planification et un modèle léger pour l’exécution
- Il devient nécessaire de gérer de façon unifiée les coûts, la fiabilité et la latence sans dépendre d’un fournisseur unique
Cloudflare a construit, sur la base de AI Gateway et Workers AI, une couche d’inférence unifiée permettant d’appeler tous les modèles via une seule API
- Des améliorations récentes ont ajouté une refonte du tableau de bord, la configuration automatique d’une passerelle par défaut, le retry automatique en cas de panne upstream et des contrôles de journalisation plus granulaires

Un seul catalogue, un seul endpoint unifié

Grâce au binding AI.run(), il est possible d’appeler directement depuis Cloudflare Workers des modèles tiers (OpenAI, Anthropic, etc.)
- Lors du passage d’un modèle hébergé par Cloudflare à un modèle tiers, une seule ligne de code doit être modifiée
- La prise en charge de l’API REST arrivera bientôt, ce qui permettra d’accéder à l’ensemble du catalogue de modèles depuis n’importe quel environnement
Plus de 70 modèles et plus de 12 fournisseurs sont accessibles via une seule API et une seule unité de facturation
- Principaux fournisseurs : Alibaba Cloud, AssemblyAI, Bytedance, Google, InWorld, MiniMax, OpenAI, Pixverse, Recraft, Runway, Vidu
- Il est possible de créer des applications multimodales incluant des modèles d’image, de vidéo et de voix
Tous les appels de modèles sont unifiés dans une seule API, ce qui permet une gestion centralisée de l’usage IA et des coûts
- En moyenne, les entreprises appellent 3,5 modèles chez plusieurs fournisseurs, mais AI Gateway permet d’en assurer le suivi depuis un tableau de bord unique
- Il est possible d’inclure des métadonnées personnalisées dans les requêtes pour analyser les coûts par client ou par workflow

Déployer directement ses propres modèles (Bring Your Own Model)

AI Gateway unifie les modèles de tous les fournisseurs, mais se prépare aussi à permettre le déploiement direct de modèles finement ajustés sur les données des utilisateurs
- Les clients enterprise exécutent déjà des modèles personnalisés sur des instances dédiées, et cette possibilité sera étendue aux utilisateurs généraux
Cloudflare s’appuie sur la technologie Cog de Replicate pour conteneuriser les modèles de machine learning
- Il suffit de définir les dépendances dans un fichier cog.yaml et d’écrire le code d’inférence dans predict.py pour que le packaging soit automatisé
- Cog abstrait les réglages complexes comme CUDA, les versions de Python et le chargement des poids
Après avoir construit une image de conteneur avec la commande cog build puis l’avoir envoyée vers Workers AI, Cloudflare prend en charge le déploiement et l’exploitation du service
- Sont prévus à l’avenir : une commande wrangler, des cold starts rapides basés sur des snapshots GPU et une API pour les clients
- La solution est actuellement testée avec des clients internes et certains clients externes, avec l’objectif de permettre à tous d’utiliser leurs propres modèles sur Workers AI

Optimisation de la vitesse jusqu’au premier token

La combinaison AI Gateway + Workers AI est particulièrement avantageuse pour les agents temps réel où la rapidité de réponse est essentielle
- Même si l’inférence complète prend 3 secondes, recevoir le premier token 50 ms plus tôt améliore la perception de rapidité côté utilisateur
Cloudflare minimise la latence réseau entre les utilisateurs et les endpoints d’inférence grâce à ses datacenters répartis dans 330 villes à travers le monde
Workers AI héberge des modèles open source spécialisés pour les agents, dont Kimi K2.5 et des modèles vocaux temps réel
- Lorsqu’ils sont appelés via AI Gateway, le code et l’inférence s’exécutent sur le même réseau, ce qui permet d’obtenir la latence la plus faible possible

Fiabilité fondée sur le basculement automatique

Les workflows agentiques présentent une forte dépendance entre les étapes, ce qui fait de la stabilité de l’inférence un point critique
- Si un même modèle existe chez plusieurs fournisseurs, AI Gateway redirige automatiquement vers un autre fournisseur en cas de panne de l’un d’eux
- Les développeurs n’ont pas besoin d’écrire eux-mêmes une logique spécifique de gestion de panne
Pour les agents de longue durée exécutés avec le Agents SDK, l’inférence en streaming peut être restaurée même en cas de coupure de connexion
- AI Gateway met en tampon les réponses de streaming de manière indépendante, ce qui permet de réutiliser la même réponse après reconnexion en cas d’interruption
- Les mêmes tokens sont restaurés sans double facturation et, combinés à la fonction de checkpoint du SDK, l’interruption devient imperceptible pour l’utilisateur

Intégration de Replicate

L’équipe de Replicate a rejoint l’équipe Cloudflare AI Platform et une intégration complète est en cours
- Tous les modèles de Replicate seront migrés vers AI Gateway, et les modèles hébergés seront replatformés sur l’infrastructure de Cloudflare
- Les utilisateurs pourront appeler les modèles Replicate existants via AI Gateway, ou héberger sur Workers AI les modèles qu’ils ont déployés sur Replicate

Pour commencer

Les développeurs peuvent démarrer via la documentation AI Gateway ou la documentation Workers AI
Il est possible de créer des agents sur Cloudflare via le Agents SDK

Le rôle de Cloudflare

Cloudflare est un connectivity cloud qui aide à protéger les réseaux d’entreprise, à créer des applications à grande échelle, à accélérer les performances web, et à prendre en charge la protection DDoS ainsi que la sécurité Zero Trust
L’application gratuite 1.1.1.1 permet d’utiliser Internet de façon plus rapide et plus sûre
La mission de Cloudflare est de construire un meilleur Internet, et des informations complémentaires ainsi que les offres d’emploi sont disponibles sur son site officiel

1 commentaires

GN⁺ 14 일 전

Commentaires sur Hacker News

Au final, ça ressemble à openrouter avec Cloudflare Argo networking greffé dessus
Il semble possible de faire quelque chose de plus intéressant en tirant parti de l’acquisition de Replicate
Le RL spécifique à l’application s’améliore de plus en plus, mais il manque des moyens de le déployer à l’échelle
Des acteurs comme Fireworks disent aussi déployer du LORA à grande échelle, mais en pratique ça fonctionne mal
Du coup, j’héberge actuellement la charge de base de mon appli moi-même sur plusieurs 3090 dans mon garage. C’est absurde, mais ça me fait économiser 1 000 dollars par mois
- Je suis curieux de savoir quels modèles tu fais tourner et combien de 3090 il faudrait à mesure que l’échelle augmente
Ça a l’air assez utile. Cloudflare rassemble de bons outils
En particulier, D2 est de fait le seul vrai sqlite-as-a-service, avec une bonne stabilité et des limites de forfait gratuit assez généreuses
- La documentation et le marketing mettent en avant des usages comme les « DB par utilisateur » ou les « DB par tenant », mais en pratique c’est difficile à utiliser avec Workers
  Il faut redéployer le Worker pour binder une nouvelle base, donc c’est pratiquement impossible
- D’après notre expérience, la stabilité de D1 n’était pas bonne
  Des requêtes restaient bloquées plusieurs secondes, voire des dizaines de secondes, dans la couche réseau interne
  Certaines requêtes n’apparaissaient même pas dans le dashboard d’observabilité, donc sans détection manuelle des timeouts, on ne voyait pas le problème
  Les transactions ne sont pas prises en charge non plus, et dans le fil de discussion du ticket, le PM a indiqué qu’aucune implémentation n’était prévue
  Pour garantir la cohérence des données, il faut utiliser Durable Object, ce qui implique encore d’autres coûts et compromis
  L’idée est bonne, mais difficile à juger fiable pour la production ; pour un projet perso, ça va
- J’aimerais que Cloudflare fournisse nativement un système de sauvegarde D1-R2
  Pour l’instant, ce n’est possible qu’avec du code personnalisé dans un Worker
- La limite de 10 Go de D1 est beaucoup trop petite. En dehors de projets jouets, ça me semble difficile
- Ils disent qu’une API REST arrive bientôt, mais la structure semble pensée pour pousser au lock-in Cloudflare
  Ils disent créer un OpenRouter, mais ne prennent en charge que leurs propres bindings de runtime, ce qui est difficile à comprendre
La liste des modèles Workers AI et le
catalogue de modèles IA n’ont pas la même sélection de modèles
L’espace de noms « workers-ai/* » contient beaucoup moins de modèles. Je me demande si c’est intentionnel
- Par exemple, des modèles comme « workers-ai/@cf/google/gemma-4-26b-a4b-it » ou
  « workers-ai/@cf/nvidia/nemotron-3-120b-a12b » n’apparaissent pas dans l’endpoint /models de gateway.ai.cloudflare.com. Pourtant, ils existent bien comme modèles hébergés
J’utilise très bien openrouter sur Cloudflare Workers
Les fonctions de cascading et de waterfalling sont aussi bien meilleures quand un modèle est hors ligne
Ça n’a pas encore l’air possible dans la V1
J’aime tellement tout chez openrouter que j’en suis presque fan
Le problème de la couche d’inférence est en train d’être résolu rapidement
La prochaine difficulté, c’est la couche de gouvernance, c’est-à-dire ce que les agents peuvent faire et comment le prouver
Je me demande si Cloudflare réfléchit aussi à cette partie
- Ce serait bien d’avoir un système d’authentification automatique basé sur le zero-trust
  J’imagine une structure où chaque agent soumet des identifiants RBAC pour obtenir des autorisations
C’est agréable de voir que l’acquisition de Replicate commence enfin à produire des résultats
Je ne vois pas de tarification sur la page des modèles
Je me demande combien c’est plus cher que de payer directement le fournisseur
Est-ce que Cloudflare propose ça au prix coûtant ?
Et puis la rétention zéro donnée n’est pas la valeur par défaut, et certains fournisseurs ne la prennent même pas en charge
Ce serait bien de pouvoir récupérer à la fois des completions au style OpenAI et Anthropic
- Je suis ingénieur chez Cloudflare. Nous allons bientôt ajouter les infos de prix dans la documentation et le dashboard
  Pour l’instant, c’est le même tarif que celui du fournisseur, avec de petits frais de traitement via les unified billing credits
  La prise en charge des completions au format OpenAI/Anthropic arrive aussi bientôt
  Lien d’explication sur unified billing
- Les informations tarifaires de Workers AI sont ici
Au final, ça ressemble à un service similaire à openrouter
- Oui. Sauf que le choix de modèles est plus limité, sauf si on apporte soi-même son modèle
- Avec en plus Argo networking
C’est une annonce assez importante. Cela semble tout à fait compétitif comme alternative à AWS Bedrock
Il est possible que l’uptime soit même meilleur que chez Anthropic ou AWS

La plateforme IA de Cloudflare : une couche d’inférence pour les agents

Vue d’ensemble de Cloudflare AI Platform

Un seul catalogue, un seul endpoint unifié

Déployer directement ses propres modèles (Bring Your Own Model)

Optimisation de la vitesse jusqu’au premier token

Fiabilité fondée sur le basculement automatique

Intégration de Replicate

Pour commencer

Le rôle de Cloudflare

À lire aussi

1 commentaires

Commentaires sur Hacker News