Introduction des modèles OpenAI dans Amazon Bedrock : interview des CEO d’OpenAI et d’AWS
(stratechery.com)- Les modèles frontier d’OpenAI arrivent dans le runtime d’agents natif AWS d’Amazon Bedrock, dans une intégration qui va au-delà de la simple mise à disposition de modèles pour les combiner sous forme d’agents managés pour les entreprises
- Les Bedrock Managed Agents regroupent identity, permissions, logging, governance et deployment, afin de permettre aux clients d’exploiter plus rapidement des agents en environnement d’entreprise sans avoir à assembler eux-mêmes ces briques
- Aujourd’hui, les performances des agents dépendent fortement non seulement du modèle lui-même, mais aussi du degré d’intégration du harness incluant tools, state, memory, permissions et evals, un assemblage qu’AWS et OpenAI traitent comme un produit commun
- Les données clients restent à l’intérieur du VPC AWS, les modèles OpenAI s’exécutent via Bedrock, et le support est également géré principalement par AWS
- Comme le cloud à ses débuts a ouvert la voie aux startups, cette intégration s’inscrit elle aussi dans une dynamique de réduction des barrières à l’adoption de l’IA, tout en révélant une ambition de s’imposer comme une nouvelle couche de plateforme face à une demande frontier en forte croissance
AWS, les startups et la vitesse d’adoption de l’IA
- Le modèle initial du cloud chez AWS a permis d’utiliser, avec quelques dollars et une carte bancaire, une infrastructure auparavant réservée aux très grandes entreprises, sans prédéfinir ce que les développeurs devaient créer, ce qui a considérablement élargi le champ de création sur Internet
- L’impact de l’adoption de l’IA est jugé comparable, voire supérieur
- Le modèle selon lequel il fallait apprendre à coder pendant 10 ans pour créer une application s’affaiblit
- Même sans équipe de plusieurs centaines de personnes ni longs cycles de développement, de petites équipes peuvent désormais construire rapidement puis itérer
- Cela devient un levier d’innovation dans de nombreux domaines à travers le monde
- Contrairement aux débuts du cloud, la vitesse d’adoption de l’IA est très rapide
- En 2006, pour le cloud, il fallait longuement expliquer pourquoi « une entreprise de librairie fournirait du calcul », alors que l’IA est comprise beaucoup plus vite
- Le passage du simple chatbot intelligent à l’exécution de tâches internes en entreprise a certes demandé de la pédagogie, mais il a progressé relativement vite au regard du rythme des évolutions technologiques
- Les bascules de plateforme pour les startups se résument en quatre vagues : Internet, cloud, mobile, IA
- Aux débuts de YC, le cloud d’AWS a permis de lancer une entreprise avec peu de capital
- La barrière qui consistait à louer de l’espace en colo, assembler des serveurs et lever beaucoup d’argent en amont a fortement reculé
- L’idée qu’il fallait déjà dépenser des dizaines de milliers de dollars rien qu’en serveurs a volé en éclats, ouvrant la voie à une création d’entreprise avec peu de capital
- Les startups ont plus de chances de battre les grandes entreprises lors des grands changements de plateforme lorsqu’elles peuvent avancer avec des cycles plus courts et moins de capital
- Aujourd’hui, la dynamique semble similaire avec l’IA
- En interne chez YC, la vitesse de croissance du chiffre d’affaires évolue tellement plus vite qu’auparavant que les attentes de revenus pour les meilleures startups changent déjà entre le début et la fin d’une même batch
- AWS est encore présenté comme le cloud utilisé par de nombreuses startups en phase d’expansion
- scale, availability, security, reliability, ainsi que l’écosystème de partenaires ISV et la base clients d’AWS, sont regroupés comme des atouts clés
- Au-delà des crédits, AWS fournit aussi des conseils en architecture système et en go-to-market, et continue de traiter les startups comme un pilier stratégique
- L’entreprise rencontre directement des startups chaque trimestre pour vérifier si ses produits répondent réellement à leurs besoins
- Aujourd’hui, chez les startups, il est très courant de voir le schéma suivant : AWS pour le compute généraliste, l’API OpenAI pour l’IA
Bedrock Managed Agents et orientation produit commune
- Les Bedrock Managed Agents ne se limitent pas à faire entrer les modèles OpenAI dans AWS ; ils sont présentés comme l’intégration des modèles frontier d’OpenAI dans le runtime d’agents natif AWS
- Des éléments opérationnels comme identity, permission state, logging, governance et deployment y sont intégrés ensemble
- La prochaine étape de l’IA dépasse le simple échange texte-entrée / texte-sortie pour aller vers des agents stateful capables d’effectuer un vrai travail à l’intérieur de l’entreprise
- L’expression « virtual co-workers » n’est pas parfaite, mais elle est traitée comme la moins maladroite
- Le secteur n’a pas encore complètement arrêté la manière de nommer ni d’utiliser cet objet
- Codex est présenté comme un exemple clair de cette évolution
- L’essentiel est que le résultat souhaité se produise réellement, et l’utilisateur ne cherche plus à distinguer ce qui relève du modèle ou du harness
- Le degré d’intégration entre le modèle et le harness est présenté comme le cœur des performances d’un agent
- tools, state, memory, permissions et evals déterminent concrètement le fonctionnement réel
- Ce n’est pas exactement la même chose que le pre-training, mais l’intégration se joue à la fois au niveau du post-training et du prompt
- Le tool-calling, qui semblait au départ séparé, s’intègre plus profondément au processus d’apprentissage avec le temps
- À l’avenir, model et harness, mais aussi pre-training et post-training, pourraient être encore plus fortement couplés
- Le niveau de maturité du secteur est décrit comme encore si précoce qu’il est comparé à l’époque du Homebrew Computer Club
- Le travail commun d’AWS et d’OpenAI vise à regrouper des éléments que les clients devaient jusqu’ici assembler eux-mêmes, afin de leur permettre d’atteindre plus vite la valeur en environnement d’entreprise
- Les clients veulent que le modèle et l’agent fonctionnent bien ensemble tout en conservant la mémoire
- Ils veulent relier non seulement des outils tiers, mais aussi leurs propres outils, leurs propres données, leurs propres applications et leur propre environnement opérationnel
- Jusqu’à présent, ce travail d’intégration relevait de chaque client
- Dans ce produit commun, identity est intégré nativement, et l’authentification aux bases de données est conçue pour s’effectuer à l’intérieur du VPC AWS
- L’objectif n’est pas seulement d’améliorer la commodité, mais aussi de rendre possible ce qui, jusqu’ici, ne pouvait pas être mis en œuvre de manière fiable même au prix d’un assemblage pénible
- Aujourd’hui, les développeurs sont décrits comme subissant trop de friction et de travail manuel lorsqu’ils essaient de construire quelque chose à partir des modèles
- Même avec ChatGPT, il reste beaucoup de copier-coller et de combinaisons de prompts complexes
- Cette friction doit disparaître, mais on reste encore à un stade très précoce et inconfortable
- Cette coopération résulte aussi de la rencontre entre une demande de clients déjà présents sur AWS qui veulent de l’OpenAI technology, et la volonté d’OpenAI d’élargir son accessibilité aux clients AWS
- Au-delà de la simple distribution de modèles, l’accent est mis plus fortement sur la création d’un nouveau produit en commun
- Dans un an, l’idée serait que l’on retienne davantage l’importance de ce nouveau produit que le simple fait qu’« il est devenu possible d’accéder aux modèles OpenAI via AWS »
- Au niveau du modèle, du harness et des capabilities, on se rapproche d’une nouvelle manière de calculer plutôt que d’un simple appel d’API de modèle existant
AgentCore, Managed Agents, modèle d’exploitation
- AgentCore est présenté comme un ensemble de primitives d’agent telles que la mémoire, un environnement d’exécution sécurisé et l’autorisation
- Bedrock Managed Agents se positionne comme un produit de niveau supérieur, construit conjointement par AWS et OpenAI, qui combine des modèles OpenAI et plusieurs éléments opérationnels au-dessus des composants AgentCore
- Il est possible de créer directement un agentic workflow avec AgentCore seul
- certains clients l’utilisent déjà en production pour des cas d’usage réels
- Il est déjà possible d’utiliser AgentCore tout en appelant des modèles OpenAI en externe
- ce n’est pas une intégration native dans Bedrock, mais certains clients appellent directement des modèles OpenAI hébergés sur d’autres clouds
- AWS traite cela comme un écosystème ouvert
- l’approche consistant à combiner soi-même les capacités souhaitées pour construire sa propre solution pourra continuer à l’avenir
- à l’image des personnes qui montent elles-mêmes leur ordinateur, AWS estime qu’il y aura durablement des builders voulant créer leurs propres agents
- Beaucoup de clients veulent une approche plus simple qui évite d’avoir à configurer eux-mêmes toutes les briques, et cette collaboration vise précisément cette demande
- L’utilisation d’OpenAI sur Azure est décrite comme une expérience d’accès direct par API, tandis que l’annonce d’Amazon est présentée comme un managed service distinct
- Ce service de managed agents est actuellement mené en exclusivité avec Amazon
- il ne s’agit pas simplement d’utiliser une API Amazon, mais d’un véritable joint effort porté ensemble par les deux entreprises
- Les données clients restent dans AWS
- l’ensemble demeure dans le VPC et est protégé à l’intérieur de l’environnement Bedrock
- Les modèles OpenAI s’exécutent via Bedrock, avec une infrastructure mêlant Trainium et GPU
- cela s’explique en partie par des questions de calendrier et en partie par des questions de capabilities
- l’orientation annoncée est qu’une part croissante basculera vers Trainium avec le temps
- OpenAI se dit également très enthousiaste à l’idée que ses modèles tournent sur Trainium
- Lorsque des modèles OpenAI sont exploités dans l’environnement AWS, AWS assure le support de premier niveau
- les clients obtiennent de l’aide via le support AWS et leurs responsables de compte AWS
- pendant la phase de mise en place, des équipes d’OpenAI participent aussi pour cadrer ensemble les modes d’usage
- les bugs nécessitant l’intervention d’OpenAI sont escaladés par AWS vers OpenAI
Local, cloud, autorisations et frontières de sécurité
- Codex a d’abord commencé dans le cloud, mais le mouvement observé est revenu dans les faits vers une exécution locale
- Le local est plus simple parce que l’environnement est déjà là
- la configuration de l’ordinateur, les données et l’accès aux fichiers sont déjà en place, ce qui réduit la configuration supplémentaire
- même si ce n’est pas l’état final, à court terme la facilité d’usage pèse davantage
- À long terme, les agents devraient s’exécuter dans le cloud, avec un basculement utile vers le cloud pour les tâches très lourdes ou lorsqu’il faut pouvoir fermer son ordinateur
- Le client local conserve néanmoins des avantages
- comme une app iPhone qui possède aussi des composants locaux, il offre des bénéfices en matière de connectivity, latency, local compute, ainsi que d’accès aux fichiers et aux applications
- en revanche, un laptop ne peut pas faire de scale-out, ce qui rend ses limites de scalabilité évidentes
- Dans les environnements d’entreprise, l’approche locale devient plus difficile
- dès qu’il faut partager entre deux personnes, la difficulté augmente
- il devient plus complexe de gérer les permissions et les security boundaries
- au final, un bridge entre le local et le cloud devient nécessaire
- Il est naturel de développer des agents dans le même environnement que celui où ils seront déployés, et la conception de l’identité et des permissions reste un domaine encore très inachevé
- faut-il que l’agent utilise directement le compte d’une personne ?
- doit-il avoir son propre compte distinct ?
- comment distinguer plusieurs agents lorsqu’on en déploie plusieurs ?
- Il n’existe même pas encore de primitive du type « l’agent de Ben se connecte comme Ben tout en laissant une trace indiquant qu’il s’agit d’un agent et non du vrai Ben »
- À mesure que les agents s’intègrent à la force de travail et que leur autonomie et la complexité de leurs tâches augmentent, les modèles de contrôle d’accès et d’autorisation au sein des entreprises comme sur l’ensemble d’Internet devront eux aussi évoluer
- Plus on se déplace vers le cloud, plus l’organisation centrale peut exercer un contrôle de sécurité fort
- les clients aiment le potentiel des modèles puissants et des agents, mais leur plus grande crainte reste qu’une erreur puisse provoquer un désastre pour l’entreprise
- il est possible de contrôler les frontières en les faisant fonctionner dans un VPC, en les faisant passer par une gateway spécifique, ou en leur attribuant des autorisations comparables à des rôles au sein de l’environnement
- il est rappelé que l’architecture de sécurité construite par AWS en 20 ans a permis son utilisation non seulement par des startups, mais aussi par des banques mondiales, des organismes de santé et des administrations publiques
- pour les organisations les plus averses au risque, les guardrails dans un sandbox peuvent au contraire élargir l’adoption
Stack IA et architecture d’entreprise
- Les clients entreprises veulent une couche de gestion permettant de relier données et agents, tout en assurant le suivi des dépenses en tokens et la supervision
- Les grands comptes demandent de façon cohérente un ensemble regroupant agent runtime environment, couche de gestion et workspace pour les employés
- Codex est cité comme exemple de workspace pour les employés
- la demande pour ce type de package est assez constante, mais l’offre doit encore être davantage construite
- Il y a consensus sur la nécessité d’un middleware / middle layer traversant les multiples bases de données, applications SaaS et données dispersées au sein des organisations
- dans ce contexte, OpenAI Frontier est également mentionné
- Dans la structure actuelle, il semble nécessaire d’avoir à la fois une user agent layer chargée des interactions utilisateur et une couche de gestion côté entreprise
- côté utilisateur, on interagit avec plusieurs agents et on construit des systèmes où ces agents dialoguent entre eux
- côté entreprise, les différents contrôles nécessaires lorsque l’IA explore le système de fichiers ou d’autres ressources sont importants
- Cela dit, si les modèles deviennent suffisamment intelligents, il reste possible de reconcevoir l’ensemble de cette structure
- l’actuelle architecture à deux couches est adaptée au monde tel qu’il est aujourd’hui
- on ne sait pas encore exactement à quoi ressemblera l’architecture future
- à un certain moment, on pourra peut-être conclure que « cela devrait simplement faire partie du modèle »
- c’est en observant ce que les clients utilisent réellement et ce qu’ils construisent que l’on apprendra ce qu’il faut rendre plus simple, plus rapide et meilleur
Demande, capacité et stratification des modèles
- OpenAI investit beaucoup d’achats de compute et des efforts importants dans cette activité, et en attend des revenus à la hauteur
- La demande en intelligence est présentée comme une demande pratiquement sans plafond, dès lors que le prix baisse suffisamment
- À ce stade, la contrainte principale semble être davantage le manque de capacité que le prix
- quel que soit le prix, il y a plus de clients voulant davantage de capacity et prêts à payer plus que de clients discutant les tarifs
- il est affirmé avec conviction que le coût de l’intelligence au niveau actuel baissera fortement à l’avenir
- Le fait qu’une part importante de la demande du marché se concentre sur l’absolute frontier est présenté comme un signal plus surprenant que prévu
- contrairement à l’hypothèse selon laquelle les générations précédentes de modèles suffiraient, la tendance montre une préférence persistante pour les modèles de pointe les plus récents
- De la même manière que les coûts du compute ont fortement baissé pendant des décennies sans empêcher la hausse continue des volumes vendus, l’IA pourrait suivre une trajectoire similaire d’expansion de la demande
- Aujourd’hui, pour accomplir des tâches réellement utiles, il faut souvent des modèles frontier, ce qui explique que tout le monde les veuille
- Avec le temps, on s’attend à l’émergence d’une structure mixte où coexisteront des modèles petits, bon marché et rapides et des modèles géants
- certains petits modèles pourraient finir par traiter, avec le temps, des tâches que même les modèles OpenAI les plus avancés d’aujourd’hui ne savent pas encore gérer
- les modèles géants pourraient viser des problèmes d’une autre ampleur, comme le traitement du cancer
- Nous sommes encore au tout début, et le fait de voir émerger en même temps un tel niveau de demande et une telle croissance élargit fortement le champ des possibles pour la suite
Trainium, abstraction et compute interne
- À la question de savoir si, contrairement à son nom, Trainium pourrait à l’avenir surtout gagner en importance du côté de l’inférence, AWS a répondu qu’il est utile à la fois pour l’entraînement et l’inférence
- Il a été souligné que les clients y accéderont surtout via l’abstraction de services managés, plutôt qu’en manipulant Trainium directement
- De la même manière que la plupart des clients n’interagissent pas directement avec les GPU, lorsqu’ils utilisent OpenAI ou Claude, ils interagissent en réalité avec une interface, et non avec des GPU, Trainium ou TPU
- À l’avenir aussi, les puces accélératrices fonctionneront probablement derrière un petit nombre de grands modèles et services
- Il pourra peut-être y en avoir 5, 10, 20 ou 100, mais on ne s’attend pas à ce que le nombre de personnes les programmant directement augmente jusqu’à atteindre des millions
- L’entraînement des modèles coûte très cher et exige aussi une forte expertise opérationnelle
- L’équipe d’OpenAI excelle à extraire de la valeur de grands clusters de calcul, mais il existe peu d’équipes disposant de telles capacités
- OpenAI a indiqué qu’au départ l’entreprise se voyait comme une token factory, avant de corriger immédiatement en disant qu’elle est plus proche d’une intelligence factory
- Ce que veulent les clients, ce n’est pas un nombre de tokens, mais recevoir suffisamment d’unités d’intelligence de la meilleure qualité possible, avec assez de capacité et au coût le plus bas
- GPT-5.5 a été présenté comme un exemple où le coût par token est plus élevé que pour 5.4, mais où le nombre de tokens nécessaires pour obtenir la même réponse est bien plus faible
- Les utilisateurs se soucient davantage de savoir si la tâche souhaitée a été accomplie que du nombre de tokens consommés par une réponse
- Qu’un plus grand modèle tourne avec moins de tokens, qu’un plus petit modèle en utilise davantage, ou que ce soit sur GPU ou Trainium, les clients veulent avant tout plus d’utilité pour moins de coût plutôt que de s’intéresser à l’implémentation interne
- Même lors de la création de nouveaux agents dans Codex ou dans le Stateful Runtime Environment pour Amazon Bedrock, l’utilisateur ne devrait pas avoir à se soucier du choix du compute sous-jacent
- La baisse de l’usage des tokens est principalement le résultat d’améliorations des modèles, l’effet du harnais n’étant reflété qu’en partie
- À la question de savoir si AWS compte étendre des services managés similaires à d’autres modèles, l’entreprise a seulement répondu qu’elle se concentre pour l’instant sur sa collaboration avec OpenAI
Évolution du marché et stratégie de plateforme
- ChatGPT est considéré comme le premier grand nouveau produit grand public depuis Facebook
- OpenAI a indiqué avoir obtenu de très bons résultats non seulement avec ChatGPT, mais aussi avec son API et surtout avec Codex
- Il a aussi été rappelé qu’auparavant, l’attention portait davantage sur la possibilité qu’une nouvelle interface linguistique change la manière de trouver des informations sur Internet
- Google reste considéré comme une phenomenal company en matière de breadth et de depth
- AWS a dès le départ adopté une stratégie centrée sur les partenaires, visant une structure dans laquelle si les partenaires réussissent, AWS réussit aussi
- Cela diffère d’une approche où tout doit être possédé en direct, et se rapproche davantage d’une logique consistant à agrandir le gâteau
- Les clients doivent pouvoir choisir ce qui leur convient le mieux, que ce soit un produit maison ou celui d’un partenaire
- Bedrock a également été conçu sur cette base, afin de prendre en charge un large éventail de modèles et de fonctions variées
- AWS a maintenu une approche similaire dans d’autres domaines, comme les bases de données et les plateformes de calcul
- AWS estime que, dans la couche infrastructure, l’entreprise pousse fortement ses propres composants clés comme S3, mais qu’à mesure que l’on remonte dans la stack, il est plus avantageux pour les clients d’accueillir un écosystème de partenaires plus large
- La répartition des rôles entre les deux entreprises est la suivante : OpenAI pour le Software, AWS pour l’Infrastructure, et ensemble la création de la Platform
- Les capacités des modèles devant progresser rapidement au cours de l’année à venir, les deux entreprises estiment que c’est le bon moment pour construire une plateforme ensemble dès maintenant
1 commentaires
Commentaires Hacker News
parce qu’on pouvait y accéder via Amazon, qui jouait le rôle d’intermédiaire « de confiance ». OpenAI est interdit et n’inspire pas confiance
Je ne suis pas forcément d’accord avec l’analyse de leurs équipes juridiques, mais elles ont probablement lu les conditions d’utilisation bien plus attentivement que moi
Il reste à voir si cette annonce va changer la donne, mais à l’heure actuelle, OpenAI donne vraiment l’impression d’avoir du retard sur plusieurs plans
Cela dit, dans l’industrie de l’IA, un écart de 2 à 8 semaines n’est pas non plus énorme, donc c’est peut-être davantage un problème de perception qu’un impact réel
Au moins dans ma bulle informationnelle, la réputation d’OpenAI est au plus bas à cause de Sam Altman, et l’entreprise paraît peu éthique ; avec en plus des demandes liées aux fabs, elle semble assez instable, donc elle n’est pas très appréciée
Le simple fait d’utiliser AWS ne suffit pas, et même si AWS fait tourner le modèle, il faut quand même négocier séparément si on veut un vrai ZDR [0]
[0]: https://platform.claude.com/docs/en/build-with-claude/claude...
Les deux y ont clairement gagné, et la culture de boucle de feedback des clients AWS a probablement aidé Anthropic à se structurer plus vite pour répondre aux besoins enterprise
L’offre Azure existe déjà depuis un moment
Anthropic, à l’inverse, se concentre sur une seule chose, ce qui explique sans doute pourquoi l’entreprise reste en tête sur les benchmarks SWE
AWS précise que les entrées et sorties ne sont pas partagées avec le fournisseur du modèle et ne sont pas utilisées pour l’entraînement du modèle de base [1]
En plus, OpenAI a fait l’objet en mai 2025 d’une injonction de conservation dans l’affaire NYT v. OpenAI, et le tribunal lui impose de conserver pratiquement indéfiniment les journaux de sortie de ChatGPT
Cela inclut même des conversations supprimées par les utilisateurs qui auraient autrement été effacées sous 30 jours [2]
Pour les organisations soumises à HIPAA/GDPR, cela les exclut d’emblée
[1] https://aws.amazon.com/bedrock/faqs/
[2] https://openai.com/index/response-to-nyt-data-demands/
Les jeux politiques et les revues bureaucratiques servent surtout, à mon avis, à occuper les niveaux inférieurs avec des miettes de fonctionnalités et de l’opérationnel
Si le modèle est suffisamment proche d’une variante OSS de GPT, ça n’a peut-être pas été si compliqué que ça
La quantification, le silicium de serving personnalisé, le batching et d’autres optimisations d’inférence peuvent modifier le comportement par rapport à la version du fournisseur d’origine
Cet article ne traite pas exactement du même cas, puisqu’il porte sur Llama open weights et auditable, mais il illustre bien des symptômes similaires
https://arxiv.org/pdf/2410.20247
Il semble aussi possible de dégager une marge assez confortable là-dessus
Je me demande si c’est directement lié au mouvement de séparation avec Microsoft
Rien qu’autour de moi, dans les déploiements enterprise sérieux, OpenAI est presque ignoré, parce que l’offre Azure n’est pas terrible et qu’il n’existe pas vraiment d’autre voie adaptée aux entreprises
On dirait qu’OpenAI a compris qu’il était dangereux de continuer à laisser le marché enterprise à la combinaison Anthropic + AWS, et s’est mis à réagir pour recoller au peloton
https://news.ycombinator.com/item?id=47921248
Dans les secteurs régulés comme la finance ou la santé, beaucoup ont déjà des contrats AWS avec des engagements de résidence des données
OpenAI sur Bedrock peut permettre à ces organisations de ne pas avoir à négocier un DPA séparé avec OpenAI, ce qui pourrait être une avancée bien plus importante qu’il n’y paraît sur le papier
Cela fait un sous-traitant de moins, et comme les données sont déjà dans AWS, il y a moins d’inquiétude à l’idée de les envoyer ailleurs
À moins qu’AWS n’ait enfin cédé et ajouté une compatibilité avec l’API OpenAI pour rendre Bedrock un peu plus utilisable
Responses et Chat Completions sont pris en charge ; voir ici https://docs.aws.amazon.com/bedrock/latest/userguide/endpoin...
Rien que sur HN cette fois, quatre liens vers l’annonce sont apparus simultanément, ce n’est pas un hasard
Quand une mauvaise phrase au mauvais moment peut faire vaciller des dizaines de milliards de dollars d’investissements, le message doit forcément être calibré avec énormément de soin et diffusé par étapes