3 points par ragingwind 3 시간 전 | 4 commentaires | Partager sur WhatsApp

La keynote de la conférence Quen, organisée pour la première fois à Singapour, a servi de scène à Alibaba Cloud pour officialiser sa transition vers « l’ère de l’IA agentique ». Des représentants du gouvernement de Singapour, de la direction d’Alibaba Cloud et de partenaires comme Nous Research, Fireworks AI, NVIDIA et PicsArt sont montés sur scène pour annoncer des évolutions touchant les modèles, l’infrastructure, les outils et l’ensemble de l’écosystème. Le message central était la volonté de construire une infrastructure full-stack capable de transformer « les tokens en intelligence, l’intelligence en action, et l’action en valeur métier ».

Principaux points annoncés

  • Coopération avec le gouvernement de Singapour : le ministre d’État Desmond Tan a annoncé un partenariat avec Alibaba Cloud, NTUC et ST Telemedia Global Data Centres afin de proposer une formation pratique à l’IA générative et agentique à plus de 1 000 entreprises, développeurs et étudiants locaux. Il a insisté sur le principe selon lequel « l’IA ne remplace pas les travailleurs, elle travaille pour eux ».

  • Présentation de Quen 3.7 Max : un nouveau modèle de fondation a été dévoilé, avec de fortes améliorations en codage, usage d’outils (prise en charge native du protocole MCP), multimodalité et exécution de tâches de longue durée (long-horizon). Alibaba affirme qu’il atteint des performances de tout premier plan sur des benchmarks majeurs comme SWE-Bench, IFBench et HLE.

  • Annonce de Quen Cloud : lancement de quencloud.com, une passerelle dédiée aux agents. Le service propose plus de 200 modèles, une tarification au token (de l’offre Standard à 30 dollars par mois jusqu’au plan Max), ainsi que des fonctions d’automatisation des workflows basées sur Skills et CLI.

  • Coder et Muron : présentation de Coder, un outil de vibe coding à installer sur un laptop, et de Muron, un agent multi-domaines fonctionnant 24 heures sur 24 dans le cloud. Muron est déjà utilisé dans 43 pays et Alibaba a indiqué avoir aussi développé en interne Coder Works avec seulement 5 personnes en 7 jours.

  • Infrastructure cloud agentique : présentation d’un sandbox basé sur MicroVM (démarrage en millisecondes, prise en charge de 10 000 sessions simultanées par tenant), ainsi que d’une stack full-stack couvrant l’identité des agents, la gouvernance, la sécurité, la mémoire et le data plane. MiniMax aurait obtenu sur cette base un démarrage de conteneur en 20 à 40 ms et une réduction du TCO de 40 %.

Différenciation technique

  • Intégration full-stack : Alibaba s’est présenté comme l’un des deux seuls hyperscalers à maîtriser en interne toutes les couches, du silicium (PPU propriétaire, CIPU de 5e génération) jusqu’aux modèles de fondation.
  • Cloud nativement orienté agents : au lieu de rester sur une architecture SaaS pensée pour des utilisateurs humains, l’entreprise redessine tout le control plane autour d’API et d’infrastructures directement appelées et utilisées par des agents.
  • Écosystème ouvert : Alibaba a rejoint la fondation PyTorch comme membre Platinum et vise un hub multi-modèles en accueillant dans son Model Studio même des fournisseurs concurrents comme Kimi, Zhipu, MiniMax, StepFun et Vidu.

Points mis en avant comme atouts

  • Efficacité des coûts : selon Alibaba, les offres au token améliorent la visibilité sur les coûts et le contrôle budgétaire, tandis que la sélection automatique des modèles dans Coder peut réduire la dépense en tokens jusqu’à 70 %.
  • Capacité d’exécution prolongée : Quen 3.7 Max aurait démontré des cas d’usage avec 35 heures d’exécution continue, plus de 1 000 appels d’outils et une accélération moyenne par 10.
  • Confiance et sécurité : Alibaba a souligné son inscription comme seul fournisseur d’Asie-Pacifique dans le Magic Quadrant 2025 de Gartner pour l’access management, ainsi que des mécanismes de sécurité à l’exécution comme un pare-feu pour agents et un ID guard.

Limites et défis soulevés

  • Difficulté à construire la confiance : Tommy Eastman, de Nous Research, a rappelé que la capacité à exécuter une même tâche de façon reproductible reste un défi majeur, et qu’une approche en trois étapes est nécessaire : qualité des modèles, human-in-the-loop et gouvernance entre agents.
  • Goulot d’étranglement mémoire : Fireworks AI a estimé que le principal goulet d’étranglement de l’inférence n’est pas le calcul mais la mémoire du cache KV, ce qui impose un stockage multi-niveaux et une refonte systémique.
  • Retour en grâce du CPU : NVIDIA a souligné que, du fait des appels d’outils sériels propres aux agents, la demande pour de nouveaux CPU à très forte performance mono-thread va exploser, remettant en cause les hypothèses de conception des CPU cloud actuels.

Exemples dans l’écosystème

  • PicsArt : sur une base de 130 millions d’utilisateurs, l’entreprise a intégré les modèles Quen Image, Wan et Happy Horse pour démontrer des workflows agentiques comme le casting de personas et la production de publicités vidéo. Elle affirme que l’adoption de Happy Horse a augmenté de 72 % le volume de génération vidéo.
  • Hackathon mondial : Alibaba a aussi annoncé simultanément le Quen Cloud Global Hackathon doté de 70 000 dollars de prix et les Happy Horse Awards 2026 pour attirer développeurs et créateurs.

Comparaison avec les conférences de Google

Google Cloud Next 2025 (avril) et Google I/O 2025 (mai), organisées un mois plus tôt, pointaient en pratique dans la même direction, mais avec des armes différentes.

  • La gamme d’annonces de Google : Gemini 2.5 Pro Deep Think, Agent Development Kit (ADK), protocole Agent2Agent (A2A), TPU Ironwood de 7e génération, lunettes Android XR, jusqu’à Veo 3 ; une avalanche d’annonces couvrant recherche, terminaux et infrastructure.
  • Les indicateurs d’usage de Google : AI Mode a atteint 150 millions d’utilisateurs dans 200 pays, l’app Gemini 400 millions d’utilisateurs mensuels, et le volume de tokens traités serait passé de 9,7 billions à 480 billions en un an, soit une multiplication par 50.
  • Différence d’orientation stratégique : là où Alibaba mise à la fois sur une intégration verticale full-stack et sur une stratégie de hub fondée sur l’open source (plus de 450 modèles, 2 milliards de téléchargements cumulés) et l’accueil de modèles concurrents, Google oppose une base d’utilisateurs écrasante, ses TPU propriétaires et une avance sur la normalisation avec A2A.
  • Les faiblesses de chacun : Google maintient Gemini comme produit closed et une grande partie de ses annonces reste au stade de « coming soon », tandis qu’Alibaba doit encore composer avec son accès limité aux marchés américain et européen, ainsi qu’avec les enjeux de fiabilité et de goulot d’étranglement mémoire évoqués lors des panels.
  • Domaines d’avantage à court terme : à court terme, Google garde l’avantage sur l’échelle utilisateur et les form factors, tandis qu’Alibaba se distingue sur le coût de l’infrastructure et hors des États-Unis.

Alibaba Cloud estime qu’il lui sera difficile de prendre l’ascendant à l’ère des agents en s’appuyant uniquement sur la compétitivité de ses modèles. L’entreprise pousse donc en parallèle une intégration verticale allant du silicium aux modèles, à l’infrastructure, aux outils et à l’écosystème, tout en menant une expansion horizontale qui inclut PyTorch et même des fournisseurs de modèles concurrents. Mais comme les discussions en panel ont rappelé à plusieurs reprises les défis fondamentaux liés à la fiabilité, aux goulots d’étranglement mémoire et à la refonte de l’architecture CPU, la capacité du cloud agentique à prouver dans de vraies charges de travail d’entreprise les performances et l’efficacité économique promises reste une question ouverte. L’événement a aussi clairement montré la volonté d’Alibaba de faire de Singapour sa base pour son expansion internationale et d’entrer plus frontalement en concurrence avec les hyperscalers américains.

4 commentaires

 
yupkidangju 1 시간 전

Même si l’IA rédige automatiquement, la leçon à retenir de cet article est qu’une vérification humaine reste indispensable.

 
jhk0530 3 시간 전

Ce n’est pas plutôt qwen que quen ? On dirait que l’IA a mal transcrit.

 
dydwls140 2 시간 전

Bien vu, moi j’ai lu qwen haha

 
tsboard 2 시간 전

C’est ça, moi aussi en lisant je me demandais : c’est quoi, Quen ??