Disponibilité générale de Windows ML : extension de l’IA locale sur l’ensemble des appareils Windows

(blogs.windows.com)

4 points par GN⁺ 2025-09-28 | 1 commentaires | Partager sur WhatsApp

Windows ML est désormais disponible en version générale, standardisant l’inférence on-device sur CPU, GPU et NPU ainsi que la gestion des modèles et des dépendances, afin d’améliorer l’efficacité des déploiements en production
Dans le flux d’IA hybride qui combine cloud et client, Windows 11 fournit au niveau de l’OS un runtime IA unifié pour l’inférence locale
Grâce à la compatibilité avec ONNX Runtime et à la répartition automatique des Execution Providers (EP), l’optimisation selon le matériel est abstraite, avec à la clé une réduction de la taille des applications et la prise en charge des mises à jour incrémentales
En collaboration avec AMD, Intel, NVIDIA et Qualcomm, Windows distribue et enregistre les EP de chaque fournisseur, tout en offrant un ciblage précis comme la définition de politiques d’appareil pour la consommation énergétique et les performances
Inclus par défaut avec Windows App SDK 1.8.1+ et sur Windows 11 24H2 ou version ultérieure, avec un onboarding simplifié via des outils comme AI Toolkit for VS Code et AI Dev Gallery

Vue d’ensemble : objectif et positionnement de Windows ML

Windows ML est un runtime d’inférence IA on-device intégré à Windows 11, conçu comme une couche standard d’inférence locale à l’ère de l’IA hybride
- Il sert de couche de base pour Windows AI Foundry et fournit une prise en charge élargie du silicium via Foundry Local
- Il vise à atténuer les coûts, la latence et les enjeux de confidentialité liés au cloud, tout en offrant une expérience centrée sur le temps réel, la sécurité et l’efficacité

Composition du runtime : ONNX, EP et modèle de distribution

Compatibilité avec ONNX Runtime (ORT), permettant de réutiliser tels quels les API et workflows ORT existants
- Windows prend en charge le déploiement et la maintenance d’ORT et des Execution Providers, ce qui évite de les embarquer dans l’application
- Les EP servent de pont d’optimisation entre le runtime et le silicium ; ils sont développés et gérés par chaque fournisseur, puis téléchargés/enregistrés dynamiquement par Windows
L’infrastructure API apporte trois avantages : simplification du déploiement, réduction de l’overhead et maintien de la compatibilité
- L’EP adapté à l’appareil est détecté et installé automatiquement, ce qui permet de réduire la taille de l’application de plusieurs dizaines à plusieurs centaines de Mo
- Grâce à des processus de certification et de conformité, l’objectif est de préserver la précision entre les builds tout en intégrant des mises à jour continues
Avec Advanced Silicon Targeting, il est possible de définir des politiques d’appareil pour le NPU (basse consommation) ou le GPU (hautes performances)
- L’option AOT (précompilation) du modèle offre aussi un moyen de simplifier l’expérience finale pour l’utilisateur

Optimisations des partenaires silicium

AMD : intégration de Windows ML sur l’ensemble de Ryzen AI, accélération via Vitis AI EP pour NPU, GPU et CPU, avec l’objectif d’offrir des expériences d’IA locale évolutives
Intel : EP combiné à OpenVINO pour une sélection optimisée du XPU (CPU, GPU, NPU), avec pour objectif d’améliorer efficacité et performances sur les PC basés sur Core Ultra
NVIDIA : TensorRT for RTX EP exploite la bibliothèque Tensor Core dédiée aux GPU RTX afin de générer des moteurs d’inférence optimisés selon l’appareil
- NVIDIA affirme une accélération de l’inférence de plus de 50 % par rapport à DirectML et met en avant la facilité de déploiement vers plus de 100 millions d’appareils Windows RTX
Qualcomm Technologies : accélération NPU via QNN EP sur Snapdragon X Series, avec prise en charge aussi des chemins GPU et CPU via l’intégration ORT
- L’entreprise affiche sa volonté d’étendre ce framework unifié aux Copilot+ PC et à la prochaine génération Snapdragon X2

Exemples d’adoption dans l’écosystème

Adobe Premiere Pro / After Effects : accélération locale sur NPU de la recherche média, du balisage audio et de la détection de scènes, avec un plan de migration progressive des modèles on-device vers Windows ML
BUFFERZONE : analyse de pages web en temps réel pour prévenir le phishing et les fraudes, dans un scénario de sécurité qui évite l’envoi de données sensibles vers le cloud
Reincubate Camo : amélioration de la qualité vidéo grâce à de la vision en temps réel, notamment la segmentation d’image, en exploitant le chemin NPU sur tous les siliciums
Dot Vista (Dot Inc.) : application du contrôle vocal mains libres et de l’OCR à des scénarios d’accessibilité comme les environnements médicaux, en s’appuyant sur le NPU des Copilot+ PC
Wondershare Filmora : prévisualisation et application en temps réel de Body Effects (Lightning Twined, Neon Ring, etc.), optimisées pour les NPU d’AMD, Intel et Qualcomm
McAfee : application de l’inférence locale à la détection de deepfakes et d’arnaques, pour renforcer la réponse aux environnements de réseaux sociaux
Topaz Photo : fonctions avancées d’amélioration photo par IA en local, comme la netteté et la restauration de la mise au point

Outils développeur et onboarding

AI Toolkit for VS Code unifie la conversion PyTorch→ONNX, ainsi que la quantification, l’optimisation, la compilation et l’évaluation
- L’objectif est un build unique ciblant Windows ML, afin de réduire au minimum la logique de branchement pour plusieurs cibles
Dans AI Dev Gallery, il est possible d’explorer de manière interactive des exemples de modèles personnalisés
- L’outil fournit un espace de travail adapté à l’exploration de scénarios IA basés sur des modèles locaux et au prototypage rapide

Conditions de démarrage et cibles de déploiement

Windows App SDK 1.8.1+ inclut Windows ML, avec une prise en charge des appareils sous Windows 11 24H2 ou version ultérieure
- Après mise à jour vers la dernière version de Windows App SDK, le parcours est simple : appel de l’API Windows ML → chargement du modèle ONNX → démarrage de l’inférence
- La documentation détaillée, les API et les exemples sont indiqués via ms/TryWinML et ms/ai-dev-gallery

Portée technique et implications

L’OS prend en charge le cycle de vie d’ORT et des EP, établissant une architecture où l’application peut se concentrer sur le modèle et la logique légère d’inférence
- En absorbant la fragmentation matérielle et en automatisant l’optimisation des performances et de la consommation énergétique, l’approche réduit la complexité du développement et du déploiement du point de vue de l’utilisabilité
En proposant à la fois une conception prioritairement orientée NPU et un chemin GPU haute performance, Windows ML pose les bases de l’IA locale pour répondre aux exigences d’hors ligne, de confidentialité et de coût
- Le modèle opérationnel présenté cherche aussi une cohérence de précision via les différences de caractéristiques/performance des EP fournisseurs ainsi que la certification et la conformité Windows
Du point de vue de l’écosystème, l’adoption annoncée par des applications de référence dans les domaines de la vidéo, de la sécurité, de l’accessibilité et de la création laisse entrevoir une expansion rapide de l’IA on-device sur Windows
- Les développeurs peuvent espérer accélérer la mise sur le marché grâce à un pipeline de préparation du modèle (conversion, quantification) → définition de la politique EP → automatisation du déploiement

Points d’attention et limites à observer

La qualité de l’optimisation des EP et la gestion des écarts de performances/précision selon les appareils restent des enjeux clés
- Les stratégies de cache et de mise à jour entre l’AOT des modèles et la distribution dynamique des EP, ainsi que le maintien de la compatibilité, nécessitent une gestion rigoureuse des releases
Les chevauchements et répartitions de rôle avec DirectML, les SDK fournisseurs existants et les runtimes cross-platform influencent les décisions d’architecture
- Pour les gammes de produits ciblant plusieurs OS, il faut évaluer le compromis entre un cœur d’inférence commun et un chemin spécifique à Windows

Conclusion

La disponibilité générale de Windows ML marque un tournant progressif qui renforce Windows 11 comme environnement d’exécution de référence pour l’IA locale
- En combinant abstraction matérielle, automatisation du déploiement et intégration des outils, la plateforme abaisse les barrières à la mise en production et fournit une base pour maximiser l’usage des NPU/GPU, en améliorant réactivité, confidentialité et efficacité des coûts
- À mesure que l’adoption par les applications de référence et les optimisations des EP fournisseurs progresseront, l’IA on-device devrait s’étendre rapidement dans l’ensemble de l’écosystème Windows

1 commentaires

GN⁺ 2025-09-28

Avis Hacker News

Ollama suivait au départ une orientation open source du type « exécuter simplement des modèles en local », mais avec son expansion récente vers des fonctionnalités comme la recherche web payante, on a l’impression que cette pureté s’est estompée ; à l’inverse, Windows ML vise une intégration profonde à l’OS, mais sa dépendance exclusive à l’écosystème Windows rappelle DirectX ; la vraie question est maintenant de savoir s’il existera des alternatives à vLLM/ONNX ou à l’exécution directe via CUDA/ROCm, ou si l’on ne fera au final qu’échanger une dépendance fournisseur contre une autre
- Ollama se concentre sur les LLM (grands modèles de langage) ; quand on voit les exemples variés cités dans l’article, comme l’upscaling d’image avec Topaz Photo de Topaz Labs, il faut garder à l’esprit que l’orientation de cette technologie est différente
System ONNX peut être assez séduisant du point de vue des applications Windows, à condition toutefois que le backend fonctionne de manière fiable sur la plupart des systèmes ; par exemple, chez AMD, il existe trois options — ROCm, MIGraphX et Vitis — mais je n’ai jamais réussi à en faire tourner correctement aucune ; comme MIGraphX n’est plus indiqué comme expérimental, je pense réessayer
Je me demande lequel est réellement le plus simple entre Windows ML et l’approche Ollama + téléchargement local de LLM, et surtout, du point de vue de la confidentialité, combien de données personnelles sont transmises à Microsoft lors de l’utilisation de Windows ML
- Windows ML abstrait le code afin qu’il ne dépende pas d’un matériel précis, ce qui permet d’utiliser des modèles LLM locaux sur différents types de matériel comme le CPU, le GPU ou le NPU ; cette technologie est une évolution de l’ancien DirectML (DirectX for ML)
- Ollama ne prend pas en charge les NPU
Je me demande comment sont prises en charge les couches personnalisées, en particulier les nombreuses variantes adoptées par différentes entreprises, comme la (flash) attention ; si MS ne les implémente pas dans le runtime, est-ce que cela signifie qu’on ne pourra pas exécuter certains modèles tant que ce ne sera pas fait, ou qu’il faudra se contenter de versions modifiées ?
À lire la description « Windows ML est un runtime d’inférence IA intégré, optimisé pour l’inférence de modèles on-device, qui permet aussi bien aux développeurs débutants qu’expérimentés de créer plus facilement des applications basées sur l’IA », cette annonce ressemble fortement à la récente annonce d’Apple consistant à « ouvrir à tous les développeurs l’accès au LLM on-device au cœur d’Apple Intelligence »
Avec les nouvelles fonctionnalités Apple Intelligence récemment présentées par Apple, j’ai l’impression qu’au final, quel que soit l’appareil, développeurs comme consommateurs y gagnent, car cela permet de créer et d’utiliser des applications centrées sur la confidentialité
- Ce Windows ML est une évolution de Direct ML ; en tenant compte du biais historique vers le C++ comme avec DirectX, les nouvelles API peuvent aussi être utilisées en C#, C++ et Python via les projections WinRT
- Je ne pense pas que ce soit exactement la même chose ; le cœur de l’annonce autour de Windows ML, c’est plutôt « on peut exécuter tous les modèles »

Disponibilité générale de Windows ML : extension de l’IA locale sur l’ensemble des appareils Windows

Vue d’ensemble : objectif et positionnement de Windows ML

Composition du runtime : ONNX, EP et modèle de distribution

Optimisations des partenaires silicium

Exemples d’adoption dans l’écosystème

Outils développeur et onboarding

Conditions de démarrage et cibles de déploiement

Portée technique et implications

Points d’attention et limites à observer

Conclusion

À lire aussi

1 commentaires

Avis Hacker News