Intégrer Claude aux Apple Foundation Models
(platform.claude.com)- Il s’agit d’un package Swift qui connecte Claude comme modèle côté serveur au framework Foundation Models d’Apple, permettant aux développeurs d’appeler Claude via le même chemin de code que pour les modèles on-device d’Apple
- Grâce au protocole
LanguageModelintroduit par Apple à la WWDC 2026, il devient possible, avec une API standard unique, de prototyper sur un modèle on-device puis de ne déléguer que les tâches complexes à un modèle cloud, dans une architecture hybride - Le point clé est la substituabilité du fournisseur : sans toucher à la logique de session, il suffit de changer la dépendance Swift Package pour passer d’Apple à Claude ou Gemini
- Ce package, publié par Anthropic sous licence Apache 2.0, constitue le premier exemple concret fonctionnel de cette idée selon laquelle « n’importe quel backend peut être connecté »
- Les requêtes vont directement de l’app à l’API Claude et Apple n’est pas sur le trajet : l’entreprise ne voit ni les prompts ni les réponses, et les coûts sont facturés directement au compte Anthropic
Pourquoi c’est important
- Jusqu’ici, intégrer un modèle de langage dans une app iOS supposait de souscrire à une API cloud distincte, gérer des clés, payer à l’usage par token et envoyer tous les prompts hors de l’appareil. À la WWDC 2026, Apple a apporté une réponse à cette friction de longue date
- Le framework Foundation Models s’étend pour appeler via une API Swift native unique aussi bien les modèles on-device d’Apple Intelligence que Private Cloud Compute ou des clouds tiers comme Claude et Gemini
- Anthropic a publié un package Swift implémentant ce nouveau protocole. Il sert à transmettre la main depuis les modèles on-device d’Apple vers Claude afin de traiter des workflows plus complexes
Ce qui change pour les développeurs
-
Changer de fournisseur sans modifier le code
- Après avoir prototypé une app avec un modèle on-device d’Apple, il devient possible de router les requêtes complexes vers Google Gemini ou Anthropic Claude, ou de basculer entre eux, simplement en mettant à jour la dépendance Swift Package Manager, sans modifier la logique de session ni le reste du code de l’app
- Les modèles on-device servent aux tâches rapides et locales comme le résumé ou l’extraction, avec transfert vers Claude uniquement lorsqu’il faut du raisonnement multi-étapes, de la génération de code, de la recherche web ou de l’exécution de code
- Dans les deux cas, c’est la même API
LanguageModelSession, et il suffit de changer l’argumentmodel:pour basculer
-
Handoff basé sur les types
- Après ajout au projet et connexion avec une clé API Anthropic, si l’on transmet à une requête Claude la sortie typée d’un modèle on-device d’Apple, le package gère ensuite le streaming, l’appel d’outils et les réponses structurées jusqu’aux vues SwiftUI
- L’utilisation est suffisamment simple pour retourner des valeurs Swift typées en seulement trois lignes de code grâce à la génération guidée
Structure de confidentialité et de coûts
- Les requêtes sont envoyées directement de l’app à l’API Claude, et Apple n’est pas dans le chemin de la requête : l’entreprise ne voit ni les prompts ni les réponses
- L’usage est facturé directement au compte Anthropic selon les tarifs standards de l’API
- L’app décide elle-même, à chaque session, si elle utilise Claude ou un modèle on-device d’Apple
Vue d’ensemble
- Apple prévoit de faire passer en open source cet été le framework Foundation Models, son API Swift native pour les modèles on-device lancée en 2025, et avec le nouveau protocole LanguageModel, pratiquement tous les modèles — qu’ils soient d’Apple ou de fournisseurs distants — peuvent alimenter
LanguageModelSessionderrière une API Swift unique - Avec ClaudeForFoundationModels, Anthropic fournit un exemple concret de ce principe de « connexion à n’importe quel backend » en matérialisant le pattern adaptateur
- Avec le système Dynamic Profiles, Apple permet aux apps de changer de modèle, d’outils et d’instructions au milieu d’une session, et présente cela comme la base de workflows multi-agents
- Cette intégration reste toutefois en bêta : elle exige iOS, iPadOS, macOS, visionOS, watchOS 27 et Xcode 27, et l’API peut encore évoluer avant la sortie officielle
1 commentaires
Avis sur Hacker News
Apple est en train de contrôler l’expérience utilisateur tout en faisant des LLM une commodité
C’est une stratégie très cohérente pour une entreprise de hardware : continuer à vendre les meilleures machines pour utiliser l’IA, et cela semble être un bon choix
Ils investissent des milliards de dollars dans l’infrastructure, mais ce sont d’autres entreprises, plus haut dans la pile, qui captent la valeur
Les entreprises qui ne s’adaptent pas finiront par se faire marteler par des scrapers web DIY basés sur l’IA bricolés par les utilisateurs, puis n’auront d’autre choix que de céder
Dire qu’ils transforment les LLM en commodité est sans doute juste, mais cela reste une fonctionnalité orientée utilisateur qu’ils peaufinent depuis plusieurs années
Un package Swift qui permet d’utiliser Claude comme modèle de langage côté serveur dans
Apple's Foundation Models framework: j’espérais l’inverse. J’aurais aimé que les fonctionnalités existantes de Claude Code puissent somehow tourner en local sur le Neural Engine de mon laptopAvec une puce M2 et 8 Go de RAM, c’est un rêve vain, mais j’y ai cru un instant
https://developer.apple.com/videos/play/wwdc2026/232/
https://www.youtube.com/watch?v=wykPErJ8M-8
Mais en pratique, on se retrouve avec Claude sans même savoir où il est hébergé. Ça peut être dans un datacenter de X-AI, quelque part chez Amazon, personne n’en sait rien
Ce n’est pas spécifique à Claude. Les développeurs peuvent aussi créer des apps qui appellent les modèles Gemini de Google hébergés sur serveur
À la WWDC, Apple a annoncé qu’ils ouvriraient Foundation Models framework à des fournisseurs tiers de modèles cloud. À partir d’iOS 27, macOS 27, iPadOS 27, visionOS 27 et watchOS 27, les fournisseurs de modèles pourront implémenter le nouveau protocole public
LanguageModelpour fournir une interface commune pour l’inférence de modèles. Google a permis d’utiliser les modèles Gemini dans Foundation Models framework via le Firebase Apple SDKCela permet une expérience de développement entièrement native. Les modèles Gemini hébergés dans le cloud peuvent se connecter directement à Foundation Models framework via la même API, et comme les modèles Apple sur appareil et les modèles Gemini hébergés dans le cloud se trouvent derrière une surface d’API commune, il devient facile de basculer entre inférence locale et inférence cloud selon le cas d’usage
https://blog.google/innovation-and-ai/technology/developers-...
language model protocol, et avant qu’on soit tous maudits par cette expression horriblement longue, il faut vite se mettre d’accord là-dessusJe suis content qu’Apple ait introduit ce type d’abstraction, mais ma principale inquiétude concerne les modèles locaux
Par exemple, même si l’on veut utiliser Gemma4, du point de vue de l’utilisateur, si 10 apps téléchargent chacune le même modèle, le téléphone gonfle inutilement
Je n’ai pas encore compris si Apple a prévu un moyen permettant à plusieurs apps d’utiliser le même modèle présent sur l’appareil. Il faut que ce soit possible sans bidouilles compliquées de namespace ou de permissions
Je n’ai rien vu qui laisse entendre cela
C’était faux tant que les modèles embarqués étaient très en retard, mais à long terme cela peut encore s’avérer juste
Plusieurs apps que j’utilise peuvent avoir besoin de Gemma 4 E4B, mais j’utilise des dizaines d’apps et les développeurs peuvent choisir parmi des centaines de modèles. Un cache partagé réduirait un peu l’empreinte si certains se recoupent, mais le problème de fond resterait entier. Si chaque app choisit son modèle, l’explosion de l’espace disque et du swapping mémoire est inévitable
Il est probablement préférable que le fabricant de l’appareil intègre une valeur par défaut. Il ne s’agit pas d’empêcher l’usage d’autres modèles, mais un défaut partagé pourrait être, pour 99 % des apps, la meilleure solution à la fois pour les développeurs et pour l’expérience utilisateur
Le plus gros gain de performance vient du fait que le modèle est déjà chargé en mémoire, et le modèle par défaut a bien plus de chances de rester chaud
Le « meilleur modèle » est généralement, compte tenu de la RAM et de la puissance de calcul, « le meilleur modèle pour cet appareil ». Un développeur ne peut pas tester tous les appareils, mais Apple le peut et le fera
Chaque modèle doit être optimisé pour le matériel. Ce qui tourne sur l’ANE, Metal ou le CPU est important, et le modèle par défaut sera optimisé
Si l’on a besoin d’un modèle personnalisé, LoRA est probablement la meilleure option. Cela fait environ 30 MB et permet de conserver tous les avantages ci-dessus
On peut soutenir qu’il faudrait permettre de remplacer le modèle par défaut, mais cela relève davantage d’un idéal à la Linux que d’Apple, donc je doute qu’on voie cela en pratique. Et il y a aussi de vrais inconvénients. Que ce soit voulu ou non, les prompts finissent par être optimisés pour le modèle visé par le développeur, donc remplacer le modèle système par défaut peut dégrader la qualité de toutes les apps
https://developer.apple.com/videos/play/wwdc2026/339
Je me demande si Apple essaie d’amener les développeurs à utiliser les LLM via sa propre couche d’abstraction d’API. Cela pourrait servir à faciliter une transition fluide le jour où Apple lancera son propre LLM
Il me semble avoir entendu dire qu’Apple dépense beaucoup pour l’entraînement et que cela pourrait somehow être lié à Siri ou à l’Apple AI actuelle. Ou alors ce n’est qu’une fonction de confort pour les développeurs ; je me demande s’il y a une autre intention derrière
Si l’on accorde de l’importance à la vie privée, il y a un intérêt à ce qu’Apple s’interpose
L’idée centrale de ce framework est qu’avec une même API, on peut viser le modèle embarqué sur l’appareil, le modèle en ligne hébergé par Apple appelé Private Cloud Computer, ou encore son propre shim pour n’importe quel modèle en ligne hébergé ailleurs
Cela évite d’avoir à construire sa propre couche d’abstraction du type « ceci avec le modèle local, cela avec Claude » ou d’intégrer soi-même les API d’Anthropic/OpenAI, puisque les appels peuvent être routés dynamiquement via l’API système vers différents modèles ou types de fournisseurs
Il y a aussi plusieurs aspects pratiques et particularités, comme l’abstraction centralisée des appels d’outils, ou la possibilité de changer dynamiquement de fournisseur ou de modèle au cours d’une session tout en continuant le même
transcriptComme cette API ne fonctionne que sur les appareils Apple, cela fragmente aussi le marché et enferme davantage les utilisateurs, puisque les développeurs doivent adopter ce système pour que cela fonctionne correctement sur iOS
Apple semble se préparer à l’amélioration de ses modèles embarqués, ce qui est logique si l’on pense au fait qu’ils ont obtenu l’accès à Gemini
Si les développeurs écrivent tout leur code d’appel à des LLM externes avec ça, ils pourront facilement remplacer les points d’appel individuels quand les modèles d’Apple deviendront plus compétents et couvriront davantage de cas d’usage. L’expérience utilisateur des apps s’améliorera, et les coûts de facturation des développeurs, sur lesquels Apple ne touche pas de commission, diminueront aussi
Apple est une entreprise, et on sait tous ce qui préoccupe une entreprise, donc l’utopie où des modèles locaux tournent sur le téléphone semble peu probable
Ce n’est pas pour rien que Microsoft et Nvidia font équipe
Je me demande comment cela s’utilise concrètement dans un logiciel distribué aux utilisateurs. Demander aux utilisateurs de créer et saisir eux-mêmes une clé API représente une barrière bien trop élevée pour offrir une bonne expérience utilisateur
Une structure du type « payer une somme dont on ne sait pas combien coûtera une seule question, sans garantie d’obtenir la réponse voulue, puis devoir repayer pour continuer » n’est pas attrayante pour la plupart des gens qui ne sont pas des joueurs. Expliquer à l’utilisateur moyen qu’un simple « merci » à la fin d’une longue conversation peut coûter cher à cause du contexte est encore plus difficile à faire accepter
Le fait que le coût des tokens fasse le yoyo n’aide pas non plus. Les utilisateurs ordinaires ont besoin d’un coût fixe et n’ont pas envie de dépenser de l’énergie à suivre en permanence l’évolution du monde de l’IA. Des problèmes du genre « le mois dernier, mon abonnement durait bien plus longtemps » ne vont pas dans le bon sens
Dans la plupart des cas, je pense qu’Apple a raison de considérer que les LLM locaux sont l’avenir
Je ne comprends toujours pas complètement les conditions d’Anthropic. On peut bien saisir quelque chose comme
setup-token Set up a long-lived authentication token (requires Claude subscription), mais ça ressemble à un piège. Je ne sais pas qui utilise ça, ni si le simple fait de l’utiliser où que ce soit ne constitue pas immédiatement une violation des conditionsSur allihat.com, si l’utilisateur ne veut pas utiliser de clé Claude, je lui permets d’utiliser à la place le modèle local d’Apple, et le taux de conversion vers des utilisateurs payants a augmenté d’environ 3x. Mais bien sûr, ce n’est pas un substitut à Claude. J’espérais qu’Apple mette en place un mécanisme servant de proxy Claude à ma place, pour que je n’aie pas moi-même à faire passer ça par mon serveur afin de gérer l’usage de l’API Claude
.proxiedApple fournit des modèles d’IA gratuits via ses propres serveurs aux développeurs ayant moins de 2 millions de téléchargements https://techcrunch.com/2026/06/08/apple-bets-cheaper-ai-will...
Je comprends que la formule « les requêtes vont directement de l’app à l’API Claude, Apple n’est pas sur le chemin et ne voit ni les prompts ni les réponses » est formulée du point de vue du développeur
Mais du point de vue du consommateur, c’est juste ridicule
Microsoft a d’abord cassé le jeu en mettant dans les conditions de Copilot que « Copilot est fourni à des fins de divertissement uniquement », puis en ajoutant aussi pour Copilot dans Excel un avertissement disant d’« éviter d’utiliser COPILOT pour les tâches nécessitant exactitude ou reproductibilité, ou ayant un impact juridique, réglementaire ou de conformité »
Puis Apple refuse discrètement d’entrer dans la danse sans investir des dizaines de milliards, voire des centaines de milliards, pour créer un LLM concurrent. Bien sûr, ils revendent Claude pour les plus naïfs ou s’appuient sur Gemini, mais Apple sait très bien dans quelle situation on est
https://www.microsoft.com/en-us/microsoft-copilot/for-indivi...
https://support.microsoft.com/en-US/Excel/copilot-function
L’agent de code est déjà en soi une couche imposée, et maintenant on en ajouterait encore une autre. Les agents de code donnent souvent l’impression d’être des vendor managers de SSII des années 90
Ils promettent tout et n’importe quoi au client, puis mettent la pression sur le pauvre prestataire pour qu’il livre. Les agents de code consomment 10x plus de tokens, comme l’écart entre ce que la SSII facturait au client et ce qu’elle reversait au contractuel. Test simple : une tâche pour laquelle le modèle dépasse la longueur de contexte via un agent de code fonctionne très bien si on la lui demande directement
Les couches sont un luxe, et elles suppriment le contrôle et la transparence