8 points par GN⁺ 16 일 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • À mesure que la commoditisation de l’intelligence IA s’accélère, tandis que toutes les entreprises se lancent dans la course au meilleur modèle, Apple, qui accumule d’énormes réserves de cash, se retrouve paradoxalement en position favorable
  • Malgré une valorisation de $300B, OpenAI a dû interrompre le service Sora et annuler Stargate Texas, illustrant concrètement le risque d’investissements d’infrastructure sans véritable modèle de revenus
  • Grâce à 2,5 milliards d’appareils actifs et à une architecture de traitement on-device, Apple dispose déjà d’un fossé défensif fondé sur les données de contexte personnel et une conception centrée sur la confidentialité
  • Le modèle à poids ouverts Gemma 4 affiche des performances comparables à Claude Sonnet 4.5 Thinking et peut tourner sur un ordinateur portable, ce qui réduit très rapidement l’écart entre les modèles
  • L’architecture mémoire unifiée d’Apple Silicon permet l’exécution locale de grands modèles et, via le framework MLX, pose les bases de l’expansion de l’écosystème
  • Que ce soit par stratégie ou par hasard, Apple s’est assuré un nouvel avantage concurrentiel sur une base matérielle et logicielle optimisée pour l’ère de l’IA

Le « fossé accidentel » d’Apple, « perdant » de la course à l’IA

  • Dans la tendance à la commoditisation de l’intelligence, plus les entreprises construisent de meilleurs modèles, plus les modèles concurrents les rattrapent rapidement
    • Les investissements massifs dans l’entraînement réduisent le coût des modèles de génération précédente, et l’écart entre modèles frontier et modèles open source se resserre rapidement
    • Les derniers modèles ouverts comme Gemma4, Kimi K2.5 et GLM 5.1 ont atteint un niveau où ils peuvent fonctionner correctement même sur du matériel personnel
    • À l’inverse, des acteurs comme OpenAI voient leur soutenabilité remise en question en raison d’une structure de coûts massive et de modèles de revenus instables
  • Ce changement joue en faveur d’Apple, longtemps qualifié de “perdant de l’IA”
    • Apple disposait de Siri avant tout le monde, mais depuis le lancement de ChatGPT, l’entreprise est classée parmi les « perdants de l’IA » car elle n’a ni modèle frontier flagship ni promesse d’investissement de calcul à hauteur de $500B
    • Pendant que les autres laboratoires IA et Big Tech dépensent des sommes colossales pour atteindre la première place sur les benchmarks les plus récents, Apple accumule du cash inutilisé et élargit même ses options en augmentant ses rachats d’actions

Les dépenses excessives et les risques d’OpenAI

  • Après avoir levé des fonds sur une valorisation de $300B, OpenAI exploitait le service vidéo Sora avec un coût quotidien d’environ $15M pour seulement $2.1M de revenus, avant de finalement l’arrêter
  • Disney avait signé avec Sora un contrat de licence de 3 ans pour générer des contenus mettant en scène des personnages Marvel, Pixar et Star Wars, et envisageait un investissement en capital de $1B dans OpenAI, mais l’arrêt de Sora a fait capoter cet investissement de $1B
  • Côté infrastructure, OpenAI a signé avec Samsung et SK Hynix une lettre d’intention non contraignante portant sur jusqu’à 900 000 wafers DRAM par mois (environ 40 % de la production mondiale)
  • En voyant ce signal de demande, Micron a fermé sa marque de mémoire grand public Crucial, vieille de 29 ans, pour se réorienter vers les clients IA, mais lorsque Stargate Texas a été annulé, la demande a disparu et l’action Micron s’est effondrée
  • Quels que soient les scores sur les benchmarks ou la taille de l’infrastructure, une simple petite erreur sur les revenus attendus peut vous éjecter du jeu

Du renseignement brut aux capacités

  • L’hypothèse centrale des laboratoires IA était que les capacités brutes des modèles (l’intelligence) et l’infrastructure permettant de les faire tourner resteraient des ressources rares, mais des modèles moins puissants progressent rapidement jusqu’au niveau des anciens modèles frontier
  • Le modèle à poids ouverts de Google, Gemma 4, peut tourner sur un téléphone, atteint 85,2 % sur MMLU Pro et se situe au niveau de Claude Sonnet 4.5 Thinking dans le classement Arena
    • 2 millions de téléchargements dès la première semaine
    • Un modèle qui représentait l’état de l’art il y a 18 mois peut désormais tourner sur un laptop, avec des gains de performances à chaque trimestre
  • Après avoir exécuté directement Gemma 4 sur un AMD Ryzen AI Max+, les performances en tokens/seconde et le niveau d’intelligence se sont révélés excellents, au point de basculer le backend d’outils personnels vers ce modèle sans dégradation de la qualité de sortie
  • Anthropic a identifié cette dynamique et déploie rapidement des outils pratiques comme Claude Code, Claude Cowork et Claude Managed Sessions afin de verrouiller les utilisateurs dans son écosystème
    • Logique clé : si le modèle lui-même ne constitue pas un fossé défensif, il faut contrôler la couche d’usage et augmenter les coûts de changement
    • Selon une analyse, les abonnés Max ($200) consomment l’équivalent de $27,000 de calcul, ce qui montre que les laboratoires soutiennent actuellement la demande à coups de subventions
  • Apple dépense très peu pour l’infrastructure IA ou pour subventionner la consommation de tokens des utilisateurs, ce qui lui donne davantage d’options et de levier que les autres entreprises

Le contexte devient la ressource clé

  • À mesure que l’intelligence devient abondante, le contexte devient la ressource rare
    • Un modèle capable de tout raisonner mais qui ne sait rien de l’utilisateur n’est qu’un outil généraliste
    • Pour qu’une IA soit vraiment utile au quotidien, il lui faut des capacités de raisonnement + un contexte personnel (messages, calendrier, code, données de santé, photos, habitudes, etc.)
  • Apple possède déjà ce contexte grâce à ses 2,5 milliards d’appareils actifs
    • Données de santé de l’Apple Watch, photos de l’iPhone, notes, messages, historique de localisation, comportement dans les apps, e-mails, et perception de l’environnement via les capteurs des appareils
  • Grâce au traitement on-device, il devient possible de fournir au modèle l’ensemble du contexte sans faire sortir les données de l’appareil
    • Le positionnement « Privacy. That’s iPhone » peut ainsi devenir non pas un simple message marketing, mais une proposition de valeur centrale
    • Confier son dossier médical et 15 ans de photos à OpenAI, ou autoriser l’accès à un modèle fonctionnant uniquement dans l’appareil, ce n’est fondamentalement pas la même chose
  • Le deal Gemini ($1B) conclu par Apple avec Google sert aux requêtes nécessitant une inférence de niveau cloud, pour un coût qui reste négligeable comparé aux coûts hebdomadaires de calcul d’OpenAI
    • Ce qu’Apple a conservé en interne : la couche de contexte, la pile on-device et le système d’exploitation qui arbitre l’ensemble

Pourquoi Apple Silicon est adapté à l’IA

  • Comme l’a montré l’engouement pour le Mac Mini après la sortie d’OpenClaw, Apple Silicon n’a pas été conçu pour l’IA mais pour l’efficacité, l’autonomie, les performances thermiques et l’intégration matériel/logiciel ; pourtant, il s’est révélé être une architecture idéale pour l’exécution locale de modèles
  • Élément clé de la conception : la mémoire unifiée (Unified Memory)
    • Dans une architecture classique, CPU et GPU sont séparés, avec des pools mémoire distincts, ce qui ralentit les transferts de données et augmente la consommation électrique
    • Les GPU Nvidia sont rapides pour les opérations matricielles, mais le transfert de données entre CPU et GPU via le bus PCIe crée un goulot d’étranglement
    • Les séries Apple M et A placent CPU, GPU et Neural Engine sur le même die et leur font partager un seul pool de mémoire à haute bande passante, sans croisements de bus, surcoût de transfert ni latence
  • L’inférence des LLM est aujourd’hui limitée non par le calcul mais par la bande passante mémoire
    • Le point clé est la vitesse à laquelle on peut streamer les poids du modèle depuis la mémoire vers les unités de calcul, ainsi que la taille de mémoire disponible pour stocker le cache KV
    • Le pool de mémoire unifiée d’Apple fournit à toutes les unités de calcul un accès direct à haute bande passante en simultané
  • La technique LLM in a Flash est particulièrement efficace sur le matériel Apple
    • Sur un Mac M3 Max, un Qwen 397B (modèle de 209GB) a été exécuté à ~5,7 tokens/s avec seulement 5,5GB de RAM active
    • Les poids sont stockés sur SSD et streamés à ~17.5 GB/s, tandis que l’architecture MoE (Mixture-of-Experts) fait que chaque token n’active qu’une partie des couches expertes
    • Les ~5 000 lignes d’Objective-C et de shaders Metal nécessaires à cette exécution ont été écrites par Claude

Dynamique de plateforme et ubiquité de l’App Store

  • Comme avec l’App Store, Apple n’a pas créé les apps ; l’entreprise a construit la plateforme sur laquelle elles fonctionnaient le mieux, et l’écosystème a suivi
    • Les développeurs ciblent iOS non parce qu’Apple le demande, mais à cause de la base d’utilisateurs, des outils et de la cohérence matérielle
  • Le même phénomène pourrait se produire pour l’inférence locale
    • MLX s’impose déjà comme le framework standard de fait pour l’IA on-device
    • Les principales architectures de modèles comme Gemma, Qwen et Mistral prennent en charge MLX
    • Même si Apple ne gagne pas la compétition des modèles, l’entreprise peut devenir la plateforme de fait sur laquelle tournent les modèles (ou les agents)
    • L’engouement pour le Mac Mini après la viralité d’OpenClaw illustre cette possibilité

Stratégie ou chance ?

  • La stratégie d’intégration matérielle/logicielle d’Apple est au cœur de l’entreprise depuis des années ; son positionnement sur la confidentialité, son focus sur le traitement on-device et sa décision de développer ses propres puces alors que l’industrie dépendait de Nvidia et d’Intel étaient tous des choix commercialement risqués
    • Ces décisions n’ont pas été prises pour l’IA, mais pour des raisons de coûts et de gouvernance ; elles se révèlent pourtant favorables à l’ère de l’IA
  • Ce qu’Apple n’avait peut-être pas prévu :
    • que l’architecture mémoire unifiée conviendrait parfaitement aux LLM
    • que les modèles à poids ouverts progresseraient aussi vite
    • qu’il serait réellement possible de streamer des modèles de 400B paramètres depuis un SSD
  • Une part relève de la chance, mais du type de chance qui arrive aux entreprises ayant construit les bonnes bases
  • Pendant que le reste du secteur a consacré trois ans à la course au meilleur modèle, Apple est resté sur la touche, observant comment ses appareils et son écosystème s’intégreraient dans cet avenir
  • Des limites subsistent, comme celles de Siri, mais
    • avec 2,5 milliards d’appareils, l’ensemble du contexte personnel, l’exécution locale des modèles sur du silicium dédié, et Gemini disponible à la demande pour les requêtes les plus complexes
    • une structure d’inférence fondée sur des coûts variables plutôt que sur du CAPEX fixe paraît difficile à considérer comme une mauvaise position dans un monde où l’IA devient omniprésente
  • En conclusion, Apple a de fortes chances de rester un acteur important même dans un futur centré sur l’IA
    • stratégie ou hasard, l’essentiel est que l’entreprise repose sur les bonnes fondations

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.