Apple Silicon coûte plus cher qu’OpenRouter

(williamangel.net)

3 points par GN⁺ 2026-05-18 | 2 commentaires | Partager sur WhatsApp

Le coût de l’inférence locale dépend davantage du prix de la machine que de l’électricité, et le modèle M5 Max MacBook Pro 64GB est évalué à 4 299 $
Un portable Apple Silicon en charge consomme 50 à 100 W, et avec un tarif de 0,20 $/kWh, le coût d’électricité n’atteint qu’environ 0,48 $ par jour
Gemma4:31b a été observé à 10 à 40 tokens par seconde sur un M5 Max, ce qui donne un coût d’environ 0,40 à 4,79 $ par million de tokens
Gemma4 31b sur OpenRouter coûte environ 0,38 à 0,50 $ par million de tokens, et ne devient comparable au MacBook Pro Max que dans des conditions très optimistes
L’inférence locale est en général plus chère et plus lente qu’OpenRouter, et d’un point de vue comptable il est raisonnable d’estimer le coût du Pro Max à environ 3 fois celui d’OpenRouter par million de tokens

Calcul du coût de l’inférence locale

Le prix de l’électricité est de 0,18 $/kWh d’après une facture récente en Virginie du Nord, mais les calculs retiennent une hypothèse plus haute de 0,20 $/kWh
Le tarif résidentiel moyen de l’électricité aux États-Unis en 2025 selon l’EIA est de 0,1730 $/kWh
Si un portable Apple Silicon consomme 50 à 100 W en charge, le coût d’électricité est de 0,009 à 0,018 $ par heure, soit environ 0,02 $/h
Même en faisant tourner l’inférence à 100 % en continu, le coût d’électricité reste d’environ 0,48 $ par jour
Le MacBook Pro 14 pouces M5 Max en version 64GB coûte 4 299 $ sur le site d’Apple, et 64GB est considéré comme suffisant pour exécuter des modèles comme Gemma 4 31b
En amortissant le matériel sur 3 ans, 5 ans ou 10 ans, le coût annuel est respectivement de 1 433 $, 860 $ et 430 $
Le coût matériel horaire est calculé à 0,16358 $ sur 3 ans, 0,09815 $ sur 5 ans et 0,04908 $ sur 10 ans
Pour un usage général, une durée de vie de 5 ans est une estimation raisonnable ; 7 ans ou 10 ans restent possibles, mais sous charge d’inférence maximale, 3 ans peut aussi être une hypothèse raisonnable

Coût par token et comparaison avec OpenRouter

La variable clé du coût d’un modèle local est le nombre de tokens générables par heure ; lors des tests sur M5 Max, des modèles comme Gemma4:31b se situaient entre 10 et 40 tokens par seconde
À 10 tokens par seconde, cela représente 36 000 tokens par heure et, avec une durée de vie de 3 à 10 ans et un tarif de 0,18 $/kWh, le coût est de 1,61 à 4,79 $ par million de tokens
À 40 tokens par seconde, cela représente 144 000 tokens par heure, et le coût descend à 0,40 à 1,20 $ par million de tokens
Sur Apple Silicon, le coût matériel pèse bien plus que l’électricité dans le coût total
Le prix de Gemma4 31b sur OpenRouter est d’environ 0,38 à 0,50 $ par million de tokens
Dans des conditions optimistes — 50 W, 40 tokens par seconde et 10 ans d’usage — le MacBook Pro Max descend à un coût comparable à OpenRouter
Dans des conditions pessimistes — 100 W, 10 tokens par seconde et 3 ans d’usage — le MacBook Pro Max coûte 10 fois plus cher qu’OpenRouter
D’un point de vue comptable, il est raisonnable d’estimer le coût de l’inférence locale sur Pro Max à environ 3 fois celui d’OpenRouter par million de tokens
Dans la plupart des cas, la variable la plus importante n’est pas le coût mais la vitesse d’inférence, et l’inférence locale est plus lente que l’inférence cloud
Certains fournisseurs de Gemma 4 sur OpenRouter atteignent 60 à 70 tokens par seconde, soit 3 à 7 fois plus vite que les 10 à 20 tokens par seconde observés sur Pro Max
Le coût salarial d’un employé utilisant un portable professionnel est environ 1 000 fois supérieur au coût des tokens générés localement, ce qui rend dans ce contexte plus logique de dépenser cet argent chez Anthropic
Il reste néanmoins remarquable de pouvoir exécuter sur un appareil grand public un modèle aux performances proches d’Anthropic Sonnet

2 commentaires

jjw9512151 2026-05-20

OpenRouter tourne évidemment sur du matériel optimisé en datacenter, donc c’est plus rapide, mais on n’arrive pas à sortir des trucs comme 200 tokens/s non plus..

GN⁺ 2026-05-18

Avis sur Hacker News

Cette analyse n’est pas très bonne, parce qu’elle arrondit systématiquement toutes les valeurs vers le haut. Elle majore de 10 % le prix de l’électricité, prend pour la plage de consommation électrique la borne haute, qui vaut le double de la borne basse, puis la multiplie par ce tarif d’électricité gonflé
Et elle part du principe qu’un Mac nouvellement acheté tourne en inférence 24 h/24 à pleine charge. Pourquoi faudrait-il faire ça ? Apple Silicon est rapide mais, comme l’auteur le souligne lui-même, avec environ 10 à 40 tokens par seconde, ce n’est pas mauvais sans que ce soit son usage d’origine
Les datacenters ne paient pas l’électricité au tarif résidentiel, utilisent des puces plus efficaces énergétiquement et n’emploient pas des puces conçues pour être des Mac. Apple Silicon ne brûle pas des tokens 24/7/365 et, si vous n’achetez pas un nouveau matériel uniquement dans ce but, c’est plutôt correct. On peut utiliser un Mac Studio pour les tâches nécessaires quelques fois par semaine et faire tourner ollama « comme si c’était gratuit » à travers un tailnet. L’économie tient quand on n’essaie pas de faire fonctionner un Mac Studio comme un cluster de H100 à refroidissement liquide, et il est évident que du matériel mutualisé avec une électricité bon marché et plus de tokens par watt gagne presque toujours
- Même en ramenant tout au minimum avec les hypothèses les plus optimistes, on arrive à 0,40 $ par million de tokens, alors que le même modèle est à 0,38 $/million de tokens sur OpenRouter
- L’article lui-même n’a pas de sens. On ne peut pas utiliser OpenRouter comme un ordinateur polyvalent, alors pourquoi comparer un ordinateur complet à un SaaS à usage unique ?
- Je ne sais pas d’où vient ce chiffre de 40 tokens par seconde. Sur un M5 Max 128GB avec Gemma 4 31B, j’ai déjà vu 95 à 100 tokens par seconde. J’ai même fait des essais où c’était plus rapide que Claude Opus 4.5 avec le même prompt
- En réalité, calculer comme si on générait des tokens 24 h/24 correspond au meilleur des cas. Si on calcule sur 8 heures d’usage réel par jour, le coût fixe du matériel reste la plus grosse part du budget, mais les tokens générés tombent à 1/3, donc le coût par token est multiplié par 3
Sauf erreur de ma part, ce calcul inclut le prix total de l’ordinateur portable dans le coût de génération des tokens. Il semble oublier qu’en échange de cet argent on obtient non seulement la sortie du LLM, mais aussi l’ordinateur portable
Si l’idée est de laisser cette machine dans un coin sombre et de l’utiliser uniquement comme serveur qui mange des tokens, alors un portable est vraiment un mauvais choix technique pour cet usage. Mais si vous comptez utiliser un portable comme portable, le fait d’avoir un portable est un avantage considérable plutôt que l’inverse
On obtient aussi de la confidentialité, la liberté vis-à-vis de la censure et le contrôle sur le modèle utilisé. On peut éviter de construire un workflow autour des caractéristiques d’un modèle donné, pour découvrir 3 mois plus tard qu’il a soudainement disparu
- Un meilleur indicateur serait peut-être l’écart de prix entre le portable nécessaire pour faire tourner un modèle local et le portable qu’on aurait acheté de toute façon
- On gagne le contrôle sur le modèle, mais on perd l’accès aux modèles les plus performants et on doit se contenter de petits modèles
- On ne reçoit pas seulement la sortie du LLM mais aussi le portable, et en plus, si c’est un Mac, il gardera sans doute une bonne valeur de revente au moment de le remplacer
- On ne peut pas faire tourner Cyberpunk 2077 en 5K HDR réglages maximum via OpenRouter
- Le billet d’origine montre en quelque sorte le meilleur scénario absolu si on le compare aux gens obsédés par le fait d’empiler des Mac
  Un nombre absurde d’entre eux ont dépensé plus de 10 000 $ en Mac Studio, tout en restant limités par le calcul et sans vraiment disposer d’options plus efficaces que Gemma 4
Les entreprises d’IA frontier vendent à perte
Même en mettant complètement de côté ce qu’a dit u/bastawhiz[0], Claude, OpenAI, Gemini, etc. brûlent littéralement des centaines de milliards de dollars et revendent des choses qui valent 1 dollar pour quelques centimes, dans l’espoir d’être ceux qui survivront jusqu’au bout
Si je dépense 10 $ pour cultiver des oranges et que je les vends 1 $, il est évident que les cultiver soi-même paraîtra plus cher. Ces modèles ne peuvent que devenir plus chers avec le temps, et ils essaient simplement de verrouiller le marché avant de devoir mettre fin à cette vente à perte massive
[0]: https://news.ycombinator.com/item?id=48168433
- Cela semble peu probable. Sur OpenRouter, il y a beaucoup de fournisseurs qui proposent des modèles ouverts, et il est difficile d’imaginer qu’ils perdent de l’argent sur chaque token vendu
  Il y a aussi des raisons techniques pour lesquelles l’inférence devient bien plus efficace à grande échelle
- Le blog compare le coût d’exécution de Gemma4 31B, mais sur OpenRouter ce modèle est fourni non par une entreprise d’IA frontier, mais par de petits fournisseurs d’inférence peu connus. Cela semble être une comparaison assez honnête
- Malgré tout, l’efficacité d’échelle peut aller bien plus loin. Avec ma charge de travail actuelle, je ne peux pas maintenir un modèle local à 98 % d’utilisation 24 h/24, alors qu’un grand cloud le peut. Je ne peux pas non plus alimenter mon serveur en courant continu, et il y a l’inefficacité de la conversion du courant alternatif vers le continu. Et la liste continue
- Ce n’est pas vrai. Les tokens API ne sont pas vendus à perte, et le matériel devient plus efficace avec le temps, donc le coût de fourniture de l’inférence pour un même modèle diminue
  LLAMA 3.1 405B coûtait 6 $/12 $ par million de tokens en 2024, mais en 2026 le même modèle est à 3 $/3 $. Si le coût des tokens de GPT5.5 est supérieur à celui de 5.4, c’est parce que les modèles les plus intelligents à un moment donné sont bien plus gros qu’avant. Mais dans deux ans, il y a de fortes chances que le coût de fourniture d’un modèle de la taille de GPT5.5 soit inférieur à celui du GPT5.5 d’aujourd’hui. Les techniques de distillation sont efficaces pour réduire le nombre de paramètres nécessaires à benchmark équivalent, donc dans deux ans on devrait aussi pouvoir obtenir le même niveau d’intelligence à moindre coût
- Vous avez une source ? Le CEO d’Anthropic a dit que l’entreprise était rentable, et OpenAI a dit la même chose
Si vous voulez un bon modèle dense, mieux vaut utiliser qwen3.6 27B. C’est plus rapide, et si vous ne me croyez pas quand je dis que c’est plus intelligent, les tarifs OpenRouter parlent d’eux-mêmes en le comparant à Gemma, qui est plus gros, plus lent et moins efficace en mémoire
Si vous voulez un modèle plus rapide, prenez qwen3.6 35B. Si un modèle Gemma convient mieux à votre tâche, gemma 4 26B est aussi possible. Si les gens, moi compris, ont tant parlé de ces deux-là, et surtout du 27B, ce n’est pas pour rien. Il est assez petit pour tourner à une vitesse correcte, en particulier grâce au MTP intégré que llama.cpp prend enfin officiellement en charge, et sur beaucoup de charges de travail ainsi que sur tous les benchmarks que j’ai essayés, il égale ou dépasse des modèles qu’il ne devrait pas battre à l’origine
Il y a quelques jours, je me suis réveillé sans Internet, j’ai lancé le 27B sur un pi, je lui ai donné le mot de passe du routeur et je lui ai demandé de diagnostiquer le problème. Quand je suis revenu avec mon café, il avait produit un rapport complet avec une proposition de marche à suivre. J’aime OpenRouter et je l’utilise pour plusieurs choses, mais ce n’est pas moins cher
Bien sûr, tout cela repose en partie sur mon expérience personnelle avec tous ces modèles, donc il y a une part de subjectivité. Il peut y avoir des cas où Gemma 31B est meilleur, mais je ne les ai pas trouvés, et j’utilise chacun des 4 modèles mentionnés sur diverses tâches depuis quelques heures après leur publication. Même sur mon hermes, passer de gemma 4 26B à qwen3.5 9B a donné de meilleurs résultats, et ce n’était même pas encore la série 3.6 largement améliorée. Faire ce genre d’analyse sans utiliser ce qui est aujourd’hui considéré comme l’état de l’art sur matériel grand public donne une impression de comparaison obsolète ou de cherry-picking
- Oui. Qwen 3.6 45b(6 parameter) tourne sur une RTX 5090 standard, que vous possédez peut-être déjà si vous aimez les jeux. C’est largement suffisant pour la plupart des tâches de génération de code
  De même, DeepSeek V4 Flash est assez accessible en tant que modèle local, et avec DwarfStar 4 on peut facilement le faire tourner sur un MacBook 96GB
  Le fait de payer pour l’inférence n’est pas un problème en soi, mais les modèles locaux ouvrent des possibilités assez incroyables : usage totalement hors ligne, traitement de données personnelles identifiables ou couvertes par le secret professionnel, et travaux pour lesquels on ne veut absolument pas se soucier d’un dépassement de facturation
  Un autre point est qu’on peut créer un service qu’on est certain de pouvoir faire tourner à 100 % en continu, sans craindre une interruption ou un arrêt du fournisseur. Les modèles frontier ont actuellement ce problème. Ma configuration locale Qwen est entièrement prévisible et continuera de fonctionner tant que je peux continuer à obtenir le matériel nécessaire
  La stratégie raisonnable consiste à utiliser les deux. Il faut disposer d’outils d’inférence locale et les compléter par des modèles cloud bon marché et coûteux. GPT-5.5 et Opus-4.7 servent pour les tâches de raisonnement délicates où ils excellent, le second étant moins cher via un abonnement Claude, DeepSeek V4 Pro pour les tâches un peu moins délicates, V4 Flash pour la plupart des générations de code, et des modèles locaux lorsqu’il faut des modèles locaux
- Je suis d’accord avec l’idée générale, mais je ne sais pas si cette lecture du prix de qwen3.6 27B est correcte
  Ces fournisseurs semblent suivre le prix officiel de la version dense 27B d’Alibaba, ce qui me paraît personnellement un peu cher. Il se peut aussi que les modèles Qwen aient une efficacité d’inférence inférieure à celle des modèles frontier ou de Gemma, et que le coût de prise en charge de longues longueurs de séquence y soit élevé
- Je me demande comment vous évaluez les modèles quantifiés entre eux. Je n’ai pas encore trouvé de benchmark qui me convienne
  L’exemple de débogage avec le 27B est bon. J’ai obtenu un succès similaire après avoir acheté un Mac avec 4 fois plus de mémoire, et Qwen 35B A3B s’est soudainement montré très performant. Le 9B sur portable était difficile à qualifier de bon
Il y a ici beaucoup de commentaires qui pointent les problèmes de l’analyse d’origine, mais sur la conclusion plus large, beaucoup considèrent qu’on est proche d’une “distinction sans différence”. En dehors de la confidentialité, si l’on regarde uniquement coût et performances, un développeur individuel a davantage intérêt à utiliser un service hébergé qu’à s’auto-héberger
Au travail, c’est l’employeur qui paie le coût des tokens, et en dehors du travail, la plupart des développeurs jugent qu’un abonnement mensuel à 20/100/200 $ chez leur fournisseur préféré suffit. Du point de vue strict du rapport coût/performance, il n’y a pas beaucoup de développeurs pour qui l’exécution de modèles locaux entre dans les bonnes conditions
Plus important encore, mettre en place un modèle local semble en pratique relever davantage du hobby, de l’apprentissage ou du contrôle de la confidentialité que d’une véritable économie de coûts ou d’un gain de productivité
- Le calcul façon mainframe dont rêvent les fabricants de modèles ne reviendra pas, quoi que veuillent OpenAI, Google, Anthropic ou Microsoft. Il y a trop de barbares technologiques intelligents qui veulent entrer par la porte, et ils ne se satisferont pas d’un retour à l’époque des terminaux informatiques
  L’ordinateur personnel a mis fin à l’ancienne ère des terminaux ; la plupart de ces entreprises ont disparu, et seuls IBM et quelques survivants subsistent, mais ils ne sont plus que l’ombre de ce qu’ils étaient
L’auteur ne compare que le coût des tokens de sortie, mais dans une charge de travail agentique classique, les tokens d’entrée représentent une part importante du coût. En inférence locale, les tokens d’entrée sont essentiellement gratuits
Les coûts implicites se limitent alors à un temps plus long avant le premier token, une consommation électrique plus élevée et une vitesse de sortie de tokens plus faible
- Oui, et cela détruit complètement l’argument principal de l’auteur
  J’ai regardé quelques sessions agentiques aléatoires dans mon activité OpenRouter, et le coût des entrées était 10 fois supérieur à celui des sorties. Le prompt caching d’OpenRouter est complexe et difficile à fiabiliser, alors que sur le llama-cpp d’un matériel local, c’est pratiquement gratuit la plupart du temps
- Même sans tenir compte du meilleur caching en local, le matériel Mac traite souvent les tokens d’entrée environ 10 fois plus vite que les tokens de sortie. Sur OpenRouter, avec le même modèle, on dirait plutôt un écart d’un facteur 2
Si on s’y prend intelligemment, ce n’est pas le cas. Un MacBook M5 Max 128GB est un portable premium à 6 000 dollars, mais il peut faire énormément de choses et constitue une excellente machine principale utilisée toute la journée
En plus, on peut y faire tourner DeepSeek V4 Flash et traiter localement, sans censure ni restrictions, sans connexion Internet et avec des données personnelles très sensibles, des tâches qui ne sont pas triviales. C’est une bonne affaire. Si vous achetez un double Mac Studio 512GB à 25 000 dollars pour vous débarrasser d’OpenAI et compagnie, vous serez déçu à la fois sur les performances et sur le coût
- Le choix intelligent consiste à acheter un MacBook d’environ 48GB pour l’usage quotidien et à prévoir environ 800 $ par an pour des abonnements IA ou des tokens. Au final, on retombe sur des ordres de grandeur comparables
  En tant qu’auteur du blog, j’écris ce billet depuis un MacBook M5 Max 128GB
- Mon M4 Max 128GB a finalement été un choix assez rationnel. Je fais du montage vidéo, de l’entraînement de modèles de machine learning, de l’exécution de grands modèles d’IA ouverts, de la modélisation 3D, du rendu et de la CAO
  Je ne fais pas tout cela à 100 % en permanence. Je lance des entraînements de machine learning pendant la nuit et je regarde les résultats le matin ; pendant le travail, je l’utilise comme serveur pour faire tourner des modèles locaux ; sur mon temps libre, je fais du montage vidéo et de la modélisation 3D. C’est une machine incroyablement polyvalente, et tout cela se fait en gardant les données sur l’appareil et en conservant un contrôle total sur le workflow
- C’est un secret pour les gens de HN, mais certains de ces modèles peuvent tourner sur un rpi5 à 200 $ ou sur un mini-PC AMD à 500 $
  Un autre secret de Polichinelle est que certaines entreprises offrent gratuitement des dizaines de milliers de tokens sur des modèles tout à fait corrects comme Gemini 3.1 ou GLM 4.6
Le texte original compare Gemma à droite et à gauche, puis conclut qu’il vaut mieux payer Anthropic. Anthropic facture 15 $ par million de tokens de sortie, ce qui est 30 à 35 fois plus cher même selon les tarifs OpenRouter
C’est comme comparer le vélo électrique de la maison à la location de vélos électriques, puis conclure qu’il faut louer une Toyota parce qu’on peut aller à peu près à la même vitesse. C’est fatigant de voir autant d’attention accordée à de mauvais articles
L’article commet une grosse erreur à la fin et se trompe gravement. On ne peut pas regarder seulement les tokens générés et appeler ça le coût. En codage agentique, il y a beaucoup de tours, donc on paie non seulement les tokens de sortie, mais aussi tous les tokens d’entrée envoyés à chaque fois. Même si le cache les rend 10 fois moins chers, cela reste vrai. Ce calcul ne représente donc pas du tout correctement le coût d’une API
Deuxièmement, si on utilise une équipe d’agents, on peut fortement augmenter le volume de génération de tokens en local. Une conversation unique est limitée par la bande passante mémoire et n’utilise pas pleinement les ressources de calcul. Si on peut traiter par lots les tokens de plusieurs agents, on peut facilement multiplier par 5 la génération de tokens
Je ne pourrais tout simplement pas fonctionner avec de l’IA cloud. Pour moi, la confidentialité et le contrôle total sont plus importants que la vitesse ou les modèles de pointe
- Il y a aussi la prévisibilité, la résilience et la souveraineté. Pas besoin de s’inquiéter d’une panne chez quelqu’un d’autre, d’une demande imprévue qui me touche au mauvais moment, de quelqu’un qui dégrade mon modèle, d’un changement de coût imprévisible ou d’une énorme facture causée par une erreur inattendue
  Pour moi, c’est dans la même catégorie que le solaire sur le toit. Si vous êtes le genre de personne qui trouve une tranquillité d’esprit dans le contrôle de son infrastructure et la réduction de ses dépendances, il n’est pas indispensable que l’économie stricte soit parfaite