1 points par GN⁺ 4 시간 전 | 1 commentaires | Partager sur WhatsApp
  • Dans les métiers techniques, les LLM ouverts ont encore un coût en performance, compatibilité et confiance, mais l’écart s’est récemment réduit, laissant davantage de marge pour diminuer la dépendance aux modèles propriétaires comme Claude ou GPT
  • Par le passé, Linux était risqué dans un contexte professionnel à cause de la compatibilité avec MS Office, des formats de fichiers spécialisés et d’un écosystème open source encore immature, mais la généralisation des web apps et la maturation de l’écosystème ont fortement réduit les sacrifices à consentir
  • Au 21 juin 2026, le haut du Artificial Analysis intelligence leaderboard est occupé par des modèles d’API propriétaires comme Claude et GPT, et Claude code ainsi que les principales API gardent encore une avance en facilité d’usage et en confiance au sein des organisations
  • Les modèles ouverts peuvent être utilisés via leur fournisseur ou via des tiers comme OpenRouter, mais cela soulève des inquiétudes sur la vie privée et le partage des données ; les exécuter soi-même améliore la confidentialité, au prix d’un surcoût, de plus de complexité et de performances moindres
  • L’introduction de la vérification d’identité sur Claude a conduit à reconsidérer le coût d’un arrêt d’accès aux meilleurs modèles, mais comme les modèles ouverts ne sont plus qu’à quelques mois des leaders, une baisse temporaire de productivité n’est peut-être pas un obstacle décisif

Où en sont aujourd’hui les LLM ouverts à travers le coût de bascule de Linux

  • Autrefois, utiliser Linux pouvait créer un risque professionnel même dans les métiers techniques
    • Il pouvait ne pas restituer correctement des documents Word ou des présentations PowerPoint
    • On pouvait se retrouver à devoir faire confiance au résultat d’export d’Open Office
    • Il pouvait être difficile d’ouvrir facilement des formats de fichiers spécialisés, compliquant la collaboration
    • Les projets open source qui tentaient de rattraper les fonctionnalités des logiciels dominants avaient souvent des aspects encore rugueux
  • Aujourd’hui, les logiciels de productivité sont souvent fournis sous forme de web apps, et Linux comme les logiciels open source ont mûri, ce qui a réduit l’écart
    • Dans certains domaines comme la CAO, Windows peut encore rester nécessaire
    • Mais Linux et l’open source n’exigent plus, comme autrefois, de grands sacrifices dans le travail courant en général

Les coûts que les utilisateurs de modèles ouverts doivent encore assumer

  • Il reste encore une pénalité claire pour les utilisateurs de LLM ouverts
    • Au 21 juin 2026, Claude et GPT dominent le Artificial Analysis intelligence leaderboard
    • Au-delà des performances, Claude code et les principales API sont aussi solides en compatibilité et en facilité d’usage
    • Envoyer des requêtes LLM à OpenAI et Anthropic bénéficie d’un niveau de confiance jugé acceptable par beaucoup
  • Les voies d’usage des modèles ouverts via API s’accompagnent de questions de confiance
    • Le service peut être assuré directement par le fournisseur du modèle ou par un tiers comme OpenRouter
    • Il est plus inquiétant, du point de vue de la vie privée et du partage des données, d’envoyer des appels d’API contenant des données client ou des données confidentielles
    • Envoyer des requêtes à Deepseek ou à OpenRouter peut susciter davantage d’inquiétudes, indépendamment du risque réel
  • L’exécution directe réduit les problèmes de confidentialité, mais ajoute une charge en coût, complexité et vitesse
    • Elle peut se faire en local ou dans le cloud
    • Exécuter soi-même implique au moins deux des problèmes suivants : être coûteux, complexe ou relativement lent

Le déclencheur créé par la vérification d’identité de Claude

  • L’introduction de la vérification d’identité sur Claude a accéléré la décision de basculer
    • Les nouvelles safeguards des modèles récents et la situation liée à Mythos sont aussi perçues comme des signes d’une dégradation de l’expérience utilisateur
    • Si l’on refuse la vérification d’identité, la question centrale reste la perte professionnelle liée à l’arrêt d’accès aux meilleurs modèles
  • Le passage aux modèles ouverts est jugé bien plus proche que ne l’était l’écart entre Linux et Windows en 2008
    • Il existe déjà un environnement permettant d’exécuter plusieurs modèles ouverts en local ou dans le cloud
    • Il existe aussi des harness de codage pour les modèles ouverts
    • Les modèles ouverts se sont beaucoup rapprochés des modèles de tête et n’accusent en général que quelques mois de retard
    • La productivité peut baisser à court terme, mais, comme lors d’un passage de Matlab à GNU Octave en période de recherche, cela n’est pas vu comme un obstacle décisif

1 commentaires

 
GN⁺ 4 시간 전
Avis sur Hacker News
  • C'est précisément pour cette raison que j'utilise les règles de routage ci-dessous sur eurouter.ai pour toutes les requêtes

    {  
    "model": "glm-5.2",  
    "models": [  
    "deepseek-v4-pro",  
    "deepseek-v4-flash"  
    ],  
    "provider": {  
    "allow_fallbacks": true,  
    "data_collection": "deny",  
    "data_residency": "EU",  
    "max_retention_days": 0,  
    "eu_owned": true  
    }  
    }  
    

    C'est cher, mais au moins j'estime que la confidentialité des données est garantie sur le plan juridique. J'ai plus confiance qu'en Anthropic, OpenAI ou OpenRouter
    Personnellement, j'ai du mal à accepter moralement l'usage d'outils d'IA américains, et je n'ai pas envie de leur verser de l'argent pour soutenir les crimes auxquels ils sont mêlés[1]
    [1]: https://news.ycombinator.com/item?id=48512339

  • Ce qui coince dans la ligne rouge d'Anthropic, c'est l'expression « of Americans ». Donc pour le reste du monde civilisé, tout serait permis ? Est-ce que cela veut dire qu'il serait acceptable de déstabiliser des pays alliés hors des États-Unis via des tests manipulés ou des fuites de données dans l'apprentissage automatique ?
    Ce qui est encore plus étrange, c'est qu'ils affirment que le modèle suit https://www.anthropic.com/constitution et que ce contenu est intégré au modèle. Pourtant, les prompts système de Claude Code et de cowork répètent à nouveau ces éléments. Si c'était vraiment intégré, cela ne devrait pas être nécessaire
    Avec suffisamment de prompt engineering sur la version API de Claude, on peut lui faire adopter le comportement d'un partisan d'Hitler, ce qui contredit frontalement leurs affirmations. En particulier, Opus 4.7 produisait volontiers de la propagande ciblant certains groupes minoritaires, mais je n'ai pas encore obtenu le même résultat avec la 4.8. En ce moment, je m'intéresse davantage à l'abus des capacités cyber du modèle, donc je n'ai pas poussé plus loin dans cette direction
    Dès le départ, ma conclusion était que la stratégie d'Anthropic relevait uniquement de la gestion d'image, et vu l'élan de soutien envers l'entreprise, on peut dire que c'est plutôt réussi

  • J'ai regardé eurouter.ai, et la proposition me paraît franchement mauvaise
    Déjà, un markup de 15 % sur le compte gratuit n'a aucun sens, et il y a une limite de 1000 requêtes par mois tant qu'on ne paie pas 40 € par mois. Mais surtout, je ne vois pas clairement quelle valeur est apportée
    Pour DeepSeek-V4-Pro, il n'y a qu'un seul fournisseur, TensorX, et le coût de lecture du cache est plus de 100 fois supérieur à celui de DeepSeek ($0.44 contre $0.003625). En particulier, je n'ai pas trouvé l'information sur le coût des tokens de cache sur eurouter.ai, j'ai donc dû aller voir le site de TensorX

  • Le mot « crime » est encore trop faible
    « AI-assisted targeting in the Gaza Strip » - https://en.wikipedia.org/wiki/AI-assisted_targeting_in_the_G...
    « Palantir allegedly enables Israel's AI targeting in Gaza, raising concerns over war crimes » - https://www.business-humanrights.org/de/neuste-meldungen/pal...
    « What The Wounds Are Telling Us » - https://www.volkskrant.nl/kijkverder/v/2025/gunshot-palestin...

  • Je me suis demandé quelles autres alternatives à OpenRouter existaient, alors j'ai cherché un peu
    EURouter (Amsterdam) : https://www.eurouter.ai/pricing
    Eden AI (France) : https://www.edenai.co/pricing
    nexos.ai (Lituanie) : https://nexos.ai/pricing/
    Requesty (Allemagne) : https://www.requesty.ai/pricing
    Cortecs (Autriche) : https://cortecs.ai/pricing
    Nordference (Estonie) : https://nordference.ai/pricing
    On dirait vraiment qu'ils poussent comme des champignons. Je ne recommande aucun d'entre eux, car je ne les ai pas utilisés moi-même, mais il semble qu'il existe des options pour ceux qui en ont besoin

  • Si la sécurité des données est une vraie inquiétude, au final il semble qu'il n'y ait pas d'autre solution que d'accepter la contrainte et d'héberger soi-même

  • Il est intéressant de voir des gens écarter les modèles à poids ouverts au motif qu’ils auraient « quelques mois de retard » sur les modèles propriétaires
    Je sais que les LLM progressent à une vitesse folle, mais si les Opus et GPT d’il y a quelques mois étaient vraiment au niveau actuel des modèles à poids ouverts, il n’y aurait aucune raison de ne pas basculer. C’est encore plus vrai pour ceux qui utilisaient déjà ces modèles il y a quelques mois
    Le codebase n’a pas changé, donc il suffit d’utiliser un modèle à poids ouverts. Il ne faut pas déplacer les poteaux

    • Chaque nouveau modèle propriétaire est présenté comme « révolutionnaire » et comme ayant « résolu une tâche X que les autres modèles ne savaient pas faire », mais un mois plus tard il est déjà qualifié de modèle médiocre de la génération précédente
      Donc il n’y a absolument aucun problème à utiliser Kimi-2.7, GLM-5.2 ou Deepseek-v4. On semble déjà avoir touché un plafond assez proche, et l’essentiel des progrès paraît désormais venir d’améliorations de harness qui rendent le raisonnement ou les appels d’outils un peu meilleurs, ainsi que d’un renforcement légèrement meilleur
    • J’ai beaucoup expérimenté avec des modèles ouverts, mais je suis fatigué d’entendre qu’ils n’ont « que quelques mois de retard »
      Je ne suis toujours pas convaincu que même les meilleurs modèles à poids ouverts soient au niveau d’Opus d’il y a quelques mois. Je sais ce que disent les benchmarks et j’en attendais beaucoup, mais l’expérience réelle ne correspondait pas aux benchmarks
      Je fais beaucoup de tâches qui mettent déjà Opus 4.8 en difficulté. Tant que les LLM de pointe n’y arrivent pas encore complètement, je ne suis pas motivé à passer à des modèles encore plus en retrait
    • La seule raison pour laquelle je lis ce post sur HN en ce moment, c’est à cause d’une panne de l’API Anthropic, donc ça fait aussi un argument de plus en faveur de l’auto-hébergement
    • Un peu plus précisément que « quelques mois de retard », le vrai seuil important est probablement de savoir si l’on se situe avant ou après Claude Opus 4.5 du 24 novembre 2025. C’est ce modèle qui a déclenché la vague OpenClaw à Noël
    • Au travail, on utilise un fournisseur Deepseek V4 flash, et il traite 95 % des tâches qui fonctionnent réellement pour un dixième du coût. On sort parfois un modèle plus puissant, mais seulement après y avoir réfléchi une deuxième fois
      Le fossé est si plat qu’il ne donne guère plus qu’un +1 en nourriture et +1 en production. Et s’il y a une route, +1 en or
  • Ce qui est étonnant avec ces modèles, c’est qu’ils distillent en pratique Internet sous une forme qui peut tenir sur une machine locale, et qu’on peut interroger en langage naturel
    La technologie et le matériel s’améliorent plus vite que n’augmente la base de connaissances à distiller, donc l’arrivée de modèles locaux réellement utilisables paraît inévitable

  • Le ton de ce texte me semble assez surprenant. D’un côté, il commence comme le récit de quelqu’un qui a adopté Linux et d’autres logiciels libres et open source, alors que le cœur du FOSS est de permettre aux utilisateurs de comprendre et modifier le logiciel qu’ils exécutent
    Mais tout le reste parle d’utiliser des LLM, c’est-à-dire des outils que leur auteur n’a aucun moyen ni de modifier ni de comprendre. Une énorme matrice de nombres à virgule flottante, au mieux, se compare à du code compilé, et en pratique il est parfois plus facile de décompiler et comprendre un logiciel propriétaire
    En plus, dans la plupart des cas, même si l’on veut exécuter un modèle « ouvert », il faut un matériel impossible à assumer. Je ne sais pas comment on en est arrivé là dans un milieu qui célébrait la liberté logicielle

  • Le titre est affirmatif, mais le corps du texte dit plutôt « j’espère que cela sera minimisé »
    J’utilise plusieurs abonnements, je teste différents fournisseurs de LLM au token près via OpenRouter, et je fais aussi tourner des modèles à poids ouverts en local
    Pour l’instant, j’ai du mal à être d’accord. Les modèles d’Anthropic et d’OpenAI sont vraiment bien meilleurs que les autres. Les modèles à poids ouverts me semblent globalement sur-optimisés pour les benchmarks, et l’expérience réelle est très différente de ce que ces benchmarks laissent entendre
    Quand je partage cette expérience, je me fais souvent downvoter parce que ce n’est pas la réalité que les gens ont envie d’entendre en ce moment, mais c’est vrai pour les tâches complexes
    Je pense qu’entre les mains d’un utilisateur expérimenté, une bonne partie des tâches faciles peut très bien être traitée par des modèles à poids ouverts. S’il s’agit d’un travail qu’on pourrait confier à un junior avec un peu de supervision, alors n’importe quel modèle peut faire l’affaire
    Mais pour beaucoup de tâches que je fais, même Opus 4.8 Max doit encore être surveillé de près, orienté et relu en continu. Fable aussi, mais à un degré moindre
    Quand on essaie de gros modèles à poids ouverts, on finit par les utiliser en hébergé parce qu’en local ils n’atteignent pas une vitesse raisonnable avec un niveau de quantification supportable. Et sur les gros travaux, on a finalement encore plus l’impression de brûler des tokens en attendant des sorties qu’on risque de jeter. J’aimerais qu’on en soit déjà là, mais ce n’est pas encore le cas

    • Des exemples ?
  • Claude n’a commencé à devenir vraiment exploitable pour le code qu’à partir de 4.6. Il y a ensuite eu d’autres ajouts agréables à avoir, mais si Sonnet 4.6 et Opus avaient été à poids ouverts, je n’aurais probablement rien eu de plus à demander
    Le fait d’avoir un peu utilisé Fable renforce encore cette impression

  • J’aurais aimé me familiariser davantage avec l’inférence locale, mais comme je n’ai pas le matériel, cela m’a amené à penser à une sorte de coopérative locale dont je n’ai presque jamais vu parler
    D’un point de vue économique, on pourrait imaginer qu’il y ait un sens à ce que plusieurs personnes se regroupent pour exploiter un bon matériel et des modèles ouverts, mais je n’ai jamais vu de discussion là-dessus. Je me demande si j’ai raté quelque chose
    Ce serait assez génial de créer un service qui aide les personnes intéressées par ce type d’approche à se trouver entre elles

    • Si on voit peu ce genre d’idée, c’est probablement parce que tout le monde fait le calcul, réalise que ce n’est pas une bonne affaire, puis abandonne
      Il y a justement en ce moment un post tout en haut de /r/localllama sur ce calcul précis : https://www.reddit.com/r/LocalLLaMA/comments/1ubrcwj/tokenom...
      En résumé, faire tourner GLM 5.2 coûte au minimum autour de 20 000 dollars, et ce sera douloureusement lent par rapport à une version hébergée dans le cloud. Même en supposant qu’un serveur calcule des tokens 24 h/24, il faut des années pour atteindre le seuil de rentabilité
      La seule vraie raison de le faire tourner en local, c’est lorsque la confidentialité totale des données est la priorité absolue. C’est une prime élevée à payer pour cela
    • Il existe beaucoup d’endroits qui proposent des modèles ouverts à des tarifs très bas. En général, je recommande de regarder OpenRouter, qui suit différents indicateurs sur de nombreux fournisseurs
    • https://news.ycombinator.com/item?id=48524387
    • Des modèles ouverts hébergés dans le cloud ???
  • Certes, mais OpenAI est au même prix. z.ai est à 18 $ par mois ; pourquoi payer ça alors qu’OpenAI est à 20 $ par mois ?

    • Un gros avantage que j’y vois, c’est que les gens s’attachent à un modèle. Moi aussi. Avec un modèle ouvert, si on a trouvé celui qui nous convient parfaitement mais que la version suivante est moins bonne, on peut continuer à faire tourner l’ancienne pour toujours. Soi-même ou via quelqu’un d’autre
    • Une raison peut être les limites de requêtes. ChatGPT Plus avec Codex d’OpenAI (20 $/mois), dans le pire des cas, a sur 5 heures une limite de 15 requêtes pour GPT-5.5, 20 pour GPT-5.4, et 60 pour GPT-5.4-Mini
      À l’inverse, Z.ai Lite (18 $/mois) offre environ 80 requêtes pour GLM 5.2 dans le pire des cas. C’est en heures creuses, et les heures de pointe sont de 2 h à 6 h du matin, heure de New York. Z.ai peut donc proposer une limite plus élevée à un prix plus bas
      (https://codeberg.org/mutablecc/calculate-ai-cost/src/branch/...)
    • https://news.ycombinator.com/item?id=48618455
    • OpenCode Go coûte 10 $ par mois, et ses limites sont aussi bien plus généreuses que celles-là ou que celles de Codex
    • Ça ne semble plus être indiqué sur la page des tarifs, mais le forfait coding de z.ai affirmait auparavant offrir une utilisation 3 fois supérieure aux forfaits Claude de la même gamme de prix. Je ne sais pas si c’était exact, mais rien qu’en regardant les prix API, GLM est bien moins cher
  • À l’époque où Linux était clairement compétent mais demandait du bidouillage et des efforts supplémentaires pour être agréable à utiliser, c’était facile de l’adopter en mode rebelle
    Mais d’après mon expérience, les modèles ouverts n’en sont pas encore là en termes de capacités ou d’exigences d’exploitation. GLM5.2 a l’air compétent, mais pour l’exécuter à ce niveau il faudrait probablement un énorme cluster de GPU
    Si l’on accède à un modèle ouvert via une API hébergée, cela ne vaut guère mieux que d’utiliser un modèle fermé via une API hébergée. Par rapport à l’époque où j’utilisais Linux il y a 15 ans, l’incitation s’effondre
    J’aimerais me tromper. J’aimerais faire tourner des modèles locaux et en être satisfait, mais ce n’est pas encore le cas

    • « Si l’on accède à un modèle ouvert via une API hébergée, c’est la même chose que d’utiliser un modèle fermé via une API hébergée » : non
      Le point clé, c’est qu’aucun acteur unique n’en a le contrôle, donc on ne peut pas vous faire subir une enshittification. C’est déjà arrivé, ça arrive encore, et ça arrivera encore
      Avec des poids ouverts, on ne peut pas facilement vous expulser, vous enfermer ou vous couper l’accès. Même si une entreprise essaie, quelqu’un d’autre avec une ferme de serveurs peut vous prendre comme client, et dans votre workflow il suffit de changer l’URL de l’API et la clé
      Vous continuez à parler au même modèle, avec le même caractère et les mêmes connaissances
  • Je suis en partie d’accord avec l’orientation générale du billet, mais il y a deux points
    D’abord, dans mes tests, les modèles ouverts n’étaient pas encore au niveau pour rivaliser avec Claude Opus, au moins sur le développement logiciel, l’ingénierie et les tâches voisines
    Ensuite, il faut en profiter tant que ça dure. Je serais vraiment surpris que d’ici la fin de l’année ces modèles ouverts ne soient pas déclarés « illégaux » au nom de la sécurité. Si je parle de prétexte, c’est parce que le moteur principal sera probablement la capture réglementaire et le protectionnisme industriel

    • Interdire des modèles aux États-Unis ne ferait que renforcer des États rivaux comme la Chine