L’IA locale doit devenir la norme

(unix.foo)

13 points par GN⁺ 8 시간 전 | 1 commentaires | Partager sur WhatsApp

Il est devenu courant d’ajouter des API OpenAI ou Anthropic aux fonctionnalités d’une app, mais la dépendance à des modèles d’IA hébergés dans le cloud fait qu’une simple panne serveur ou un problème de paiement peut arrêter la fonctionnalité, tout en alourdissant les enjeux de confidentialité
Les appareils modernes disposent d’une forte capacité de calcul on-device, comme le Neural Engine, mais celle-ci reste le plus souvent inutilisée pendant que l’on attend simplement une réponse du serveur
Par exemple, en utilisant le framework FoundationModels d’Apple, il est possible d’implémenter directement sur l’appareil des fonctions d’IA comme le résumé, la classification ou l’extraction, sans serveur
Le client iOS natif de The Brutalist Report génère les résumés d’articles on-device via l’API de modèles locaux d’Apple, en contournant le serveur, ce qui évite d’avoir à gérer des prompts, des logs utilisateurs, des comptes fournisseurs ou des notes de bas de page sur la conservation des contenus
Les modèles locaux ne sont peut-être pas aussi intelligents que les modèles cloud, mais ils peuvent être suffisants pour des tâches de transformation de données comme le résumé, la classification, l’extraction, la réécriture ou la normalisation, et les modèles cloud ne devraient être utilisés qu’en cas de réel besoin

Les problèmes de la dépendance à l’IA cloud

La tendance à ajouter sans discernement des appels d’API OpenAI ou Anthropic dans les fonctionnalités des apps se répand chez les développeurs
Cette approche rend le logiciel fragile, intrusif pour la vie privée et fondamentalement instable
- Si le serveur tombe en panne ou si la carte bancaire expire, l’app cesse de fonctionner
Dès que le contenu utilisateur est transmis en flux à un fournisseur d’IA tiers, la nature même du produit change
- Cela implique des questions de rétention des données, de consentement, d’audit, de fuite, de demandes gouvernementales et d’usage comme données d’entraînement
On se retrouve dépendant à la fois de l’état du réseau, de la disponibilité d’un fournisseur externe, des rate limits, de la facturation du compte et de l’état de son propre backend, ce qui complexifie toute la stack
Au final, une simple fonctionnalité d’UX se transforme en système distribué payant
Envoyer dans le cloud des fonctions qui peuvent être traitées en local revient à se tirer une balle dans le pied

Pourquoi exploiter l’appareil localement est justifié

Le silicium dans nos poches est aujourd’hui incomparablement plus rapide qu’il y a dix ans, et le Neural Engine dédié reste largement inutilisé
- Pendant ce temps, on attend des réponses JSON venant d’une ferme de serveurs en Virginie, ce qui n’a rien de rationnel
L’objectif ne devrait pas être « AI everywhere », mais un logiciel utile
Si une fonction peut être traitée localement, choisir une dépendance externe revient en soi à s’infliger un préjudice inutile

Les résumés on-device de The Brutalist Report

The Brutalist Report est un service d’agrégation d’actualités inspiré du web des années 1990
En créant récemment son client iOS natif, l’équipe s’est fixé comme objectif de préserver une expérience de lecture d’actualité dense
Le client iOS comprend une liste de titres à fort contraste, un mode lecteur qui retire les éléments ayant rendu le web difficile à lire, et une vue « intelligence » qui résume les articles de manière optionnelle
Le point clé est que les résumés sont générés on-device via l’API de modèles locaux d’Apple
Pas besoin de passer par un serveur, ni de gérer des prompts, des logs utilisateurs, des comptes fournisseurs ou des notes du type « le contenu est conservé pendant 30 jours »
L’idée que tout usage de l’IA se fasse côté serveur est devenue trop naturelle, et il faudra un effort à l’échelle de l’industrie pour inverser cette tendance
Certains cas d’usage exigent une intelligence que seuls des modèles hébergés dans le cloud peuvent fournir, mais ce n’est pas le cas de tous, d’où la nécessité de juger avec discernement

Les outils d’IA locale dans l’écosystème Apple

Dans l’écosystème Apple, des investissements ont été réalisés au cours de l’année écoulée pour permettre aux développeurs d’exploiter facilement des modèles d’IA locaux intégrés

Le flux de base consiste à importer FoundationModels, vérifier la disponibilité de SystemLanguageModel.default, puis construire un prompt avec LanguageModelSession pour obtenir une réponse

import FoundationModels  

let model = SystemLanguageModel.default  
guard model.availability == .available else { return }  

let session = LanguageModelSession {  
  """  
  Provide a brutalist, information-dense summary in Markdown format.  
  - Use **bold** for key concepts.  
  - Use bullet points for facts.  
  - No fluff. Just facts.  
  """  
}  

let response = try await session.respond(options: .init(maximumResponseTokens: 1_000)) {  
  articleText  
}  

let markdown = response.content

Pour les contenus longs, on peut découper le texte brut en segments d’environ 10 000 caractères, produire pour chacun des notes concises de type « facts only », puis fusionner le tout dans un second passage pour obtenir le résumé final
Ce type de travail convient bien à un modèle local
- Les données d’entrée sont déjà présentes sur l’appareil puisque l’utilisateur lit déjà ce contenu
- La sortie est légère
- Le traitement est rapide et privé
- Il s’agit de résumer une page que l’utilisateur vient d’ouvrir, pas de générer de nouvelles connaissances sur le monde, donc une intelligence surhumaine n’est pas nécessaire
L’IA locale excelle quand le rôle du modèle n’est pas de fouiller l’univers entier, mais de transformer des données que l’utilisateur possède déjà

Comment se construit la confiance

Les fonctions d’IA comme le résumé d’e-mails, l’extraction de tâches à partir de notes ou la classification de documents sont des fonctions que les gens veulent, mais auxquelles ils ne font pas confiance
L’approche cloud transforme tout cela en une question de confiance du type « peut-on envoyer ces données au serveur ? »
L’IA locale change cette structure en traitant sur place des données déjà présentes sur l’appareil
La confiance des utilisateurs ne se construit pas avec une politique de confidentialité de 2 000 mots
Elle se construit en concevant un système qui n’a pas besoin d’une telle politique dès le départ

Sorties structurées et IA pilotée par les types

L’un des bons choix récents d’Apple a été de faire passer la « sortie IA » d’un bloc de texte non structuré à des données typées
Au lieu de « demander du JSON au modèle et espérer que ça sorte correctement », un modèle plus moderne et supérieur consiste à définir une struct Swift représentant le résultat souhaité

On fournit des indications en langage naturel pour chaque champ, puis on demande au modèle de générer une instance de ce type

import FoundationModels  

@Generable  
struct ArticleIntel {  
  @Guide(description: "One sentence. No hype.") var tldr: String  
  @Guide(description: "3–7 bullets. Facts only.") var bullets: [String]  
  @Guide(description: "Comma-separated keywords.") var keywords: [String]  
}  

let session = LanguageModelSession()  
let response = try await session.respond(  
  to: "Extract structured notes from the article.",  
  generating: ArticleIntel.self  
) {  
  articleText  
}  

let intel = response.content

Avec cette approche, l’UI n’a pas besoin de récupérer des puces dans du Markdown ni d’espérer que le modèle s’est souvenu d’un schéma JSON
L’app peut recevoir de vrais types avec de vrais champs et les afficher de manière cohérente
Cela produit des sorties structurées réellement exploitables par l’app, et tout le processus s’exécute localement
Ce n’est pas seulement une interface pratique, c’est une amélioration de la qualité d’ingénierie
C’est ce qui permet, dans une app local-first, que l’IA fonctionne non pas comme une fonction gadget, mais comme un « sous-système fiable »

Réponse à l’objection « les modèles locaux sont moins intelligents »

Il est vrai que les modèles locaux ne sont pas aussi intelligents que les modèles cloud, mais cela n’a pas d’importance pour la plupart des fonctionnalités d’apps
La plupart des fonctions n’exigent pas de rédiger du Shakespeare ou d’expliquer la mécanique quantique, mais de réaliser de manière fiable l’une des tâches suivantes : résumer, classer, extraire, réécrire, normaliser
Pour ces tâches, les modèles locaux sont largement suffisants
Si on essaie d’utiliser un modèle local comme substitut à l’ensemble d’Internet, on sera déçu ; mais si on l’utilise comme « transformateur de données » à l’intérieur d’une app, on finit par se demander pourquoi on l’aurait envoyé à un serveur
Les modèles cloud ne devraient être utilisés que lorsqu’ils sont réellement nécessaires, et les données utilisateur devraient rester là où elles sont
Lorsqu’on utilise l’IA, il ne s’agit pas d’ajouter une chatbox, mais d’en faire un véritable sous-système doté de sorties typées et d’un comportement prévisible

Confidentialité et construction de la confiance

Il existe de nombreuses fonctions d’IA que les gens veulent sans leur faire confiance, comme le résumé d’e-mails, l’extraction d’actions à partir de notes ou la classification de documents
L’approche cloud transforme tout cela en expérience de confiance : « envoyez vos données au serveur, nous les traiterons correctement »
L’IA locale change cela en profondeur — les données sont déjà sur l’appareil et sont traitées immédiatement sur place
La confiance ne se construit pas en rédigeant une politique de confidentialité de 2 000 mots, mais en adoptant dès le départ une architecture qui n’a pas besoin d’une telle politique

1 commentaires

GN⁺ 8 시간 전

Avis Hacker News

Le ressenti des utilisateurs grand public vis-à-vis de l’IA locale aujourd’hui ressemble à celui qu’ils avaient vis-à-vis de l’open source il y a quelques décennies
Pour certains produits, les solutions payantes étaient tellement en avance que l’open source était souvent complètement ignoré, avec une ambiance du type « pourquoi s’embêter ? »
Puis des SaaS et des plateformes verrouillants sont apparus, et il est maintenant assez clair que ce jugement était globalement erroné
En programmation, la dépendance à Anthropic et OpenAI est absurde, mais beaucoup de gens s’en moquent ou espèrent simplement que la Chine n’arrêtera pas de publier des poids ouverts
Le modèle économique des poids ouverts est très nouveau, mêlé à des rapports de force entre États et laboratoires, et des sommes ridicules circulent sans véritable supervision de la part de la majorité
En ce moment, une valeur énorme est accessible à presque tout le monde, mais c’est un pari risqué qui peut s’arrêter sans aucun avertissement pour des raisons échappant totalement à notre contrôle
- Je ne vois pas ce qui empêcherait de continuer à faire tourner les meilleurs LLM à poids ouverts actuels sur du matériel grand public
  Pour 95 % des usages, c’est largement suffisant, et ils n’ont pas de date d’expiration
  Le « risque », c’est de ne pas pouvoir utiliser le modèle de l’étape suivante, et son impact semble très limité
- Je ne vois pas quel est le modèle économique de l’IA à poids ouverts, et j’ai l’impression qu’il n’existe tout simplement pas
  Au mieux, cela sert de publicité pour vendre des modèles plus avancés
  La grande différence avec l’open source, c’est qu’on ne peut pas entraîner un LLM uniquement avec du temps libre et de la bonne volonté
  Il faut énormément de données et des ressources de calcul colossales
  J’aimerais avoir tort là-dessus, et je préférerais de loin un futur qui s’oriente vers les poids ouverts
- Je ne pense pas qu’il faille opposer IA locale et IA cloud
  L’IA locale doit être traitée comme un produit distinct, et si l’on exécute en local les tâches qui n’ont vraiment pas besoin d’IA cloud, puis qu’on utilise l’IA cloud comme solution de repli, cela pourrait faire baisser fortement les coûts
- J’attends que le gouvernement américain crée sa propre IA locale
  Comme ce serait financé par l’impôt, il y a une chance qu’elle finisse publiée en open source, et la NSA dispose de plusieurs décennies de données Internet, donc si elle s’en sert pour l’entraînement, les poids ouverts pourraient devenir aussi bons que les modèles de n’importe quelle entreprise
- Si le coût devient un facteur important, ou si une option gratuite mais moins puissante devient attirante et accessible — par exemple un agent on-device à la Apple — alors les utilisateurs se déplaceront fortement vers le local
  Si l’on pense à des choses comme la suppression d’arrière-plan sur des photos ou l’OCR de PDF, presque personne ne paie pour ce type de service au quotidien
Ce moment viendra, et il n’est pas si loin
La dynamique est déjà engagée. Au départ, seuls les grands datacenters pouvaient faire tourner des LLM performants, et on est maintenant clairement au stade de plusieurs serveurs équipés de quelques H100, avec une trajectoire qui va vers « MacBook Pro ou Strix Halo avec 128 Go de VRAM »
D’ici un an, le schéma « planifier avec un LLM distant coûteux, exécuter avec un LLM local lent mais plus rapide qu’un humain » deviendra standard en entreprise, puis on glissera progressivement vers « tout faire avec des LLM locaux suffit »
On finira avec un équilibre similaire à celui du cloud classique : soit on auto-héberge, soit on paie pour la flexibilité et la vitesse
La vraie question est de savoir dans quelle mesure l’hébergement local mettra fin à la surchauffe actuelle des ressources de calcul, et ce que cela signifiera pour le marché
- Ce moment est déjà là
  Je fais tourner des Qwen et Gemma quantifiés sur un PC gaming correct vieux de 3 ans, en gros avec une RTX 3080 12 Go et 32 Go de RAM
  C’est lent et la fenêtre de contexte est petite, mais avec un environnement d’exécution adapté, cela peut parcourir et classer des photos de voyage
  Cela peut faire de l’OCR sur des reçus et résumer des dépenses, répondre à des questions simples, analyser du code et même en écrire quand peu de contexte est nécessaire
  En soignant l’intégration VS Code, on pourrait probablement obtenir un autocomplétion correcte
  À mon avis, « MacBook Pro ou Strix Halo avec 128 Go de VRAM » est la configuration minimale viable pour du coding agentique
  En revanche, aujourd’hui, l’économie va dans l’autre sens. Les versions cloud sont de plusieurs ordres de grandeur moins chères que l’auto-hébergement, car le partage permet d’augmenter énormément le taux d’utilisation des serveurs
  Si une entreprise dépense 500 000 dollars dans du matériel pour faire tourner GLM 5.1, elle gagne en sécurité des données, en flexibilité et en absence de censure, mais cela reste beaucoup trop cher comparé à des abonnements Anthropic
- Le principal effet des modèles locaux pourrait être simplement d’empêcher que l’inférence à distance devienne l’unique option
Quelques lignes plus bas, tout le monde s’indignait que Chrome ait intégré un modèle LLM local utilisant plusieurs Go d’espace pour l’inférence locale
En gros, quoi qu’ils fassent, ils se feront critiquer
- Il suffit de ne pas consommer des gigaoctets de bande passante et de stockage sans demander
- Si j’ai besoin d’un modèle, j’irai le télécharger moi-même
  C’est ce que j’ai fait récemment pour jouer avec la génération d’images
- C’est une lecture un peu malhonnête
  Les gens ne sont pas en colère contre l’installation d’un modèle local en soi, ils sont en colère contre le manque d’autonomie de l’utilisateur
  Il suffit de ne pas l’installer en douce et de laisser le choix de télécharger ou non le modèle
  Ce n’est pas compliqué, et c’est ainsi que fonctionnent toutes les autres options locales
- Interprétation étrange
  Si ce n’est pas en opt-in ou si c’est imposé de force dans le navigateur, ce n’est pas terrible
  Personne ne s’énerve quand une application qui exécute un LLM local télécharge les données dont elle a besoin
- Il vaudrait mieux lire les commentaires pour voir ce dont les gens se plaignent réellement
  Ce commentaire traite la nature de la discussion de manière assez malhonnête
Je pense qu’il faut séparer la discussion sur l’IA privée de celle sur l’IA locale
Le choix réaliste pour faire tourner de gros LLM reste un ou plusieurs gros serveurs en ligne, mais cela ne signifie pas que seules des entreprises privées doivent les exploiter
Une solution d’inférence auto-hébergée offrant de bonnes garanties d’isolation entre locataires, idéalement en zero trust, et suffisamment simple à déployer et à maintenir — disons une sorte de Plex pour l’IA — constituerait une bonne option pour la confidentialité
Honnêtement, je n’ai pas du tout étudié le sujet et je ne sais même pas à quel point c’est réaliste. Peut-être que cela existe déjà et qu’il y a juste un serveur Discord que je devrais rejoindre
Et j’ajouterais, même s’il est presque inutile de le préciser ici, que le point frappant est que les modèles ouverts sont proches des meilleurs modèles commerciaux, donc on peut considérer que la partie la plus difficile est déjà globalement résolue
- Une autre option est l’inférence privée vérifiable consistant à faire tourner des modèles open source dans des enclaves sécurisées du cloud
  On utilise le confidential computing de NVIDIA, le code de l’enclave est open source, et lors de la connexion il est vérifié par attestation distante pour prouver cryptographiquement que le fournisseur d’inférence ne peut voir aucune donnée
  Tinfoil: https://tinfoil.sh/ en est un bon exemple. Pour divulguer un conflit d’intérêt, j’en suis le cofondateur
  On peut en lire plus sur le fonctionnement ici : https://docs.tinfoil.sh/verification/verification-in-tinfoil
  Dire que les modèles ouverts se rapprochent des meilleurs modèles commerciaux est globalement vrai pour certaines tâches
  Par exemple, une interface de chat exploite déjà difficilement une intelligence de modèle supérieure à celle fournie par les meilleurs modèles open source
  Mais les environnements d’exécution pour le code profitent encore d’une intelligence de modèle plus élevée, et en particulier le fait que, dans des outils comme claude-code ou codex, l’environnement d’exécution du fournisseur et l’interface d’appel d’outils du modèle soient étroitement couplés par apprentissage par renforcement est une autre raison pour laquelle il existe encore un écart, même à intelligence de modèle contrôlée
  Le fondateur d’opencode, un environnement open source d’exécution pour le code prenant en charge plusieurs fournisseurs de modèles, s’est récemment plaint de la difficulté à bien adapter l’environnement à chaque fournisseur : https://x.com/thdxr/status/2053290393727324313
L’exemple de l’article confirme mon intuition : pour réussir, les modèles locaux n’ont pas besoin d’être assez gros pour rivaliser avec les modèles de pointe, ils doivent simplement être assez bons
Ils doivent bien gérer les petites tâches et fonctionner raisonnablement sur des appareils grand public
C’est encore mieux s’ils tournent aussi sur téléphone
En expérimentant les LLM locaux, j’ai constaté qu’augmenter la taille du modèle est utile, mais que le véritable facteur qui transforme un modèle presque inutile en modèle utile, c’est sa capacité à utiliser des outils
Leur permettre d’effectuer des recherches web et de récupérer des pages web a bien plus aidé à réduire les hallucinations que d’utiliser un plus gros modèle, tout en évitant les problèmes de date de coupure de l’entraînement
Bien sûr, les plus gros modèles utiliseront peut-être mieux les outils, mais dans bien des cas les petits suffisent
J’ai créé une démo de ce que peut faire la nouvelle Prompt API de Chrome avec des modèles locaux : https://adsm.dev/posts/prompt-api/#what-could-you-build-with...
Comme dans l’article d’origine, cela brille dans des environnements limités où l’on transforme des données appartenant à l’utilisateur
C’est clairement moins utile pour des tâches plus ouvertes
- Je ne recommanderais pas de prendre la Prompt API de Chrome comme bon exemple de LLM local
  Ce n’est pas mauvais, mais c’est vraiment faible
  Les modèles 8B d’il y a un an étaient meilleurs sur certains points, et les modèles récents ont progressé de façon significative
- « Réécrire un texte publicitaire en utilisant le contexte alentour » : oui, exactement, c’est le plan
  Impossible sans modèle local ni page web
  Pendant que tout le monde supporte le coût en électricité et en usure matérielle, le vendeur récupère encore plus et mieux d’exploitation publicitaire et de surveillance à moindre coût
- On fait tourner un LLM pour réaliser une transformation de données qui conviendrait beaucoup mieux à une procédure déterministe, et pour cela on utilise une alimentation de 1000 watts
  Impressionnant, vraiment
Les acteurs en place feront tout pour bloquer le local, mais il y a plusieurs raisons techniques de penser que de petits modèles spécialisés pourraient finir par devenir la norme
Et si cela arrive, le local suivra
Le texte original se concentre sur la question de savoir si ce que veulent les utilisateurs exige de grands modèles
Mais il existe aussi des raisons de penser que les grands modèles pourraient ne jamais devenir suffisamment fiables en pratique tant que a) l’interprétabilité mécaniste n’aura pas assez mûri ou b) les systèmes multi-agents ne seront pas eux-mêmes tous multi-modèles
Dans le cas a), les progrès de l’interprétabilité mécaniste pourraient certes corriger les problèmes des grands modèles, mais aussi permettre d’obtenir des représentations intégrées et de découper uniquement les parties utiles de très grands modèles
L’idée serait de ne garder que ce qui est nécessaire et de jeter le reste, pour réduire le coût et la surface de problèmes
Besoin seulement de raisonnement ? Seulement de vision ? Il suffirait d’extraire cette partie du monstre gigantesque
La capacité à isoler les problèmes viendra difficilement sans la capacité à isoler des sous-systèmes fonctionnels
Dans le cas b), il suffit de regarder les evil vectors ou les catégories d’hallucinations spécialisées dans l’utilisation d’outils
S’il n’existe pas de solution complète à l’alignement aide/honnêteté/innocuité, alors créativité et rigueur — ainsi que beaucoup d’autres dimensions — risquent d’être fondamentalement en tension
Si, de toute façon, il faut plusieurs modèles pour tout faire, pourquoi aurait-on besoin d’un modèle universel gigantesque et coûteux ?
La spécialisation devient alors elle aussi une pression vers une réduction de tout à un ensemble minimal de modèles experts fiables
Mon problème avec les LLM, indépendamment des aspects philosophiques et de l’impact économique, c’est qu’il semble difficile d’entraîner localement des modèles fonctionnels
On pourra faire des LLM jouets, mais j’ai du mal à croire à quelque chose de vraiment utile
Il faut non seulement une puissance de calcul énorme, mais aussi des jeux de données qui ont souvent été obtenus illégalement
- Cela me semble trop pessimiste
  Je ne suis peut-être pas moi-même d’une intelligence exceptionnelle, mais pour acquérir l’intelligence que j’ai aujourd’hui, je n’ai pas eu besoin d’apprendre tous les livres jamais écrits, tous les articles Wikipedia, tous les billets de blog, tous les manuels de référence ni chaque ligne de code
  En réalité, je n’en ai appris ni 1 %, ni même 0,00000000001 %
  Il est donc clair que le texte en lui-même n’est pas une condition préalable à l’intelligence
  Au minimum, si j’ai pu approcher une forme d’intelligence simplement en observant vaguement le monde autour de moi pendant une vingtaine d’années, c’est un argument fort en faveur de l’idée que le « jeu de données » nécessaire se réduit à des capteurs et au monde environnant
  Bien sûr, le cerveau humain ne part pas de zéro, et des millions d’années d’évolution ont été nécessaires pour créer le substrat dans lequel l’intelligence peut prendre racine
  Mais cette structure de base semble assez générale et ne paraît pas dépendre d’un ensemble d’apprentissage particulier
  On pourrait peut-être aussi la faire évoluer artificiellement
- Avec la technologie actuelle, ce n’est pas tout le modèle, mais LoRA est vraiment excellent pour le fine-tuning et peut être produit en quelques heures sur une machine gaming haut de gamme
  Tant que le modèle de base prend en charge ma langue, il est probable que je puisse entraîner quelques LoRA par mois avec la puissance de calcul inutilisée de mes appareils électroniques
  Quand les ordinateurs domestiques ordinaires atteindront à l’avenir le niveau des serveurs actuels, on pourra sans doute entraîner des LLM complets à la maison
- Ce point est important, car même si l’on exécute le modèle en local, il peut rester propriétaire
  Je n’ai aucune prise sur ce avec quoi il a été entraîné, la manière dont les données d’entraînement ont été annotées, les garde-fous intégrés ou les biais qu’il peut contenir
- Il existe déjà énormément de technologies qu’on ne peut pas reproduire localement, et je ne pense pas que les LLM soient si différents
  Comme pour tout le reste, il y aura des grands fabricants de LLM, des petits fabricants de LLM, des créateurs artisanaux de LLM, des passionnés de LLM et des consommateurs de LLM
- Cela dépend du domaine
  Il existe beaucoup de cas d’usage où l’on peut obtenir les données d’entraînement nécessaires pour un usage personnel ou non commercial
  À partir de là, ce n’est plus qu’une question de quantité de calcul et de temps nécessaires à l’entraînement, et si l’on est prêt à attendre, on peut produire des modèles utiles avec du matériel grand public
Il est vrai qu’il faudrait « n’utiliser les modèles cloud qu’en cas de réel besoin », mais le problème est qu’il est bien plus facile d’utiliser des modèles de pointe subventionnés que de passer du temps à régler une configuration de modèle local
Je viens justement de m’en rendre compte avec les agents de code
On n’a pas toujours besoin de la toute dernière version en xhigh, mais au final on finit quand même par l’utiliser
Parce que cela permet de terminer le travail en moins de temps, avec moins d’efforts, et pour pratiquement le même prix
Je pense qu’on ne verra de véritables efforts sérieux vers l’IA locale que lorsque les principaux fournisseurs commenceront à facturer au volume réel de tokens consommés
- Le fait qu’utiliser les modèles de pointe soit plus simple n’est pas un problème, c’est une fonctionnalité
  J’ai en permanence environ 8 onglets de fournisseurs gratuits ouverts, et ChatGPT, Claude et Gemini sont du côté de l’état de l’art
  Je peux épuiser la limite de l’un, puis passer au suivant sans difficulté
  Je peux faire cela toute la journée pour leur faire implémenter certaines fonctions ou classes de mon code
  Comme je sais réellement écrire et concevoir du logiciel, je n’ai pas besoin de faire tourner l’agent en boucle pour tout produire en une journée
  Avec juste des chatbots web et du copier-coller, je peux générer des milliers de lignes de code par heure tout en gardant un modèle mental solide du code et en modifiant moi-même ce qui doit l’être
  C’est exactement ce que j’ai fait ce matin sur un projet Python
  Comme j’avais conçu ce dont j’avais besoin, chaque génération consistait à demander une seule fonction, et quand il a fallu ajouter quelque chose le matin même, je suis allé directement au bon endroit pour le corriger moi-même sans même demander au chatbot
  On ne peut pas faire cela si l’on génère un système entier à partir d’une spécification
- La voie de moindre résistance finit généralement par l’emporter
  Surtout quand le prix masque le coût réel
- Je n’obtiens pas de bons résultats avec les modèles locaux
  À chaque fois qu’un article sur les LLM est publié, beaucoup de commentateurs affirment avec insistance qu’ils obtiennent avec les derniers DeepSeek/Qwen, etc. des résultats aussi bons qu’Opus, mais mon expérience ne ressemble en rien à cela
  Les modèles open source s’effondrent complètement, comparés à Claude, dès qu’on leur demande quelque chose d’un peu complexe
  Cela me fait penser au Linux des années 90
  Ça fonctionnait plus ou moins, mais ce n’était vraiment pas prêt pour le grand public, et beaucoup de gens insistaient en face de vous, pour des raisons surtout idéologiques, que tout allait très bien
Les gens essaient réellement de construire le « meilleur logiciel possible »
Les accélérationnistes donquichottesques de l’IA ne représentent qu’une minorité bruyante parmi ceux qui fabriquent du logiciel, et choisir des API en ligne plutôt que des systèmes locaux n’est généralement pas de la paresse de développeur, mais un choix en faveur de l’utilisateur
Aujourd’hui, on peut faire davantage de choses, et mieux, avec une IA privée qu’avec des modèles locaux
C’est inévitable
Même si l’IA locale progresse, rester à la frontière de performance des LLM vaut souvent l’investissement
La plupart des gens n’adoptent pas un produit s’il n’est pas au meilleur niveau et extrêmement pratique
Le niveau d’exigence est élevé, et l’IA locale n’y répond pas souvent
L’obsession de HN à traiter tous les utilisateurs comme des fanatiques de Linux open source, privacy-first et auto-hébergé est embarrassante de ringardise