Le retour du fine-tuning

(welovesota.com)

13 points par GN⁺ 2025-10-21 | 2 commentaires | Partager sur WhatsApp

Le fine-tuning revient au premier plan des méthodologies de développement de l’IA, relancé par l’annonce de Tinker par Thinking Machines Labs et par le basculement de paradigme vers le déploiement de LLM open source auto-hébergés
Le fine-tuning, qui était un temps tombé à moins de 10 % des charges d’inférence IA, attire de nouveau l’attention grâce aux plateformes de GPU-as-a-service, à la stabilisation de l’écosystème des modèles et à la diffusion des modèles à poids ouverts
La technologie LoRA (Low-Rank Adaptation) réduit fortement les coûts en n’ajoutant que de petites matrices de bas rang au lieu de réentraîner des milliards de paramètres, tout en maintenant ou en améliorant les performances
Tinker propose une architecture de continual learning via apprentissage par renforcement en ligne, qui esquisse l’avenir du fine-tuning en évaluant et en améliorant les réponses du modèle lui-même au lieu d’imiter des réponses rédigées à l’avance
Le fine-tuning évolue au-delà d’une simple étape technique pour devenir une couche stratégique dédiée à la propriété, à l’alignement et à l’amélioration continue, et devrait être un moteur clé des ordinateurs IA personnels et de l’exploitation d’agents spécialisés

Contexte historique du fine-tuning

Thinking Machines Labs a annoncé Tinker, relançant le débat autour du fine-tuning-as-a-platform
- Cette startup fondée par Mira Murati, ex-CTO d’OpenAI, a été valorisée à 12 milliards de dollars six mois seulement après sa création
- Elle positionne sa plateforme de fine-tuning comme base de collaboration de recherche avec les universités
Clément Delangue de Hugging Face observe un changement de paradigme vers des déploiements de LLM spécialisés, open source et auto-gérés
- Du matériel dédié comme le DGX Spark de NVIDIA soutient cette évolution
- Le Personal AI Workstation d’a16z illustre cette tendance d’un point de vue marketing
Le fine-tuning a brièvement attiré l’attention après la première vague des grands modèles de langage, avant de disparaître rapidement et de ne plus représenter aujourd’hui moins de 10 % des charges d’inférence IA

Avant l’ère des Transformers

Avant la révolution Transformer, le NLP reposait sur des modèles spécialisés
- Les architectures récurrentes comme les RNN et les LSTM ont permis les premiers progrès
- Pour la première fois, elles apprenaient directement à partir de séquences de mots plutôt qu’à partir de caractéristiques linguistiques conçues manuellement
- Chaque application devait repartir de zéro avec des données propres à la tâche

L’arrivée des Transformers et l’établissement de la méthodologie du fine-tuning

En 2017, l’article de Google Attention Is All You Need a introduit l’architecture Transformer
- Il remplaçait la récurrence et la convolution par la seule self-attention
Sept mois plus tard, ULMFiT a démontré qu’un modèle de langage préentraîné — encore basé sur des LSTM à l’époque — pouvait être affiné pour diverses tâches
- Il a établi la base méthodologique qui a rendu les Transformers réellement pratiques
Un an plus tard, BERT et GPT-1 ont mis ce design en application
- BERT exploite le versant encodeur à attention bidirectionnelle pour la compréhension
- GPT utilise le versant décodeur à attention unidirectionnelle pour la génération
BERT a notamment reconfiguré la culture du NLP
- Au lieu de construire chaque modèle à partir de zéro, les chercheurs ont pu affiner des Transformers préentraînés pour atteindre des résultats qui auraient auparavant demandé des mois de feature engineering manuel

Les limites du full fine-tuning et l’émergence de LoRA

Quand le nombre de paramètres est passé de quelques millions à des centaines de milliards, le fine-tuning n’a plus été un choix raisonnable
- Le Full Fine-Tuning (FFT) consiste à réentraîner toutes les couches et tous les poids
- Il offrait de la précision, mais à un coût colossal
- Ce qui ne demandait autrefois que quelques heures de GPU est devenu un travail industriel à grande échelle
En 2021, Microsoft Research a présenté LoRA (Low-Rank Adaptation of Large Language Models)
- Au lieu de réentraîner des milliards de paramètres, LoRA fige les poids d’origine et ajoute de petites matrices de bas rang dans des couches sélectionnées
- Seules celles-ci sont entraînées, ce qui réduit le coût d’un ordre de grandeur tout en maintenant ou en améliorant les performances du FFT
- LoRA est devenu l’approche par défaut
- En 2024, grâce à la bibliothèque PEFT de Hugging Face, son implémentation est devenue possible avec une seule ligne de commande

La complexité du réglage des hyperparamètres

Le fine-tuning est bien plus qu’un simple paquet à déployer et à maintenir
- Le vrai travail se joue dans le réglage lui-même, et il n’existe jamais de configuration unique valable pour tout
Le réglage des hyperparamètres détermine à lui seul le succès ou l’échec d’un modèle
- Trouver le bon équilibre entre le rang, le taux d’apprentissage et le ratio alpha relève plus de l’alchimie que de la science
- Il faut éviter que les adaptateurs surapprennent ou que le modèle oublie ce qu’il savait déjà (catastrophic forgetting)
Quand on obtient enfin quelque chose qui fonctionne, l’évaluation ressemble souvent davantage à de la divination qu’à de la validation
Pendant ce temps, les LLM continuaient de s’améliorer sur presque toutes les tâches, au point de se rapprocher d’une forme de polyvalence totale
- En 2023, la plupart des équipes ont compris qu’elles pouvaient atteindre environ 90 % des performances du fine-tuning par le prompt engineering, grâce notamment à des fenêtres de contexte plus larges
- Le RAG (Retrieval-Augmented Generation) permet aussi au modèle d’accéder à des bases de connaissances externes
- Ces deux approches ne nécessitent aucun réentraînement et offrent des résultats corrects avec une charge opérationnelle bien plus faible

Pourquoi le fine-tuning revient sur le devant de la scène

Les facteurs qui rendaient autrefois le fine-tuning secondaire ou inefficace sont désormais levés un à un
- Des plateformes de GPU-as-a-service comme Together.ai permettent de démarrer un pipeline de fine-tuning LoRA avec un minimum de friction
- De nouveaux modèles continuent d’arriver rapidement, mais les changements sont désormais évolutifs plutôt que révolutionnaires
- L’écosystème open-weight — avec Mistral, Llama, Falcon, Yi ou Gemma — offre de nombreuses alternatives permettant aux organisations de posséder, inspecter et maintenir des variantes fine-tunées sans dépendance fournisseur
- Les entreprises ont peut-être atteint les limites de ce que le simple prompting peut apporter
Le fine-tuning revient lentement sous les projecteurs, non comme une fonctionnalité à la mode, mais comme un levier stratégique de contrôle, de différenciation et d’intelligence embarquée

Tinker de Thinking Machines Labs et les améliorations apportées à LoRA

Tinker de Thinking Machines Labs se concentre sur la démonstration de théorèmes, le raisonnement chimique, l’apprentissage par renforcement multi-agents et la sûreté de l’IA
Dans leur billet de blog LoRA Without Regret, l’équipe explique comment fine-tuner plus efficacement
- Elle recommande d’appliquer LoRA à tous les modules linéaires, et pas seulement aux couches d’attention comme dans l’article original
- Elle souligne l’importance du rang LoRA, un hyperparamètre souvent négligé
- Elle conseille un taux d’apprentissage plus élevé (au moins 10x), ainsi qu’une taille de batch plus faible, à rebours des pratiques courantes
- Elle recommande de définir explicitement une fonction de récompense à l’aide de vérifications mathématiques ou logiques
- Toutes ces recommandations sont clairement documentées et reproductibles dans TRL de Hugging Face

La modularité des pipelines modernes de fine-tuning

Les pipelines modernes de fine-tuning n’ont plus grand-chose à voir avec ceux d’il y a cinq ans
- Ils sont modulaires, serverless et orchestrés
Un seul déploiement peut exécuter des dizaines d’adaptateurs LoRA autour d’un modèle de base
- Chacun représente un ton, une fonction ou un domaine spécifique
Au moment de l’inférence, le système redirige les requêtes vers la bonne combinaison d’adaptateurs, au lieu de s’appuyer sur un fichier de modèle statique
Cette modularité crée néanmoins ses propres défis
- Des plateformes tout-en-un comme Together.ai absorbent l’essentiel de la complexité, mais manquent souvent de configuration fine et d’observabilité pour de nombreuses équipes
- Les coûts à grande échelle peuvent rapidement s’envoler

L’approche singulière de Tinker

Tinker semble offrir le meilleur des deux mondes
- Il combine le confort d’une stack moderne de fine-tuning entièrement managée avec le niveau de contrôle fin recherché par les chercheurs
- Il fournit un accès API direct à des primitives d’apprentissage bas niveau, afin que les utilisateurs puissent orchestrer des workflows d’entraînement et des algorithmes personnalisés au niveau le plus profond
- En parallèle, il prend en charge les tâches les plus pénibles
Pour l’instant, Tinker est réservé à la recherche, mais il devrait inspirer d’autres plateformes
Les problèmes d’infrastructure deviennent progressivement secondaires, mais un défi majeur demeure : l’évaluation

Les difficultés de l’évaluation des modèles et l’apprentissage par renforcement en ligne

Les modèles sont très difficiles à évaluer
- L’évaluation humaine est incohérente, lente et surtout coûteuse
- Les benchmarks vieillissent vite et perdent de leur pertinence à cause de la contamination des données
- Même les approches automatisées comme G-Eval ou Chatbot Arena posent leurs propres problèmes, en amplifiant souvent les biais et en produisant des scores instables
Benjamin Anderson suggère que Tinker détient peut-être une partie de la solution
- Tinker donne aux utilisateurs la capacité d’effectuer de l’apprentissage par renforcement en ligne
- Il génère des sorties à partir des poids actuels du modèle, note ces sorties, puis met à jour le modèle selon qu’elles sont bonnes ou mauvaises
- L’apprentissage supervisé apprend au modèle à imiter des réponses écrites à l’avance, tandis que le RL en ligne lui permet d’améliorer ses propres réponses en les évaluant
Avec une telle architecture, l’avenir du fine-tuning pourrait ne plus ressembler au fine-tuning tel qu’on le connaît
- Il commence à prendre la forme d’un apprentissage continu

L’évolution stratégique du fine-tuning

Robert Hommes de Moyai.ai résume ainsi la situation
- « En théorie, le fine-tuning a toujours été rationnel. Mais la vitesse à laquelle les laboratoires closed source augmentaient l’intelligence des modèles en faisait un mauvais choix en pratique »
- « Désormais, avec plus de calcul, plus de données et de meilleurs frameworks, la spécialisation revient au centre »
Le passage à l’auto-hébergement pourrait arriver plus vite que prévu
- Selon Constant Razel d’Exxa, « les ordinateurs IA personnels ne sont plus une idée lointaine »
- La technologie s’améliore et devient plus accessible
- La sécurité et les coûts pourraient stimuler les premières adoptions
- Le fine-tuning permettra ensuite à des agents spécialisés et hautement performants de fonctionner par-dessus
Le fine-tuning se transforme : d’une quête brutale de précision marginale, il devient un cadre de propriété, d’alignement et d’amélioration continue ancré dans la proximité et le contrôle
Il ne s’agit plus simplement d’une étape technique, mais potentiellement d’une couche stratégique dans la manière dont l’intelligence est construite et possédée

2 commentaires

m00nlygreat 2025-10-22

Les humains finissent plutôt par devenir un obstacle au progrès de l’IA. C’est un dilemme assez intéressant, non ? haha

GN⁺ 2025-10-21

Discussion Hacker News

Il y a encore un an, j’étais optimiste. Il y a même eu au moins un cas où le fine-tuning basé sur le RL avait du sens. Mais dès qu’on essaie de l’appliquer en production, il se heurte souvent aux technologies déjà en place dans l’industrie. Parmi les ingénieurs ML autour de moi, surtout ceux embauchés depuis l’arrivée des LLM, beaucoup manquent de véritables connaissances en ML. En pratique, ce sont plutôt des développeurs IA ou des profils AI DevOps. Le ML lui-même est en train de devenir, comme la data engineering ou l’analytique, un métier où l’on utilise surtout des outils de plateforme. D’ailleurs, parmi les produits IA des plateformes cloud, certains ne fournissent même pas de métriques d’évaluation, ce qui rend impossible le développement d’une vraie solution ML. Et presque personne ne semble y voir un gros problème. Le fine-tuning RL exige énormément de détails, de points de monitoring et de refinement des données. Alors que peu de gens apprennent encore correctement les bases du ML, l’écart d’apprentissage pour le fine-tuning RL est bien plus grand. Comme il existe peu de bons cas concrets, on a rarement l’occasion d’apprendre auprès de seniors en entreprise. Les entreprises cherchent aussi à réduire les coûts liés à l’affectation d’experts ou au labeling des données. Je doute qu’une entreprise continue longtemps à soutenir ce type de technologie, ou qu’après mon départ quelqu’un reprenne vraiment le relais. Même AutoML n’a pas réussi à se démocratiser, et je pense que le RL sera lui aussi difficile à transformer en plateforme. En réalité, la plupart des entreprises n’ont aucun scrupule à payer davantage pour des produits inférieurs mais massivement scalables. L’« expérience » dans le secteur, au fond, c’est surtout de l’expérience sur des plateformes propriétaires. On voit parfois « pytorch » demandé dans la stack, mais en pratique presque personne ne sait vraiment s’en servir. Et même quand c’est le cas, la charge opérationnelle empêche de l’utiliser
- Le labeling est vraiment indispensable pour valider un système rapidement et objectivement, même sans entraîner le modèle. Mais obtenir des labels reste toujours très difficile. Même quand on arrive à mobiliser des ressources SME, il est compliqué de communiquer l’exigence d’appliquer des critères cohérents de manière stricte, et les labels finaux sont souvent difficiles à exploiter. Au final, il m’est souvent arrivé de faire moi-même le labeling, de façon volontaire et en solitaire. Je ne maîtrisais pas toujours bien le domaine, mais je savais à peu près « ce qu’aime un réseau de neurones », ce qui permettait au moins de réduire fortement le temps d’attente. Affiner de gros modèles reste encore difficile à justifier. Souvent, il suffit d’attendre six mois pour qu’un meilleur modèle de base arrive. En revanche, si les grands modèles sont trop coûteux et inefficaces dans une certaine zone d’usage, fine-tuner un petit modèle pour un objectif précis a clairement de la valeur
- J’ai l’impression que la vraie ingénierie, c’est-à-dire la capacité à transformer une théorie complexe en système qui fonctionne réellement, s’est beaucoup affaiblie au sens fort. On observe désormais une tendance à s’appuyer sur des services d’ingénierie déjà prêts plutôt qu’à investir beaucoup de temps pour développer sa propre maîtrise. D’un point de vue hacker, on ne demande pas forcément un ROI au fait d’entraîner soi-même un modèle sur un GPU obscur. Un ingénieur individuel le fait aussi par soif d’apprentissage
- Au final, quelqu’un finira par produire de vrais résultats mesurés correctement, Michael Lewis écrira un livre sur le sujet, et un nouveau cycle recommencera
- Moi aussi, j’ai vu beaucoup d’équipes qui attendaient de gros gains du fine-tuning n’obtenir en réalité que des améliorations progressives ou minimes. Elles vont parfois jusqu’à productiser la chose, puis finissent par le regretter parce qu’elles n’arrivent pas à suivre les dernières mises à jour SOTA. Pour ma part, j’évite délibérément le fine-tuning. Les modèles s’améliorent tellement vite que la vitesse de développement produit des grandes entreprises n’arrive pas à suivre
Récemment, j’ai lancé sur Twitter un sondage sur les cas où le fine-tuning de LLM a créé une vraie valeur économique. Je pose cette question environ tous les six mois, et jusqu’ici les résultats étaient presque toujours décevants. Cette fois, j’ai reçu des réponses un peu plus crédibles qu’avant. J’ai résumé les principaux cas dans mon thread, et pour les personnes sans compte Twitter j’ai aussi partagé un lien vers un thread viewer. Parmi les cas marquants, on peut citer Datadog, qui a obtenu une latence inférieure à 500 ms sur sa fonctionnalité de requêtes de recherche en langage naturel tweet lié, voir aussi la documentation officielle. Vercel exploite un modèle fine-tuné personnalisé pour la génération automatique de Next.js, avec aussi un billet de blog. Shopify utilise de son côté un Vision LLM fine-tuné pour l’analyse de photos de produits, voir cet article
- Pour les tâches de régression (regression), le fine-tuning est quasiment indispensable. En classification (classification) aussi, c’est utile, car on peut exploiter directement les probabilités pour ajuster les seuils oui/non
- Pour la plupart des entreprises, j’imagine que le rapport risque/récompense du fine-tuning sera moins bon qu’espéré. Si on peut simplement injecter davantage de données dans le prompt, c’est souvent plus simple
- Si vous avez une idée de cas où le fine-tuning pourrait changer la donne, mais pas le temps ni les ressources pour l’expérimenter vous-même, je serais ravi que vous la partagiez. Je collecte actuellement ce genre de cas, et pour l’instant je n’en ai que trois qui soient réels et vérifiés
- Beaucoup de gens qui veulent injecter de la connaissance métier dans un LLM via le fine-tuning commettent l’erreur de simplement découper des livres de psychologie et d’en envoyer le texte brut. Avec cette méthode, on n’apprend pas au modèle à « appliquer la psychologie », mais seulement à « écrire un texte de présentation » sur le sujet. Une mauvaise conception du dataset est à l’origine de nombreux échecs de fine-tuning. À l’inverse, si la composition du dataset est bonne, un modèle 7B peut dépasser un modèle 180B en efficacité
Quelques exemples vus récemment me font rejoindre l’avis de l’OP. PaddleOCR atteint, avec 0.9B paramètres, une précision proche du SOTA sur le texte, les tableaux, les formules, les graphiques et l’écriture manuscrite papier. Et des modèles 3B/8B obtiennent une précision de niveau GPT-5 sur une tâche d’extraction HTML vers JSON, pour un coût 40 à 80 fois inférieur et une inférence plus rapide Reddit. Si l’objectif est d’améliorer l’efficacité sur une tâche spécifique, le fine-tuning a du sens
- Je me demande si quelqu’un a vraiment utilisé PaddleOCR directement. Je trouve étrange de revendiquer le SOTA sans comparaison avec Amazon Textract ou Azure Document Intelligence (basé sur LayoutLM v3). Quand j’ai fait des essais de reconnaissance de documents, ces deux-là étaient les meilleurs
- Cette discussion ramène aussi à la question SLM vs LLM, donc à la taille des modèles. Les SLM peuvent être optimisés pour un workflow précis et battre les LLM sur cette tâche particulière. Mais sauf si 1. la précision est absolument critique ou 2. le trafic est énorme, la valeur obtenue ne justifie pas forcément le temps et l’effort
En tant que fondateur d’une startup de fine-tuning LLM appelée Lamini, je ne suis pas d’accord avec l’OP. Notre hypothèse était que le fine-tuning serait bien plus facile à utiliser que d’apprendre le deep learning depuis zéro. Comme on part déjà de LLM très puissants, on pensait que ce serait plus simple. Mais après une vingtaine de projets réels, notre constat a été que le fine-tuning est quasiment aussi difficile et aussi inaccessible que le deep learning. Dans la structure actuelle du marché, un ingénieur ML capable de faire du fine-tuning fondé sur le deep learning peut facilement créer sa startup ou rejoindre Anthropic, OpenAI, etc. Dans les équipes qui construisent réellement des solutions LLM, les très bons ingénieurs ne sont pas si valorisés. Résultat : les équipes spécialisées qui construisent Claude, GPT, Qwen et autres sont plus compétitives que les tentatives de fine-tuning des utilisateurs individuels. Aujourd’hui, le RAG, le prompt engineering, le raisonnement, les agents IA, la mémoire et les SLM sont des solutions bien plus simples et plus puissantes
- Je me demande si Anthropic ou OpenAI cherchent vraiment à recruter n’importe qui sait faire du fine-tuning LLM
- Je me demande quel type de modèles vous fine-tuniez à l’époque, si ces modèles étaient assez mûrs pour bien se prêter au tuning, et s’il y avait des problèmes de catastrophic forgetting. Il existe aujourd’hui bien plus de bons modèles open source. Si l’architecture est pensée dès le départ pour le fine-tuning, je pense qu’on peut dépasser les limites des générations précédentes. Les entreprises préfèrent posséder directement leur propre modèle plutôt que de louer celui des autres
Le fine-tuning est une bonne technique à avoir dans sa boîte à outils. Mais en pratique, le champ d’application réel est plus restreint qu’on ne l’imagine. D’un côté, pour beaucoup de tâches NLP, les performances de base des LLM sont déjà suffisamment élevées pour rendre le fine-tuning inutile. De l’autre, pour les tâches vraiment complexes, le fine-tuning est très difficile et la collecte de données coûte très cher. Au final, le fine-tuning est surtout une solution adaptée aux tâches situées au milieu : difficulté raisonnable et collecte de données réaliste
- Je pense qu’il existe des centaines de milliers de cas d’usage pertinents
- Je serais curieux d’avoir des exemples de tâches qui relèvent justement de ce « milieu »
Ce site web se charge vraiment très vite, même depuis l’Europe. Le contenu se charge dynamiquement au scroll, et les images ont un très bon rendu malgré un fort taux de compression. La structure du site est vraiment impressionnante
- J’imagine que c’est la magie du CDN, plus un usage minimal de JS (je n’ai pas encore regardé le code source)
J’ai récemment écrit un billet de blog sur un sujet proche blog. J’y parle de « LoRA Land », une vaste étude empirique où un modèle 7B fine-tuné a dépassé GPT-4, ainsi que de l’évolution des tendances du fine-tuning sur les six derniers mois
Je me demande si des adaptateurs LoRA permettraient d’internaliser dans le modèle des éléments de contexte qu’il faut sinon injecter dans le prompt existant : standards de travail, préférences de naming, documents de référence, définitions MCP, etc. Pour créer les données, il suffirait de conserver au maximum le contexte existant, de tester divers prompts, puis d’observer en quoi les réponses diffèrent du baseline. On pourrait ensuite injecter ces résultats dans le fine-tuning sous la forme input=“refactor {base model output}”, output=“{full-context model output}”. Comme LoRA a été conçu à l’origine pour être combiné, on pourrait sans doute aussi distribuer MCP sous forme d’adaptateur activable ou désactivable. Je pense que cette approche pourrait même prévenir le context poisoning
Je suis le développeur de inference.net et de schematron. Les entreprises appliquent de plus en plus les LLM à de vrais produits et se préoccupent davantage de l’efficacité. Du point de vue d’un développeur, même si l’on peut facturer un modèle coûteux comme GPT-5-Super-AGI-Thinking-Max, une entreprise regarde aussi l’efficacité. Si l’on peut fine-tuner en 48 heures un modèle Llama de 8 milliards de paramètres à partir de données GPT-5 et économiser 100 000 dollars par mois, évidemment tout le monde voudra saisir cette opportunité
On dirait qu’à présent la plupart des entreprises ont atteint la limite de ce qu’on peut faire avec de simples prompts. Elles ont besoin d’un modèle qui connaisse précisément leur vocabulaire, leur ton, leur taxonomie et leurs règles de conformité. La vitesse et le coût comptent aussi, et c’est une raison majeure du fine-tuning. Mais les techniques de gestion du contexte permettent aussi de travailler en complément. À mesure que la taille du contexte a augmenté, le RAG a remplacé le fine-tuning, et plus récemment de meilleurs designs de prompts ont fortement accru l’utilité pratique. Comme dans les débats FPGA vs CPU/GPU, la plupart ne profitent pas des gains du fine-tuning haut de gamme à cause des coûts de développement et des risques sur les délais pour atteindre les meilleures performances