L’écart entre les LLM à poids ouverts et les LLM fermés

(blog.doubleword.ai)

1 points par GN⁺ 4 시간 전 | 1 commentaires | Partager sur WhatsApp

Dans l’Artificial Analysis Intelligence Index, les LLM à poids ouverts montrent depuis l’été 2024 une réduction régulière du temps nécessaire pour rattraper les performances passées des LLM fermés
En traçant une ligne de tendance sur cet indicateur unique, l’écart atteindrait 0 mois le 3 décembre 2026, ce qui suggère que les modèles ouverts rejoindraient alors, selon cet indicateur, les modèles fermés de pointe
En étendant la même analyse à l’ensemble des 18 benchmarks, l’écart moyen apparaît presque plat et reste à moins de 5 mois sur toute la période
L’essentiel des progrès provient surtout des benchmarks de code, où l’écart est passé de 15 mois à 1 à 2 mois
L’évaluation de la qualité des LLM varie fortement selon le critère de mesure, ce qui permet à la fois d’interpréter que les modèles ouverts vont bientôt rattraper leur retard, ou qu’ils restent durablement environ 5 mois derrière

Le rattrapage rapide montré par un indicateur unique

L’écart est calculé en prenant comme référence la frontière des benchmarks des LLM à poids ouverts, puis en remontant dans le temps pour déterminer à quel moment la frontière des LLM fermés a atteint le même niveau de performance
L’indicateur principal utilisé est l’Artificial Analysis Intelligence Index d’Artificial Analysis, qui vise à évaluer les capacités globales d’un modèle
Selon cet indicateur, l’écart entre les LLM à poids ouverts et les LLM fermés a commencé à se réduire vers l’été 2024, et cette tendance à la baisse s’est poursuivie depuis
En prolongeant la ligne de tendance dans le futur, l’écart atteint 0 mois le 3 décembre 2026
- Cela correspond à environ 6 mois à partir du moment de la rédaction

Une conclusion différente avec 18 benchmarks

En appliquant la même analyse à l’ensemble des 18 benchmarks d’Artificial Analysis, on obtient une image différente de celle donnée par l’indicateur unique
Pour chaque mois, les écarts des 18 jeux de données sont représentés en boxplot, puis une ligne de tendance est calculée sur l’écart moyen de l’ensemble des jeux de données
La ligne de tendance de l’écart moyen est presque totalement plate et reste proche de moins de 5 mois sur toute la période
Une part importante de l’amélioration des modèles provient des indicateurs de code
- L’indice de code est passé d’un retard de 15 mois à un retard de 1 à 2 mois
- Pour la plupart des autres jeux de données, l’écart tend au contraire à augmenter lentement avec le temps
Le jugement sur la qualité des LLM varie fortement selon le critère de mesure
- Selon un critère, on peut prédire une singularité open source autour de Noël
- Selon un autre, les LLM open source restent durablement environ 5 mois derrière les LLM fermés, et l’écart pourrait même s’élargir

1 commentaires

GN⁺ 4 시간 전

Avis de Hacker News

Le plus gros problème pour l’avenir des modèles à poids ouverts, c’est que les modèles à poids ouverts actuels sont le fruit de la bonne volonté d’organisations privées comme DeepSeek.
Le robinet peut être fermé à tout moment, et tant qu’il n’existera pas, sous une forme ou une autre, de matériel appartenant à la communauté, les modèles à poids ouverts resteront exposés au risque d’être interrompus.
- Cela dit, le principal avantage des modèles ouverts, c’est qu’une performance une fois publiée ne peut pas être retirée.
  Même si plus aucun nouveau modèle ne sortait à l’avenir, les capacités déjà atteintes resteraient là. À l’inverse, les modèles basés sur API peuvent être arrêtés à la discrétion du fournisseur, et l’on peut très bien voir gpt5-mini disparaître bientôt pour être remplacé par un 5.4-mini plus cher.
  Nvidia a un intérêt direct à ce que les gens fassent tourner des modèles, donc elle a des raisons de continuer à sortir la famille Nemotron ; Google aussi sait que les petits modèles destinés aux fonctionnalités du navigateur finiront de toute façon par fuiter, donc il vaut mieux pour elle gagner des parts de marché auprès des développeurs.
  Les labos chinois ont eux aussi des raisons de continuer à publier des modèles, et la guerre commerciale entre États rend probable la poursuite du soutien public.
- DeepSeek n’est pas une œuvre de charité, cela ressemble davantage à un fonds spéculatif qui cherche à vendre à découvert le marché occidental de l’IA.
  C’est une manière de dire : « nous pouvons faire 90 % de ce que vous faites pour 1/10 du coût, et nous sommes meilleurs sur les métriques de densité » ; du moins, selon ma théorie, ça ressemble à un Hindenburg Research de l’IA.
- En tant qu’auteur original du billet, je pense que l’avenir des modèles à poids ouverts ressemblera à celui des sociétés de conception de puces fabless.
  Des entreprises capables d’entraîner des modèles pourraient apparaître, puis les concéder sous licence à des sociétés d’inférence qui exploitent des API.
  Les sociétés d’inférence peuvent fonctionner avec beaucoup moins de capital, et les sociétés d’entraînement n’ont pas besoin de détourner leurs ressources vers l’inférence.
  Certaines entreprises chinoises qui entraînent des modèles les concèdent déjà sous licence à des fournisseurs d’inférence de cette manière.
- Il nous faut quelque chose comme SETI@Home pour l’entraînement de modèles.
- Ce n’est pas de la charité : les labos ont quelque chose à gagner en apprenant les uns des autres à partir de modèles publiés.
  Financièrement aussi, ça me semble cohérent. Un utilisateur qui exploite au maximum les limites de son abonnement peut coûter à l’opérateur plus cher que le prix de l’abonnement, et c’est peut-être aussi pour cela qu’Anthropic réagit si fortement à la collecte de données chinoise.
  Si les poids sont publiés, un concurrent n’a plus besoin de marteler le service par abonnement : il peut télécharger le modèle, l’analyser et le faire tourner toute la journée, ce qui réduit la pression.
  Pour les plus gros modèles, pratiquement personne n’a de raison de les faire tourner soi-même, sauf les grands acteurs. La location de matériel est absurdement plus chère qu’un abonnement et coûte des dizaines de milliers de dollars ; à l’achat, il faut compter des centaines de milliers de dollars.
Il y avait des formules du genre « c’est le bon moment pour liquider sa retraite, s’envoler vers une île isolée et passer en paix les six mois de civilisation qu’il nous reste », ou « donc la fin de l’open source n’est peut-être pas encore arrivée », mais je ne vois pas depuis quand de bons modèles open source sont devenus un présage d’apocalypse.
- Au contraire, les modèles open source sont une couverture contre l’apocalypse.
  On peut au moins y voir une couverture contre une dystopie cyberpunk.
- Je l’ai compris comme une façon plaisante de désigner le résultat terrifiant où, si les poids ouverts atteignent les capacités des modèles de pointe, tout le monde met la main sur des modèles de niveau mythos+ sans restrictions.
- C’est mignon. Les effets apocalyptiques du changement climatique sur les cultures vivrières et les taux de cancer, en particulier après l’effondrement de la couche d’ozone, n’ont pas réussi à changer les gens.
  Mais les LLM ouverts sont traités comme des monstres. Est-ce qu’il faudrait que le marché soit contrôlé en toute sécurité par OpenAI ou Anthropic, et qu’ils prennent toutes les décisions ?
- Ce billet vient du blog d’une entreprise qui héberge des LLM à poids ouverts (https://www.doubleword.ai/).
  C’était probablement une formulation humoristique.
- L’apocalyptisme est à son plus haut historique, et les gens semblent devenir chaque jour plus névrotiques.
Dans la dynamique actuelle, il est difficile pour les modèles chinois de dépasser les modèles américains de pointe
L’avantage des modèles américains vient du fait qu’ils obtiennent davantage de données, et de meilleure qualité, principalement des données synthétiques, y compris via des méthodes qu’il serait impossible de mettre en production sur du trafic conversationnel réel, comme la génération par d’énormes modèles enseignants
Les modèles chinois avancent en consacrant d’énormes efforts à l’optimisation des modèles et en obtenant davantage de données d’entraînement, de meilleure qualité, à partir des modèles américains de pointe
Pour que les modèles chinois à poids ouverts dépassent les modèles de pointe des labos américains, il faudrait que cette équation s’inverse. Les labos chinois devraient sortir de la récolte de données issues des modèles de pointe, construire des systèmes et des efforts de données capables de produire de nouvelles données, et aussi sécuriser en masse du matériel de dernière génération
L’entraînement lui-même de modèles à l’échelle de l’état de l’art n’est pas un exploit inimaginable ; là où le vrai matériel est englouti, c’est dans l’inférence des modèles enseignants
- À moins de travailler dans ces entreprises, on ne peut pas vraiment savoir ce qu’elles font
  Je ne sais pas ce qui se passe chez z.ai ou Alibaba, ni chez Anthropic ou OpenAI
  Cela dit, il paraît très peu probable qu’ils ne collectent pas de données les uns sur les autres. Je suis convaincu qu’Anthropic a une équipe qui examine les poids de GLM 5.2, ne serait-ce que pour surveiller la concurrence
  Le fait qu’un labo obtienne des données d’Anthropic ne veut pas dire qu’il ne mène pas ses propres recherches
  S’ils se sont concentrés sur l’optimisation, c’est parce qu’ils ne pouvaient pas obtenir le meilleur matériel, et la seule raison pour laquelle les meilleurs labos étaient en retard pourrait bien être qu’ils n’avaient pas accès aux H200 ou aux MI350. Maintenant, ils y ont accès
  On sous-estime aussi un autre risque. Anthropic, après s’être écharpé avec le gouvernement américain, garde actuellement en interne les « meilleurs » modèles du monde
  La Chine pourrait faire de même. À ce qu’on sait, le gouvernement chinois est étonnamment ouvert aux exportations d’IA et aux modèles à poids ouverts, mais il existe aussi une possibilité faible, mais non négligeable, qu’il conserve en interne une meilleure version de GLM 5.2 et que personne ne puisse en parler
  Vu de l’extérieur, il est difficile de distinguer un labo chinois qui aurait six mois de retard d’un labo contraint de brider son meilleur modèle
- Même si la description selon laquelle « les labos chinois doivent sortir de la récolte de données issues des modèles de pointe et créer de nouvelles données » est juste, ils pourraient le faire dès demain, et ils ne sont pas assez myopes pour ne pas y avoir pensé
  Je ne vois pas cela comme une barrière ; cela ressemble plutôt à la même sous-estimation de l’Asie qui dure depuis 50 ans
  Les États-Unis n’ont aucun avantage inné exclusif pour créer des LLM, et leur avantage de pionnier risque fort d’être retardé et gaspillé par des jeux de contrôle des exportations du type « trop dangereux pour être publié »
- La quantité de données qu’Anthropic affirme avoir été extraite pour la distillation est très faible par rapport à l’ensemble d’Internet
  Internet contient tel quel l’essentiel des connaissances qu’on attend d’un modèle
  La distillation à partir d’une petite quantité de données venant d’un meilleur modèle reste utile, mais il s’agit moins de transférer des capacités totalement absentes du modèle entraîné à l’origine sur Internet que d’identifier les capacités adaptées à une persona d’assistant docile et de supprimer les capacités indésirables comme le trolling
  L’utilisation de jeux de données d’instruction tuning créés avec ChatGPT pour Alpaca et d’autres en était une version primitive
  Sans objectif clair à imiter, les concurrents devront davantage s’appuyer sur des évaluateurs humains, mais comme il existe beaucoup d’entreprises d’annotation de données en Chine, ce n’est pas un gros obstacle
- L’idée que « la Chine ne peut que copier les États-Unis » est un jugement très myope et mal informé
  Ce qui vient de Chine, ce ne sont pas seulement de nouvelles méthodes de distillation de modèles
- Je me demande bien comment cela pourrait se passer autrement. Bientôt, les seules options seront de très anciens modèles d’OAI ou de nouveaux modèles chinois
  Le gouvernement américain ne semble pas avoir l’intention de donner accès aux modèles les plus récents sans autorisation explicite
On ne voit pas beaucoup dire que les modèles fermés peuvent en pratique tricher sur les benchmarks
Ce qu’Anthropic ou OpenAI présentent comme un modèle n’a pas forcément à se limiter aux poids ; cela peut être tout un système backend qui renforce le modèle lui-même
Dans ce cas, les scores aux benchmarks peuvent être meilleurs que ceux d’un modèle open source qui ne dispose que des poids
- Oui, et je trouve ça acceptable. Il faut compter tout cela dans la performance
  C’est pareil pour l’open source, et on ne lance pas non plus les benchmarks sans aucun outil d’exécution
  Personne ne se soucie de savoir si l’AGI est faite à 100 % de réseaux neuronaux, ou à 50 % de réseaux neuronaux et 50 % de scripts Perl
Il est logique qu’une part importante de l’amélioration des performances des modèles vienne des benchmarks de code
Le code est l’un des usages à court terme les plus évidents des modèles, il existe un marché prêt à payer cher les tokens, un énorme corpus sur lequel travailler, et le domaine des problèmes intègre lui-même une forte part de vérifiabilité
Les États-Unis, connus comme le pays de la liberté, limitent désormais l’accès aux modèles de pointe aux seuls Américains
À l’inverse, la Chine, perçue comme un « pays autoritaire » et comme « l’opposé de la liberté », a produit tous les modèles compétitifs à poids ouverts, en s’appuyant notamment sur une industrie logicielle très capitaliste
C’est vraiment ironique
En tant que Chinois, je comprends que cette stratégie consiste, depuis une position de retard, à utiliser l’open source comme moyen de concurrence asymétrique et à compenser le manque de ressources de calcul par une répartition de la charge. Mais cela reste très ironique
- La comparaison s’effondre dès la première phrase
  Les États-Unis peuvent se présenter comme le pays de la liberté, mais ils jouent depuis des centaines d’années au jeu du protectionnisme économique
  Cet épisode n’en est que le dernier exemple
Je me demande dans quelle mesure les entreprises aux modèles fermés donnent un boost de performance aux modèles ouverts
Si les progrès des modèles fermés s’arrêtent, ceux des modèles ouverts ralentiront-ils aussi ?
- Je ne comprends pas pourquoi on part du principe que seuls les labos américains peuvent innover
  Par exemple, DeepSeek a déjà beaucoup innové en matière d’efficacité
- Certaines personnes en Chine savent certainement à quel point la « distillation » aide les modèles à poids ouverts à rattraper leur retard
  L’hypothèse selon laquelle, si les modèles fermés cessent de progresser, tous les modèles fermés s’arrêteraient aussi, est très peu probable, sauf si les modèles se heurtent bientôt à un mur
  Les entreprises chinoises peuvent être en retard sur les États-Unis en puissance de calcul, mais elles disposent de chercheurs à peu près aussi brillants que leurs homologues américains dans la génération de problèmes et l’apprentissage par renforcement, deux domaines qui fonctionnent bien aujourd’hui [0]
  En particulier dans les domaines où des boucles de feedback courtes sont possibles, comme la programmation, il est très probable que les progrès rapides continuent jusqu’au point où nous, pauvres humains, perdrons la capacité de définir la fonction objectif
  À l’inverse, dans les domaines où le feedback est lent ou coûteux, je ne m’attends pas à de la magie. Même les grandes entreprises pharmaceutiques très compétentes ne parviennent pas à inventer de nouveaux médicaments remarquables de manière fiable, parce que le processus d’évaluation est trop lent et trop coûteux ; pour la même raison, les modèles auront aussi du mal à le faire prochainement
  Pour faire tourner de l’apprentissage par renforcement en répétant m fois n pistes de développement de médicaments, même si c’était possible, cela coûterait n*m multiplié par 10 à 100 millions de dollars, et prendrait m années
  [0] Comme la fuite des cerveaux qui faisait affluer des talents du monde entier vers les labos américains via le système universitaire américain se tarit, l’avantage des États-Unis dans ce domaine a de fortes chances de diminuer
C’est intéressant à regarder à la lumière des récentes interdictions d’exportation américaines
Les États-Unis sont-ils en train de gaspiller leur avance en poussant l’open source, et en particulier les labos chinois, à rattraper leur retard en matière de qualité des modèles accessibles au grand public ?
Les labos américains pourront-ils conserver leur avantage si les utilisateurs ne peuvent pas utiliser les modèles les plus récents ?
- Je me demande pourquoi ce serait important
  Je ne dis pas que ça l’est, ni que ça ne l’est pas, mais je ne vois pas quelle valeur concrète apporterait le fait que « les États-Unis gagnent » ou que « la Chine gagne »
Si l’idée selon laquelle les modèles à poids ouverts et chinois dépendent fortement de la distillation des tout derniers modèles de pointe est correcte, l’écart se stabilisera autour du temps minimal nécessaire pour extraire des données utiles des tout derniers modèles de pointe, auquel s’ajoute le temps de finalisation de l’entraînement du dernier modèle dépendant
Cet écart peut être réduit en améliorant l’efficacité du processus, mais il ne peut pas être totalement supprimé
Les tentatives visant à entraver la distillation chez Anthropic ou OpenAI pourraient aussi modifier l’équilibre
Je me demande si de nombreuses entreprises et administrations, convaincues de devoir être à l’avant-garde de l’application des LLM de pointe et commençant à en dépendre de plus en plus, ne finiront pas dans une situation à la Superiority, la nouvelle d’Arthur C. Clarke
[1] Texte original : https://nob.cs.ucdavis.edu/classes/ecs153-2019-04/readings/s...
[2] Wikipédia : https://en.wikipedia.org/wiki/Superiority_(short_story)

L’écart entre les LLM à poids ouverts et les LLM fermés

Le rattrapage rapide montré par un indicateur unique

Une conclusion différente avec 18 benchmarks

À lire aussi

1 commentaires

Avis de Hacker News