Si l’on ne peut pas reproduire un modèle, ce n’est pas de l’open source

xguru · 2024-01-22T10:27:01+09:00

La révolution de l’IA open source n’a pas encore eu lieu Bien sûr, il existe des modèles à poids ouverts impressionnants, et merci à celles et ceux qui publient leurs poids, mais si l’on ne peut pas reproduire le modèle, ce n’est pas du véritable open source Imaginez que, pour Linux, on ne publie que les binaires sans la base de code. Ou qu’on publie la base de code sans le compilateur utilisé pour produire les binaires. Voilà exactement la situation actuelle Cela présente plusieurs inconvénients Il est impossible de contribuer à nouveau au projet Le projet ne bénéficie pas de la boucle de rétroaction de l’OSS Il est difficile de vérifier qu’il n’y a pas de porte dérobée dans le modèle (par ex. un agent dormant) Il est impossible de vérifier si les filtres de données et de contenu sont alignés avec les politiques de l’entreprise Il faut dépendre de l’entreprise pour remettre le modèle à jour Un véritable projet open source de LLM, où tout est public, de la base de code au pipeline de données, peut créer énormément de valeur et de créativité, tout en améliorant la sécurité Mais reproduire les poids n’est pas aussi simple que compiler du code, donc ce n’est pas trivial. Il faut de la puissance de calcul et du savoir-faire Et examiner les contributions est difficile, car on ne peut pas savoir quel effet elles auront sur les performances avant de relancer l’entraînement suivant Mais des personnes ou des groupes suffisamment motivés peuvent comprendre ces détails, et même si cela peut sembler très différent de l’OSS existant, ces nouveaux défis sont ce qui rend cet espace passionnant

(twitter.com/amasad)

15 points par xguru 2024-01-22 | 3 commentaires | Partager sur WhatsApp

La révolution de l’IA open source n’a pas encore eu lieu
Bien sûr, il existe des modèles à poids ouverts impressionnants, et merci à celles et ceux qui publient leurs poids, mais si l’on ne peut pas reproduire le modèle, ce n’est pas du véritable open source
Imaginez que, pour Linux, on ne publie que les binaires sans la base de code. Ou qu’on publie la base de code sans le compilateur utilisé pour produire les binaires. Voilà exactement la situation actuelle
Cela présente plusieurs inconvénients
- Il est impossible de contribuer à nouveau au projet
- Le projet ne bénéficie pas de la boucle de rétroaction de l’OSS
- Il est difficile de vérifier qu’il n’y a pas de porte dérobée dans le modèle (par ex. un agent dormant)
- Il est impossible de vérifier si les filtres de données et de contenu sont alignés avec les politiques de l’entreprise
- Il faut dépendre de l’entreprise pour remettre le modèle à jour
Un véritable projet open source de LLM, où tout est public, de la base de code au pipeline de données, peut créer énormément de valeur et de créativité, tout en améliorant la sécurité
- Mais reproduire les poids n’est pas aussi simple que compiler du code, donc ce n’est pas trivial. Il faut de la puissance de calcul et du savoir-faire
- Et examiner les contributions est difficile, car on ne peut pas savoir quel effet elles auront sur les performances avant de relancer l’entraînement suivant
Mais des personnes ou des groupes suffisamment motivés peuvent comprendre ces détails, et même si cela peut sembler très différent de l’OSS existant, ces nouveaux défis sont ce qui rend cet espace passionnant

3 commentaires

coyai 2024-02-07

C’est vrai,

GitHub et Hugging Face ont depuis longtemps cessé d’être des dépôts open source ouverts pour se transformer en plateformes marketing.
Certains modèles ne fournissent même pas de binaire exécutable (https://github.com/AIGCDesignGroup/ReplaceAnything)
Quel genre de plateforme open source est-ce, si elle ne propose qu’une démo en ligne et ne sert qu’à exposer une Marketing Demo de leur propre technologie ?
GitHub et Hugging Face sont eux aussi en train de devenir, comme les anciens réseaux sociaux, des sites poubelles envahis par le faux et l’absurde.

Par conséquent, l’open source est en train de devenir un mythe ou une légende urbaine. En réalité, on peut considérer qu’il n’existe presque aucun modèle open source au sens authentique du terme, c’est-à-dire parfaitement reproductible, sur ces sites. La plupart ne sont que des coups marketing.

cosine20 2024-01-29

Je comprends l’idée, mais… avec les modèles qui sortent en ce moment, la puissance de calcul et le temps nécessaires à leur entraînement sont devenus tels qu’il est difficile pour un particulier de les reproduire, donc je ne sais pas trop quoi en penser.
En revanche, concernant la publication du dataset, là je suis plutôt d’accord aussi.

xguru 2024-01-22

Commentaires Hacker News

Imaginez que Linux ne publie que des binaires sans base de code, ou seulement la base de code sans compilateur. C’est la situation dans laquelle nous nous trouvons actuellement.
- C’est une bonne analogie qui explique bien le problème actuel des « modèles open source ». Elle met clairement en évidence les limites de ces modèles open source.
Prenons l’exemple du CERN : ils publient diverses données expérimentales sous licence CC0. Il ne s’agit pas d’un simple petit jeu de données, mais d’ensembles massifs comme l’intégralité des données du premier run de LHCb.
- Le CERN ne se contente pas de publier les données puis de les abandonner ; il fournit aussi des guides d’analyse et les outils nécessaires (dont ROOT, majoritairement open source). Cela permet à n’importe qui de découvrir quelque chose de nouveau ou d’étendre l’analyse d’expériences existantes. Ces données et outils ouverts remplissent les conditions de reproductibilité, sans qu’il soit nécessaire de régénérer directement les données. En théorie, on pourrait reconstruire le LHC, mais cela demanderait énormément de personnel, d’argent et de temps. Contrairement aux modèles open source, il est possible de réentraîner un modèle pour obtenir les poids, mais le coût pour obtenir les données et reproduire les poids est généralement énorme. Il faut aussi se rappeler que le CERN publie une version plus raffinée des données, et non les données brutes (principalement du bruit). Télécharger d’énormes volumes de données brutes est difficile, mais pour entraîner quelque chose comme un grand modèle de langage (LLM), l’ensemble complet du dataset peut être nécessaire, ce qui pose souvent ses propres problèmes, notamment de droits d’auteur.
Le plus gros problème, c’est de publier le dataset. À ce moment-là, des particuliers et des entreprises engageront des poursuites pour violation du droit d’auteur.
- Si le dataset contient du contenu protégé par le droit d’auteur, les ayants droit peuvent effectivement engager des poursuites. Je ne serais pas surpris que le modèle inclue l’intégralité de datasets issus de Z-Library ou de Google Books.
L’Open Source Initiative mène depuis un an une série destinée à recueillir l’avis de différentes parties prenantes sur la question de savoir si l’IA est open source.
- J’ai participé à une session qui a duré tout un après-midi à All Things Open. Je recommande d’aller voir les discussions déjà en cours sur ce sujet. C’est une question bien plus nuancée que ce que peut contenir un tweet.
Appliquer le terme « open source » aux modèles d’IA est plus complexe que de l’appliquer aux logiciels. Beaucoup considèrent la reproductibilité comme un critère pour parler d’open source.
- Dans le cas des modèles d’IA, le modèle lui-même, le dataset et la recette d’entraînement (par exemple le processus et les hyperparamètres) sont souvent aussi publiés comme source. Cela permet, à condition de disposer d’une puissance de calcul suffisante, d’entraîner le modèle pour obtenir les poids.
Il en va de même pour l’open core : si vous ne pouvez pas l’héberger sur votre propre infrastructure, ce n’est pas un vrai logiciel open source.
- Si vous ne pouvez pas l’héberger sur votre propre infrastructure, cela n’est pas considéré comme un véritable logiciel open source.
« Le projet ne bénéficie pas de la boucle de rétroaction de l’OSS » Comme il n’est pas possible de soumettre une PR sur les données d’entraînement pour corriger un problème précis comme un bug, je ne pense pas qu’on puisse vraiment voir beaucoup de boucle de rétroaction.
- « Il est difficile de vérifier qu’il n’y a pas de porte dérobée dans le modèle » Compte tenu de la taille du dataset et de l’opacité du processus d’entraînement, très peu de gens seront en mesure de savoir si les données d’entraînement contiennent une porte dérobée.
- « Il est difficile de vérifier les filtres de données et de contenu et de s’assurer qu’ils sont conformes à la politique de l’entreprise » Il est possible d’appliquer la politique d’une entreprise aux sorties du modèle sans avoir accès aux données d’entraînement. Cela pose la question de savoir si chaque entreprise doit filtrer les données d’entrée et entraîner son propre modèle.
- « On devient dépendant de l’entreprise quand il faut rafraîchir le modèle » Vu les coûts actuels, c’est déjà vrai pour la plupart des gens.
- « Un véritable projet LLM open source, où tout est ouvert du codebase jusqu’au pipeline de données, pourrait libérer énormément de valeur, de créativité et améliorer la sécurité » Dans le cas des LLM, je suis globalement sceptique sur ce point. Cela pourrait au contraire offrir une surface d’attaque plus large aux acteurs malveillants.
« La forme de l’œuvre à privilégier pour y apporter des modifications est le “code source”. »
- Citation de la GPLv3
- Fait intéressant pour ces modèles d’IA/ML : les poids sont dérivés du jeu d’entraînement, mais il n’est pas nécessaire d’avoir accès au jeu d’entraînement d’origine pour les modifier. Il existe de nombreux tutoriels expliquant comment faire du fine-tuning sans accès au jeu d’entraînement initial.
Je ne suis pas d’accord, et l’analogie est inappropriée. Les choses qu’il énumère peuvent être faites avec un modèle entraîné. Le fait d’avoir les données est en pratique une question qui n’intéresse pas grand monde. Le logiciel open/free porte sur l’exercice des libertés, et si vous avez les poids du modèle et le code, vous pouvez exercer toutes ces libertés.
Existe-t-il un véritable modèle LLM open source dont toutes les données d’entraînement sont publiquement disponibles (sous des licences compatibles) et dont le logiciel d’entraînement peut reproduire un modèle bit à bit identique ?
- L’entraînement est-il non déterministe ? Je sais que la sortie des LLM est délibérément non déterministe.

Si l’on ne peut pas reproduire un modèle, ce n’est pas de l’open source

À lire aussi

3 commentaires

Commentaires Hacker News