- La révolution de l’IA open source n’a pas encore eu lieu
- Bien sûr, il existe des modèles à poids ouverts impressionnants, et merci à celles et ceux qui publient leurs poids, mais si l’on ne peut pas reproduire le modèle, ce n’est pas du véritable open source
- Imaginez que, pour Linux, on ne publie que les binaires sans la base de code. Ou qu’on publie la base de code sans le compilateur utilisé pour produire les binaires. Voilà exactement la situation actuelle
- Cela présente plusieurs inconvénients
- Il est impossible de contribuer à nouveau au projet
- Le projet ne bénéficie pas de la boucle de rétroaction de l’OSS
- Il est difficile de vérifier qu’il n’y a pas de porte dérobée dans le modèle (par ex. un agent dormant)
- Il est impossible de vérifier si les filtres de données et de contenu sont alignés avec les politiques de l’entreprise
- Il faut dépendre de l’entreprise pour remettre le modèle à jour
- Un véritable projet open source de LLM, où tout est public, de la base de code au pipeline de données, peut créer énormément de valeur et de créativité, tout en améliorant la sécurité
- Mais reproduire les poids n’est pas aussi simple que compiler du code, donc ce n’est pas trivial. Il faut de la puissance de calcul et du savoir-faire
- Et examiner les contributions est difficile, car on ne peut pas savoir quel effet elles auront sur les performances avant de relancer l’entraînement suivant
- Mais des personnes ou des groupes suffisamment motivés peuvent comprendre ces détails, et même si cela peut sembler très différent de l’OSS existant, ces nouveaux défis sont ce qui rend cet espace passionnant
3 commentaires
C’est vrai,
Par conséquent, l’open source est en train de devenir un mythe ou une légende urbaine. En réalité, on peut considérer qu’il n’existe presque aucun modèle open source au sens authentique du terme, c’est-à-dire parfaitement reproductible, sur ces sites. La plupart ne sont que des coups marketing.
Je comprends l’idée, mais… avec les modèles qui sortent en ce moment, la puissance de calcul et le temps nécessaires à leur entraînement sont devenus tels qu’il est difficile pour un particulier de les reproduire, donc je ne sais pas trop quoi en penser.
En revanche, concernant la publication du dataset, là je suis plutôt d’accord aussi.
Commentaires Hacker News