- « Les données sont le nouveau pétrole » a été le slogan de la dernière décennie
- Les entreprises ont compris à quel point les données avaient de la valeur, ou pouvaient en avoir
- Elles se sont empressées d’investir dans les dernières data stacks et de stocker des téraoctets de données dans des data warehouses
- Les équipes de data science devaient analyser les chiffres et utiliser ces résultats pour les décisions produit (ou, dans certains cas, pour des fonctionnalités orientées client comme les flux de recommandation)
- Il y a eu des réussites, mais de nombreuses organisations n’ont pas réussi à exécuter correctement
- En cause : des données cloisonnées (ou des équipes data cloisonnées), des cloud data warehouses coûteux et de mauvaises requêtes (un problème en recul aujourd’hui), ainsi que l’absence de pipelines de données propres (ce qui exige beaucoup de travail opérationnel pour garder les données dans un état propre)
- Maintenant, avec l’usage de « l’IA générative », les données constituent-elles encore un moat ?
- Lorsque les jeux de données synthétiques représentent une part non nulle des pipelines d’entraînement et d’inférence, la valeur des données augmente-t-elle ou diminue-t-elle ?
- D’un côté, « des données de qualité restent importantes »
- Une grande partie de l’attention portée à l’amélioration des LLM se concentre sur les modèles et la taille des jeux de données
- Il existe des premières preuves montrant que les LLM peuvent être fortement affectés par la qualité des données sur lesquelles ils sont entraînés
- WizardLM, TinyStories et phi-1 en sont des exemples
- De même, les jeux de données RLHF sont importants
- D’un autre côté, pour le fine-tuning sur le format de sortie et le style personnalisé, « une centaine de points de données peut déjà apporter une nette amélioration »
- Des chercheurs LLM de Databricks, Meta, Spark et Audible ont mené une analyse empirique sur la quantité de données nécessaire au fine-tuning
- Un tel volume de données est facile à produire ou à curatoriser manuellement
- La distillation de modèle est réelle et peut être mise en œuvre simplement
- On peut utiliser un LLM pour générer des données synthétiques afin d’entraîner ou de faire le fine-tuning de son propre LLM, avec un certain transfert de connaissances
- C’est un problème si cela expose le LLM brut à l’autre partie (beaucoup moins si l’usage reste interne), mais cela signifie aussi que des données qui ne sont pas particulièrement uniques peuvent être facilement copiées
Aucun commentaire pour le moment.