- Autrefois, les LLM étaient principalement entraînés sur des données issues d’Internet, et c’est encore largement le cas aujourd’hui, mais c’est de moins en moins vrai
- Le concept de « simulateur d’Internet » n’est pas utile pour prédire le comportement de GPT-5 et au-delà
- Les nouveaux modèles dépassent déjà cette définition, et ce changement ne fait que commencer
Le mur des données (Data Wall)
- En 2020, l’article de recherche sur GPT-3 d’OpenAI décrivait en détail le jeu de données d’entraînement, mais cela appartient désormais au passé
- Depuis 2022, l’entraînement des LLM a commencé à utiliser des retours personnalisés des utilisateurs, et OpenAI ainsi que d’autres acteurs restent très discrets sur leurs données d’entraînement
- On ne sait pas sur quoi GPT-4, Sora ou GPT-5 ont été entraînés, mais certainement pas uniquement sur des données d’Internet
- Les entraîneurs de LLM se sont récemment heurtés à un « mur des données »
- OpenAI possède déjà quasiment toutes les données du web, donc pour créer de meilleurs LLM, il faut acquérir et produire des données privées
- Pour les laboratoires qui ont les moyens, la réponse consiste à obtenir et créer des données privées
- Au début, l’accent était mis sur le fait de rendre les données d’entraînement existantes plus utiles, ou d’ajouter des données privées existantes au corpus d’entraînement
- Par exemple
- Annotation et filtrage : les chercheurs créent des annotations sur les données d’entraînement afin de se concentrer sur les données de haute qualité et de produire de meilleurs modèles
- RLHF : les laboratoires demandent à des humains d’évaluer les sorties du modèle, puis utilisent ces données pour affiner le modèle et encourager des comportements utiles
- Données d’usage : ChatGPT générerait environ 10 milliards de tokens de données par jour
- Acquisition de données : e-mails, journaux de chat, manuels propriétaires, tickets JIRA, enregistrements d’appels, rapports internes, contrats, etc. — une grande partie de ces données n’existe pas sur Internet, et les entraîneurs de modèles peuvent les ajouter aux données d’apprentissage
- Cependant, ces techniques ne résolvent pas complètement le problème selon lequel « les LLM restent fragiles lorsqu’il s’agit de produire des sorties différentes des données existantes »
- Les LLM ont du mal à accomplir des tâches comme les suivantes (car il n’existe pas beaucoup de texte en ligne qui les montre)
- exprimer le doute ou l’incertitude dans une réponse
- maintenir une longue conversation sans phrases répétitives ni boucles
- établir des plans de haut niveau qu’un agent LLM pourra poursuivre
- raisonner comme un ingénieur principal sur une vaste base de code legacy
- suivre de manière fiable des prompts très longs ou complexes
- Une architecture améliorée et davantage de paramètres peuvent aider à corriger ces limites, mais OpenAI, Meta, Google, Microsoft et d’autres dépensent aussi énormément d’argent pour combler cet écart par une méthode plus simple : créer de nouveaux exemples pour l’entraînement
Les LLM sont désormais entraînés sur des données sur mesure
- Le rapport technique de Microsoft sur Phi-3 (publié en avril) est un exemple récent de la montée des données sur mesure
- phi-3-mini ne compte que 3,8 milliards de paramètres, mais affiche des performances capables de rivaliser avec le modèle Mixtral, plus gros et plus lourd
- Une partie de cette amélioration s’explique par l’inclusion, dans les données d’entraînement, de données synthétiques de haute qualité générées par des LLM plus grands
- Les données synthétiques peuvent combler les lacunes des données sources issues d’Internet et améliorer les performances d’un modèle pour une taille donnée
- Les données synthétiques sont actuellement un sujet majeur de la recherche sur les LLM
- On ne sait pas encore jusqu’où il est possible d’entraîner un LLM sur ses propres sorties (on pourrait se retrouver dans une situation où un gigantesque serpent neuronal se mord la queue)
- Mais, au minimum, les données synthétiques aideront à combler les lacunes provoquées par le fait que les LLM se comportent comme des « simulateurs d’Internet »
- Par exemple, lorsqu’il manque des exemples d’entraînement montrant comment exprimer l’incertitude, ou lorsque les données sont biaisées faute de représentativité, on peut générer de meilleurs exemples
- Cependant, produire d’excellentes données synthétiques avec des LLM est un problème difficile, et cela aura sans doute ses limites
- C’est pourquoi entre en scène « l’humain », dernière grande source de données hors Internet
Combien de données peut-on produire avec 1 milliard de dollars par an ?
- Quand on paie, les gens sont prêts à créer des données
- Scale.ai se présente comme une « usine de fabrication de données pour l’IA » et exploite un service dans lequel des laboratoires paient des personnes pour produire des données
- Les entreprises d’IA paieraient déjà plus d’un milliard de dollars par an pour les services de Scale
- Une partie sert à annoter et évaluer des données provenant du web ou des LLM, mais il s’agit aussi de créer de nouvelles données d’entraînement à partir de zéro
- Scale met l’accent sur des travailleurs hautement spécialisés : chercheurs de niveau doctorat, avocats, comptables, poètes, écrivains, personnes maîtrisant certaines langues, etc.
- Ils entraînent et testent des modèles pour des entreprises comme OpenAI, Cohere, Anthropic et Google, en échange d’un taux horaire plus élevé
- Des entreprises comme OpenAI peuvent payer des experts pour produire de nouvelles données de grande qualité qui comblent les vides laissés par les données issues d’Internet, puis utiliser ces données pour l’entraînement des modèles
- Un jeu de données comme « 50 000 exemples exprimant une incertitude réfléchie lorsqu’un Ph.D. ne connaît pas la réponse » pourrait valoir bien plus que son coût de production
- On peut comprendre que les LLM ont d’abord été entraînés sur Internet et qu’une grande partie de leurs faiblesses initiales provient du contenu hétéroclite publié sur le web
- Mais à mesure que l’ampleur et l’influence des données d’entraînement sur mesure augmentent, on peut s’attendre à ce que les LLM dépassent largement la simple « simulation d’Internet »
- Ils continueront notamment à progresser sur des choses absentes d’Internet, mais que plus d’un milliard de dollars de production de données sur mesure peut démontrer
- En d’autres termes, ce train va continuer à avancer pendant un bon moment
L’avis de GN⁺
- Importance des données : pour améliorer les performances des LLM, des données provenant de sources variées sont nécessaires. Les seules données d’Internet ont leurs limites.
- Question des coûts : la création de données sur mesure coûte très cher. Cela peut représenter une lourde charge pour les petits laboratoires ou les entreprises.
- Limites des données synthétiques : les données synthétiques sont utiles, mais elles peuvent différer des données réellement produites par des humains. Cela peut limiter le réalisme du modèle.
- Perspectives d’avenir : le développement des LLM s’appuyant sur des données sur mesure et des données synthétiques devrait se poursuivre. Cela pourrait apporter de l’innovation dans de nombreux domaines.
- Concurrence : les grands acteurs comme OpenAI, Google et Microsoft investissent dans la création de données sur mesure, et la concurrence devrait s’intensifier.
2 commentaires
Le data wall ne devient finalement un problème que lorsqu’on dispose de suffisamment de compute ; au contraire, au vu des enjeux d’efficacité et d’approvisionnement énergétiques, la limite à l’augmentation du compute — autrement dit, la question de la puissance électrique disponible — va devenir plus importante.
Avis Hacker News