Les LLM n’« apprennent plus à partir d’Internet »

(allenpike.com)

20 points par GN⁺ 2024-06-03 | 2 commentaires | Partager sur WhatsApp

Autrefois, les LLM étaient principalement entraînés sur des données issues d’Internet, et c’est encore largement le cas aujourd’hui, mais c’est de moins en moins vrai
Le concept de « simulateur d’Internet » n’est pas utile pour prédire le comportement de GPT-5 et au-delà
- Les nouveaux modèles dépassent déjà cette définition, et ce changement ne fait que commencer

Le mur des données (Data Wall)

En 2020, l’article de recherche sur GPT-3 d’OpenAI décrivait en détail le jeu de données d’entraînement, mais cela appartient désormais au passé
- Depuis 2022, l’entraînement des LLM a commencé à utiliser des retours personnalisés des utilisateurs, et OpenAI ainsi que d’autres acteurs restent très discrets sur leurs données d’entraînement
- On ne sait pas sur quoi GPT-4, Sora ou GPT-5 ont été entraînés, mais certainement pas uniquement sur des données d’Internet
Les entraîneurs de LLM se sont récemment heurtés à un « mur des données »
- OpenAI possède déjà quasiment toutes les données du web, donc pour créer de meilleurs LLM, il faut acquérir et produire des données privées
Pour les laboratoires qui ont les moyens, la réponse consiste à obtenir et créer des données privées
- Au début, l’accent était mis sur le fait de rendre les données d’entraînement existantes plus utiles, ou d’ajouter des données privées existantes au corpus d’entraînement
- Par exemple
  1. Annotation et filtrage : les chercheurs créent des annotations sur les données d’entraînement afin de se concentrer sur les données de haute qualité et de produire de meilleurs modèles
  2. RLHF : les laboratoires demandent à des humains d’évaluer les sorties du modèle, puis utilisent ces données pour affiner le modèle et encourager des comportements utiles
  3. Données d’usage : ChatGPT générerait environ 10 milliards de tokens de données par jour
  4. Acquisition de données : e-mails, journaux de chat, manuels propriétaires, tickets JIRA, enregistrements d’appels, rapports internes, contrats, etc. — une grande partie de ces données n’existe pas sur Internet, et les entraîneurs de modèles peuvent les ajouter aux données d’apprentissage
Cependant, ces techniques ne résolvent pas complètement le problème selon lequel « les LLM restent fragiles lorsqu’il s’agit de produire des sorties différentes des données existantes »
- Les LLM ont du mal à accomplir des tâches comme les suivantes (car il n’existe pas beaucoup de texte en ligne qui les montre)
  1. exprimer le doute ou l’incertitude dans une réponse
  2. maintenir une longue conversation sans phrases répétitives ni boucles
  3. établir des plans de haut niveau qu’un agent LLM pourra poursuivre
  4. raisonner comme un ingénieur principal sur une vaste base de code legacy
  5. suivre de manière fiable des prompts très longs ou complexes
Une architecture améliorée et davantage de paramètres peuvent aider à corriger ces limites, mais OpenAI, Meta, Google, Microsoft et d’autres dépensent aussi énormément d’argent pour combler cet écart par une méthode plus simple : créer de nouveaux exemples pour l’entraînement

Les LLM sont désormais entraînés sur des données sur mesure

Le rapport technique de Microsoft sur Phi-3 (publié en avril) est un exemple récent de la montée des données sur mesure
- phi-3-mini ne compte que 3,8 milliards de paramètres, mais affiche des performances capables de rivaliser avec le modèle Mixtral, plus gros et plus lourd
- Une partie de cette amélioration s’explique par l’inclusion, dans les données d’entraînement, de données synthétiques de haute qualité générées par des LLM plus grands
- Les données synthétiques peuvent combler les lacunes des données sources issues d’Internet et améliorer les performances d’un modèle pour une taille donnée
Les données synthétiques sont actuellement un sujet majeur de la recherche sur les LLM
- On ne sait pas encore jusqu’où il est possible d’entraîner un LLM sur ses propres sorties (on pourrait se retrouver dans une situation où un gigantesque serpent neuronal se mord la queue)
- Mais, au minimum, les données synthétiques aideront à combler les lacunes provoquées par le fait que les LLM se comportent comme des « simulateurs d’Internet »
  - Par exemple, lorsqu’il manque des exemples d’entraînement montrant comment exprimer l’incertitude, ou lorsque les données sont biaisées faute de représentativité, on peut générer de meilleurs exemples
Cependant, produire d’excellentes données synthétiques avec des LLM est un problème difficile, et cela aura sans doute ses limites
- C’est pourquoi entre en scène « l’humain », dernière grande source de données hors Internet

Combien de données peut-on produire avec 1 milliard de dollars par an ?

Quand on paie, les gens sont prêts à créer des données
- Scale.ai se présente comme une « usine de fabrication de données pour l’IA » et exploite un service dans lequel des laboratoires paient des personnes pour produire des données
- Les entreprises d’IA paieraient déjà plus d’un milliard de dollars par an pour les services de Scale
- Une partie sert à annoter et évaluer des données provenant du web ou des LLM, mais il s’agit aussi de créer de nouvelles données d’entraînement à partir de zéro
- Scale met l’accent sur des travailleurs hautement spécialisés : chercheurs de niveau doctorat, avocats, comptables, poètes, écrivains, personnes maîtrisant certaines langues, etc.
- Ils entraînent et testent des modèles pour des entreprises comme OpenAI, Cohere, Anthropic et Google, en échange d’un taux horaire plus élevé
Des entreprises comme OpenAI peuvent payer des experts pour produire de nouvelles données de grande qualité qui comblent les vides laissés par les données issues d’Internet, puis utiliser ces données pour l’entraînement des modèles
- Un jeu de données comme « 50 000 exemples exprimant une incertitude réfléchie lorsqu’un Ph.D. ne connaît pas la réponse » pourrait valoir bien plus que son coût de production
On peut comprendre que les LLM ont d’abord été entraînés sur Internet et qu’une grande partie de leurs faiblesses initiales provient du contenu hétéroclite publié sur le web
Mais à mesure que l’ampleur et l’influence des données d’entraînement sur mesure augmentent, on peut s’attendre à ce que les LLM dépassent largement la simple « simulation d’Internet »
- Ils continueront notamment à progresser sur des choses absentes d’Internet, mais que plus d’un milliard de dollars de production de données sur mesure peut démontrer
En d’autres termes, ce train va continuer à avancer pendant un bon moment

L’avis de GN⁺

Importance des données : pour améliorer les performances des LLM, des données provenant de sources variées sont nécessaires. Les seules données d’Internet ont leurs limites.
Question des coûts : la création de données sur mesure coûte très cher. Cela peut représenter une lourde charge pour les petits laboratoires ou les entreprises.
Limites des données synthétiques : les données synthétiques sont utiles, mais elles peuvent différer des données réellement produites par des humains. Cela peut limiter le réalisme du modèle.
Perspectives d’avenir : le développement des LLM s’appuyant sur des données sur mesure et des données synthétiques devrait se poursuivre. Cela pourrait apporter de l’innovation dans de nombreux domaines.
Concurrence : les grands acteurs comme OpenAI, Google et Microsoft investissent dans la création de données sur mesure, et la concurrence devrait s’intensifier.

2 commentaires

bytebrawlers 2024-06-04

Le data wall ne devient finalement un problème que lorsqu’on dispose de suffisamment de compute ; au contraire, au vu des enjeux d’efficacité et d’approvisionnement énergétiques, la limite à l’augmentation du compute — autrement dit, la question de la puissance électrique disponible — va devenir plus importante.

GN⁺ 2024-06-03

Avis Hacker News

Cet article souligne plusieurs bons points, et Phi-3 est en particulier une technologie très intéressante. Il est étrange qu’il ne mentionne pas des architectures récentes comme Anthropic, Mistral ou FAIR.
Les LLM modernes ne sont pas entraînés uniquement sur des données collectées sur le web, mais aussi sur des jeux de données sur mesure créés par de nombreuses personnes. Cela montre un potentiel de croissance, mais comporte le risque d’une expansion infinie dans la mauvaise direction.
Le fait que des humains produisent des données biaisées est un problème. Comme exemple du fait qu’un LLM ne peut pas générer de réponses originales, il ne parvient pas à proposer différentes façons d’inciter quelqu’un à cliquer sur le bouton d’abonnement YouTube.
Les données utilisées pour l’entraînement des LLM ont été fournies par des programmeurs indiens sous-payés. Aujourd’hui, ce sont des experts qui fournissent les données, mais il est possible qu’on revienne à une main-d’œuvre faiblement rémunérée.
La raison de l’échec des systèmes experts est qu’il faut continuer à payer les experts. La collaboration entre OpenAI et MS vise à atteindre l’AGI (intelligence artificielle générale), mais elle a des limites concrètes.
L’entraînement des modèles multimodaux reste un défi. Ce ne sont pas les données qui manquent, mais d’autres problèmes qui créent des goulots d’étranglement.
Un jeu de données comme « 50 000 exemples exprimant avec prudence une incertitude face à des questions auxquelles même des titulaires de doctorat ne connaissent pas la réponse » pourrait avoir une valeur supérieure à son coût de production.
J’espère qu’à cause des investissements technologiques, des programmes de type WPA verront le jour pour faire écrire des auteurs qualifiés. Cela pourrait constituer un ensemble d’œuvres humaines de grande qualité.
Il semble que les grandes avancées futures de l’IA n’auront rien à voir avec les données.
OpenAI et d’autres paieront des sommes énormes à des entreprises qui ont promis de garder leurs données privées. Cela inclut des sociétés comme Slack, Atlassian et Dropbox.