- 10 grands défis évoqués dans le domaine des LLM, avec une collection de liens pour approfondir
Réduction et mesure des hallucinations
- Le principal obstacle à l’adoption des LLM en entreprise est l’hallucination
- Le développement de métriques pour atténuer et mesurer les hallucinations est un sujet de recherche très populaire, sur lequel se concentrent de nombreuses startups
- Parmi les astuces temporaires pour réduire les hallucinations : ajouter du contexte au prompt, utiliser le Chain-Of-Thought, la Self-Consistency, ou demander au modèle de répondre de façon concise
Optimisation de la longueur et de la composition du contexte
- La plupart des questions nécessitent un contexte
- Selon l’article SituatedQA, une part importante des questions de recherche d’information reçoit des réponses différentes selon le contexte (16,5 % du dataset NQ-Open sont concernés)
- Dans les cas d’usage en entreprise, cette proportion serait bien plus élevée (pour un chatbot de support client, par exemple, le contexte inclut l’historique du client ou des informations sur le produit)
- La longueur du contexte est particulièrement importante pour le RAG (Retrieval Augmented Generation)
- Le RAG fonctionne en deux étapes
- Chunking (indexation) : collecter tous les documents à utiliser avec le LLM, générer des embeddings, les découper en chunks pour les injecter dans le LLM, puis stocker les embeddings dans une base de données vectorielle
- Requête : lorsqu’un utilisateur envoie une requête, le LLM la convertit en embedding, puis récupère dans la base de données vectorielle les chunks les plus similaires
- Plus la fenêtre de contexte est longue, plus on peut y mettre de chunks. Si le modèle a accès à plus d’informations, ses réponses seront meilleures, non ?
- Pas forcément. La quantité de contexte utilisée par un modèle et l’efficacité avec laquelle ce modèle exploite ce contexte sont deux questions différentes
- En parallèle des efforts visant à augmenter la longueur du contexte des modèles, il existe aussi des travaux pour rendre ce contexte plus efficace
- On parle de prompt engineering ou de prompt construction
- Par exemple, un article récent montre que les modèles comprennent mieux les informations placées au début ou à la fin du contexte qu’au milieu
Intégration d’autres modalités de données
- La multimodalité est très puissante, mais reste encore sous-estimée
- Voici pourquoi c’est important
- Il existe des cas d’usage traitant des données très diverses : santé, robotique, e-commerce, retail, jeux, divertissement, etc.
- Les prédictions médicales nécessitent du texte (notes du médecin, questionnaires) et des images (CT, X-Ray, MRI)
- Les métadonnées produit incluent des images, des vidéos, des descriptions et des données tabulaires
- La multimodalité apportera probablement un gain majeur de performance des modèles
- Un modèle capable de comprendre du texte et des images sera plus performant qu’un modèle comprenant seulement le texte
- Les modèles fondés uniquement sur le texte nécessitent d’énormes volumes de données textuelles, ce qui alimente l’inquiétude d’un épuisement prochain des données Internet nécessaires à l’entraînement des modèles
- Si le texte vient à manquer, il faudra exploiter d’autres modalités de données
- Un point particulièrement prometteur : permettre aux personnes malvoyantes de naviguer sur Internet et d’explorer le monde réel grâce à la multimodalité
Rendre les LLM plus rapides et moins coûteux
- Lorsque GPT-3.5 est sorti en novembre 2022, beaucoup s’inquiétaient de la latence et du coût d’usage en production
- Mais l’analyse latence/coût a beaucoup changé depuis
- En moins de six mois, la communauté a trouvé comment créer des modèles n’occupant que 2 % de l’empreinte mémoire de GPT-3.5, tout en s’en rapprochant beaucoup en performances
- Idée clé : quand on parvient à construire quelque chose d’assez bon, les gens finissent par trouver comment le rendre rapide et peu coûteux
- Quatre grandes techniques d’optimisation/compression de modèles, déjà résumées il y a 4 ans
- Quantization (quantification) : la méthode d’optimisation de modèle la plus courante. Elle réduit la taille du modèle en utilisant moins de bits pour représenter les paramètres. Au lieu de flottants 32 bits, on utilise 16 bits, voire 4 bits
- Knowledge distillation (distillation des connaissances) : entraîner un petit modèle (élève) à imiter un plus grand modèle ou un ensemble de modèles (professeur)
- Low-rank factorization (factorisation de rang faible) : remplacer des tenseurs de grande dimension par des tenseurs de plus faible dimension afin de réduire le nombre de paramètres. Par exemple, décomposer un tenseur 3x3 en produit d’un tenseur 3x1 et d’un tenseur 1x3, ce qui donne 6 paramètres au lieu de 9
- Pruning (élagage)
- Aujourd’hui encore, ces quatre techniques restent pertinentes et populaires. Alpaca a utilisé la distillation des connaissances, et QLoRA une combinaison de factorisation de rang faible et de quantification
Concevoir de nouvelles architectures de modèles
- Depuis AlexNet en 2012, de nombreuses architectures comme LSTM ou seq2seq ont connu leur heure de gloire avant de disparaître
- En comparaison, le Transformer se montre remarquablement tenace. Il est apparu en 2017, et on peut se demander combien de temps encore il dominera
- Développer une nouvelle architecture capable de surpasser le Transformer n’est pas facile. Il a été énormément optimisé au cours des six dernières années
- Une nouvelle architecture doit être performante à une échelle qui intéresse réellement les gens aujourd’hui
- Le Transformer a d’abord été conçu pour s’exécuter rapidement sur TPU, puis a ensuite été optimisé pour GPU
- En 2021, le laboratoire de Chris Ré a suscité beaucoup d’enthousiasme autour de S4.
Ils continuent récemment d’investir dans de nouvelles architectures et ont plus récemment co-développé l’architecture Monarch Mixer avec la startup Together
Développer des alternatives aux GPU
- Les GPU sont le matériel dominant pour le deep learning depuis AlexNet en 2012
- L’une des raisons de la popularité d’AlexNet est qu’il s’agissait du premier article à entraîner avec succès un réseau de neurones à l’aide de GPU
Avant les GPU, entraîner un modèle de la taille d’AlexNet aurait nécessité des milliers de CPU
Comparés à des milliers de CPU, 2 GPU étaient bien plus accessibles pour les doctorants et les chercheurs, ce qui a déclenché le boom de la recherche en deep learning
- Au cours des dix dernières années, de grands groupes, des startups et de nombreuses entreprises ont tenté de créer de nouveaux matériels pour l’IA
- Les plus marquants sont les TPU de Google, les IPU de Graphcore et Cerebras
- SambaNova a levé plus d’un milliard de dollars pour développer une nouvelle puce d’IA, mais a pivoté vers une plateforme d’IA générative
- Pendant un temps, l’informatique quantique a suscité de grands espoirs, avec notamment
- le QPU d’IBM
- l’ordinateur quantique de Google, qui a publié plus tôt cette année dans Nature une avancée majeure sur la réduction des erreurs quantiques. Une machine virtuelle quantique est accessible via Google Colab
- le MIT Center for Quantum Engineering, le Max Planck Institute of Quantum Optics, le Chicago Quantum Exchange, l’Oak Ridge National Laboratory, etc.
- Une autre direction très intéressante est celle des puces photoniques
- Les puces actuelles déplacent les données à l’aide d’électricité, ce qui consomme beaucoup d’énergie et introduit de la latence
- Les puces photoniques utilisent des photons pour déplacer les données et exploitent la vitesse de la lumière pour un calcul plus rapide et plus efficace
- Plusieurs startups du secteur ont levé des centaines de millions de dollars, notamment Lightmatter ($270M), Ayar Labs ($220M), Lightelligence ($200M+) et Luminous Computing ($115M)
Rendre les agents utilisables
- Les agents sont des LLM capables d’effectuer des tâches comme la recherche sur Internet, l’envoi d’e-mails ou les réservations
- Comparé aux autres axes de recherche de cet article, c’est probablement le domaine le plus précoce
- En raison de sa nouveauté et de son énorme potentiel, le domaine des agents suscite un enthousiasme considérable
- Auto-GPT est désormais le 25e repo le plus populaire sur GitHub en nombre de stars
- GPT-Engineering est un autre dépôt populaire
- Malgré cet enthousiasme, des doutes persistent quant à la fiabilité et au niveau de performance des LLM pour qu’on leur délègue le pouvoir d’agir
- La startup la plus notable dans ce domaine est Adept
- Fondée par deux co-auteurs du Transformer et un ancien VP d’OpenAI, elle a levé à ce jour près de 500 millions de dollars
Améliorer l’apprentissage à partir des préférences humaines
- RLHF, Reinforcement Learning from Human Preference, est impressionnant, mais reste un peu bricolé
Il ne serait pas surprenant que l’on découvre une meilleure manière d’entraîner les LLM. Le RLHF laisse encore de nombreuses questions ouvertes
- Comment représenter mathématiquement les préférences humaines ?
- Aujourd’hui, les préférences humaines sont déterminées par comparaison
- Les annotateurs humains décident si la réponse A est meilleure que la réponse B, mais pas de combien elle l’est
- Et les goûts humains ?
- Anthropic a mesuré la qualité des réponses des modèles selon trois axes : utile, honnête et inoffensif
- DeepMind cherche à générer des réponses qui plaisent à la majorité des gens
- Voulons-nous une IA capable de prendre position, ou une IA fade qui évite les sujets potentiellement controversés ?
- Compte tenu des différences de culture, de religion ou d’orientation politique, les préférences de qui représentent des préférences « humaines » ?
- Il est très difficile d’obtenir des données d’entraînement représentant suffisamment tous les utilisateurs potentiels
Par exemple, dans les données d’InstructGPT d’OpenAI, il n’y avait aucun annotateur de plus de 65 ans. Les annotateurs étaient principalement philippins et bangladais
- Les efforts menés par la communauté peuvent partir de bonnes intentions, mais produire des données biaisées
Par exemple, dans le dataset OpenAssistant, 201 répondants sur 222 (90,5 %) ont déclaré être des hommes
Améliorer l’efficacité des interfaces de chat
- Depuis ChatGPT, de nombreuses discussions ont eu lieu sur la pertinence du chat comme interface pour des tâches variées
- Ce n’est pas un débat nouveau : en Asie, le chat est utilisé depuis environ 10 ans comme interface de super apps
- Personnellement, j’aime les interfaces de chat pour les raisons suivantes
- Le chat est une interface dont on peut rapidement apprendre l’usage, y compris pour des personnes qui n’auraient autrement jamais été exposées à un ordinateur ou à Internet
- Les interfaces de chat sont accessibles. Si les mains sont occupées, on peut utiliser la voix au lieu du texte
- Le chat est une interface incroyablement puissante. On peut faire n’importe quelle demande, et même quand la réponse n’est pas bonne, il fournit tout de même une réponse
- Mais je pense qu’il reste encore des domaines dans lesquels les interfaces de chat peuvent être améliorées
- Plusieurs messages par tour
- Entrées multimodales
- Intégration de l’IA générative dans les workflows
- Édition et suppression des messages
Construire des LLM pour les langues non anglophones
- Aujourd’hui, les LLM conçus d’abord pour l’anglais ne fonctionnent pas très bien pour les autres langues en termes de performances, de latence et de vitesse
- Certains des premiers lecteurs de cet article ont dit qu’il ne fallait pas inclure cette direction
- Selon eux, c’est plus un problème de logistique que de recherche. Nous savons déjà comment faire, il suffirait d’y investir de l’argent et des efforts
Mais ce n’est pas vrai. La plupart des langues manquent de ressources. Elles disposent de bien moins de données de haute qualité que l’anglais ou le chinois, et l’entraînement de grands modèles pourrait exiger d’autres techniques
- Les plus pessimistes disent même que beaucoup de langues disparaîtront à l’avenir, et qu’Internet deviendra deux mondes composés de deux langues : l’anglais et le mandarin. Quelqu’un se souvient d’Esperando ?
- L’impact des outils d’IA comme la traduction automatique et les chatbots sur l’apprentissage des langues reste encore flou
Vont-ils aider les gens à apprendre plus vite de nouvelles langues, ou supprimer complètement le besoin d’en apprendre ?
1 commentaires
L’auteur de ce texte est aussi l’auteur du livre Designing Machine Learning Systems publié chez O'Reilly.
La version traduite a été publiée par Hanbit Publishing.
https://m.hanbit.co.kr/store/books/book_view.html?p_code=B1811121220