Les défis ouverts de la recherche sur les LLM

xguru · 2023-08-22T11:22:02+09:00

10 grands défis évoqués dans le domaine des LLM, avec une collection de liens pour approfondir Réduction et mesure des hallucinations Le principal obstacle à l’adoption des LLM en entreprise est l’hallucination Le développement de métriques pour atténuer et mesurer les hallucinations est un sujet de recherche très populaire, sur lequel se concentrent de nombreuses startups Parmi les astuces temporaires pour réduire les hallucinations : ajouter du contexte au prompt, utiliser le Chain-Of-Thought, la Self-Consistency, ou demander au modèle de répondre de façon concise Optimisation de la longueur et de la composition du contexte La plupart des questions nécessitent un contexte Selon l’article SituatedQA, une part importante des questions de recherche d’information reçoit des réponses différentes selon le contexte (16,5 % du dataset NQ-Open sont concernés) Dans les cas d’usage en entreprise, cette proportion serait bien plus élevée (pour un chatbot de support client, par exemple, le contexte inclut l’historique du client ou des informations sur le produit) La longueur du contexte est particulièrement importante pour le RAG (Retrieval Augmented Generation) Le RAG fonctionne en deux étapes Chunking (indexation) : collecter tous les documents à utiliser avec le LLM, générer des embeddings, les découper en chunks pour les injecter dans le LLM, puis stocker les embeddings dans une base de données vectorielle Requête : lorsqu’un utilisateur envoie une requête, le LLM la convertit en embedding, puis récupère dans la base de données vectorielle les chunks les plus similaires Plus la fenêtre de contexte est longue, plus on peut y mettre de chunks. Si le modèle a accès à plus d’informations, ses réponses seront meilleures, non ? Pas forcément. La quantité de contexte utilisée par un modèle et l’efficacité avec laquelle ce modèle exploite ce contexte sont deux questions différentes En parallèle des efforts visant à augmenter la longueur du contexte des modèles, il existe aussi des travaux pour rendre ce contexte plus efficace On parle de prompt engineering ou de prompt construction Par exemple, un article récent montre que les modèles comprennent mieux les informations placées au début ou à la fin du contexte qu’au milieu Intégration d’autres modalités de données La multimodalité est très puissante, mais reste encore sous-estimée Voici pourquoi c’est important Il existe des cas d’usage traitant des données très diverses : santé, robotique, e-commerce, retail, jeux, divertissement, etc. Les prédictions médicales nécessitent du texte (notes du médecin, questionnaires) et des images (CT, X-Ray, MRI) Les métadonnées produit incluent des images, des vidéos, des descriptions et des données tabulaires La multimodalité apportera probablement un gain majeur de performance des modèles Un modèle capable de comprendre du texte et des images sera plus performant qu’un modèle comprenant seulement le texte Les modèles fondés uniquement sur le texte nécessitent d’énormes volumes de données textuelles, ce qui alimente l’inquiétude d’un épuisement prochain des données Internet nécessaires à l’entraînement des modèles Si le texte vient à manquer, il faudra exploiter d’autres modalités de données Un point particulièrement prometteur : permettre aux personnes malvoyantes de naviguer sur Internet et d’explorer le monde réel grâce à la multimodalité Rendre les LLM plus rapides et moins coûteux Lorsque GPT-3.5 est sorti en novembre 2022, beaucoup s’inquiétaient de la latence et du coût d’usage en production Mais l’analyse latence/coût a beaucoup changé depuis En moins de six mois, la communauté a trouvé comment créer des modèles n’occupant que 2 % de l’empreinte mémoire de GPT-3.5, tout en s’en rapprochant beaucoup en performances Idée clé : quand on parvient à construire quelque chose d’assez bon, les gens finissent par trouver comment le rendre rapide et peu coûteux Quatre grandes techniques d’optimisation/compression de modèles, déjà résumées il y a 4 ans Quantization (quantification) : la méthode d’optimisation de modèle la plus courante. Elle réduit la taille du modèle en utilisant moins de bits pour représenter les paramètres. Au lieu de flottants 32 bits, on utilise 16 bits, voire 4 bits Knowledge distillation (distillation des connaissances) : entraîner un petit modèle (élève) à imiter un plus grand modèle ou un ensemble de modèles (professeur) Low-rank factorization (factorisation de rang faible) : remplacer des tenseurs de grande dimension par des tenseurs de plus faible dimension afin de réduire le nombre de paramètres. Par exemple, décomposer un tenseur 3x3 en produit d’un tenseur 3x1 et d’un tenseur 1x3, ce qui donne 6 paramètres au lieu de 9 Pruning (élagage) Aujourd’hui encore, ces quatre techniques restent pertinentes et populaires. Alpaca a utilisé la distillation des connaissances, et QLoRA une combinaison de factorisation de rang faible et de quantification Concevoir de nouvelles architectures de modèles Depuis AlexNet en 2012, de nombreuses architectures comme LSTM ou seq2seq ont connu leur heure de gloire avant de disparaître En comparaison, le Transformer se montre remarquablement tenace. Il est apparu en 2017, et on peut se demander combien de temps encore il dominera Développer une nouvelle architecture capable de surpasser le Transformer n’est pas facile. Il a été énormément optimisé au cours des six dernières années Une nouvelle architecture doit être performante à une échelle qui intéresse réellement les gens aujourd’hui Le Transformer a d’abord été conçu pour s’exécuter rapidement sur TPU, puis a ensuite été optimisé pour GPU En 2021, le laboratoire de Chris Ré a suscité beaucoup d’enthousiasme autour de S4. Ils continuent récemment d’investir dans de nouvelles architectures et ont plus récemment co-développé l’architecture Monarch Mixer avec la startup Together Développer des alternatives aux GPU Les GPU sont le matériel dominant pour le deep learning depuis AlexNet en 2012 L’une des raisons de la popularité d’AlexNet est qu’il s’agissait du premier article à entraîner avec succès un réseau de neurones à l’aide de GPU Avant les GPU, entraîner un modèle de la taille d’AlexNet aurait nécessité des milliers de CPU Comparés à des milliers de CPU, 2 GPU étaient bien plus accessibles pour les doctorants et les chercheurs, ce qui a déclenché le boom de la recherche en deep learning Au cours des dix dernières années, de grands groupes, des startups et de nombreuses entreprises ont tenté de créer de nouveaux matériels pour l’IA Les plus marquants sont les TPU de Google, les IPU de Graphcore et Cerebras SambaNova a levé plus d’un milliard de dollars pour développer une nouvelle puce d’IA, mais a pivoté vers une plateforme d’IA générative Pendant un temps, l’informatique quantique a suscité de grands espoirs, avec notamment le QPU d’IBM l’ordinateur quantique de Google, qui a publié plus tôt cette année dans Nature une avancée majeure sur la réduction des erreurs quantiques. Une machine virtuelle quantique est accessible via Google Colab le MIT Center for Quantum Engineering, le Max Planck Institute of Quantum Optics, le Chicago Quantum Exchange, l’Oak Ridge National Laboratory, etc. Une autre direction très intéressante est celle des puces photoniques Les puces actuelles déplacent les données à l’aide d’électricité, ce qui consomme beaucoup d’énergie et introduit de la latence Les puces photoniques utilisent des photons pour déplacer les données et exploitent la vitesse de la lumière pour un calcul plus rapide et plus efficace Plusieurs startups du secteur ont levé des centaines de millions de dollars, notamment Lightmatter ($270M), Ayar Labs ($220M), Lightelligence ($200M+) et Luminous Computing ($115M) Rendre les agents utilisables Les agents sont des LLM capables d’effectuer des tâches comme la recherche sur Internet, l’envoi d’e-mails ou les réservations Comparé aux autres axes de recherche de cet article, c’est probablement le domaine le plus précoce En raison de sa nouveauté et de son énorme potentiel, le domaine des agents suscite un enthousiasme considérable Auto-GPT est désormais le 25e repo le plus populaire sur GitHub en nombre de stars GPT-Engineering est un autre dépôt populaire Malgré cet enthousiasme, des doutes persistent quant à la fiabilité et au niveau de performance des LLM pour qu’on leur délègue le pouvoir d’agir La startup la plus notable dans ce domaine est Adept Fondée par deux co-auteurs du Transformer et un ancien VP d’OpenAI, elle a levé à ce jour près de 500 millions de dollars Améliorer l’apprentissage à partir des préférences humaines RLHF, Reinforcement Learning from Human Preference, est impressionnant, mais reste un peu bricolé Il ne serait pas surprenant que l’on découvre une meilleure manière d’entraîner les LLM. Le RLHF laisse encore de nombreuses questions ouvertes Comment représenter mathématiquement les préférences humaines ? Aujourd’hui, les préférences humaines sont déterminées par comparaison Les annotateurs humains décident si la réponse A est meilleure que la réponse B, mais pas de combien elle l’est Et les goûts humains ? Anthropic a mesuré la qualité des réponses des modèles selon trois axes : utile, honnête et inoffensif DeepMind cherche à générer des réponses qui plaisent à la majorité des gens Voulons-nous une IA capable de prendre position, ou une IA fade qui évite les sujets potentiellement controversés ? Compte tenu des différences de culture, de religion ou d’orientation politique, les préférences de qui représentent des préférences « humaines » ? Il est très difficile d’obtenir des données d’entraînement représentant suffisamment tous les utilisateurs potentiels Par exemple, dans les données d’InstructGPT d’OpenAI, il n’y avait aucun annotateur de plus de 65 ans. Les annotateurs étaient principalement philippins et bangladais Les efforts menés par la communauté peuvent partir de bonnes intentions, mais produire des données biaisées Par exemple, dans le dataset OpenAssistant, 201 répondants sur 222 (90,5 %) ont déclaré être des hommes Améliorer l’efficacité des interfaces de chat Depuis ChatGPT, de nombreuses discussions ont eu lieu sur la pertinence du chat comme interface pour des tâches variées Ce n’est pas un débat nouveau : en Asie, le chat est utilisé depuis environ 10 ans comme interface de super apps Personnellement, j’aime les interfaces de chat pour les raisons suivantes Le chat est une interface dont on peut rapidement apprendre l’usage, y compris pour des personnes qui n’auraient autrement jamais été exposées à un ordinateur ou à Internet Les interfaces de chat sont accessibles. Si les mains sont occupées, on peut utiliser la voix au lieu du texte Le chat est une interface incroyablement puissante. On peut faire n’importe quelle demande, et même quand la réponse n’est pas bonne, il fournit tout de même une réponse Mais je pense qu’il reste encore des domaines dans lesquels les interfaces de chat peuvent être améliorées Plusieurs messages par tour Entrées multimodales Intégration de l’IA générative dans les workflows Édition et suppression des messages Construire des LLM pour les langues non anglophones Aujourd’hui, les LLM conçus d’abord pour l’anglais ne fonctionnent pas très bien pour les autres langues en termes de performances, de latence et de vitesse Certains des premiers lecteurs de cet article ont dit qu’il ne fallait pas inclure cette direction Selon eux, c’est plus un problème de logistique que de recherche. Nous savons déjà comment faire, il suffirait d’y investir de l’argent et des efforts Mais ce n’est pas vrai. La plupart des langues manquent de ressources. Elles disposent de bien moins de données de haute qualité que l’anglais ou le chinois, et l’entraînement de grands modèles pourrait exiger d’autres techniques Les plus pessimistes disent même que beaucoup de langues disparaîtront à l’avenir, et qu’Internet deviendra deux mondes composés de deux langues : l’anglais et le mandarin. Quelqu’un se souvient d’Esperando ? L’impact des outils d’IA comme la traduction automatique et les chatbots sur l’apprentissage des langues reste encore flou Vont-ils aider les gens à apprendre plus vite de nouvelles langues, ou supprimer complètement le besoin d’en apprendre ?

(huyenchip.com)

30 points par xguru 2023-08-22 | 1 commentaires | Partager sur WhatsApp

10 grands défis évoqués dans le domaine des LLM, avec une collection de liens pour approfondir

Réduction et mesure des hallucinations

Le principal obstacle à l’adoption des LLM en entreprise est l’hallucination
Le développement de métriques pour atténuer et mesurer les hallucinations est un sujet de recherche très populaire, sur lequel se concentrent de nombreuses startups
Parmi les astuces temporaires pour réduire les hallucinations : ajouter du contexte au prompt, utiliser le Chain-Of-Thought, la Self-Consistency, ou demander au modèle de répondre de façon concise

Optimisation de la longueur et de la composition du contexte

La plupart des questions nécessitent un contexte
Selon l’article SituatedQA, une part importante des questions de recherche d’information reçoit des réponses différentes selon le contexte (16,5 % du dataset NQ-Open sont concernés)
Dans les cas d’usage en entreprise, cette proportion serait bien plus élevée (pour un chatbot de support client, par exemple, le contexte inclut l’historique du client ou des informations sur le produit)
La longueur du contexte est particulièrement importante pour le RAG (Retrieval Augmented Generation)
Le RAG fonctionne en deux étapes
- Chunking (indexation) : collecter tous les documents à utiliser avec le LLM, générer des embeddings, les découper en chunks pour les injecter dans le LLM, puis stocker les embeddings dans une base de données vectorielle
- Requête : lorsqu’un utilisateur envoie une requête, le LLM la convertit en embedding, puis récupère dans la base de données vectorielle les chunks les plus similaires
Plus la fenêtre de contexte est longue, plus on peut y mettre de chunks. Si le modèle a accès à plus d’informations, ses réponses seront meilleures, non ?
Pas forcément. La quantité de contexte utilisée par un modèle et l’efficacité avec laquelle ce modèle exploite ce contexte sont deux questions différentes
En parallèle des efforts visant à augmenter la longueur du contexte des modèles, il existe aussi des travaux pour rendre ce contexte plus efficace
- On parle de prompt engineering ou de prompt construction
- Par exemple, un article récent montre que les modèles comprennent mieux les informations placées au début ou à la fin du contexte qu’au milieu

Intégration d’autres modalités de données

La multimodalité est très puissante, mais reste encore sous-estimée
Voici pourquoi c’est important
- Il existe des cas d’usage traitant des données très diverses : santé, robotique, e-commerce, retail, jeux, divertissement, etc.
  - Les prédictions médicales nécessitent du texte (notes du médecin, questionnaires) et des images (CT, X-Ray, MRI)
  - Les métadonnées produit incluent des images, des vidéos, des descriptions et des données tabulaires
- La multimodalité apportera probablement un gain majeur de performance des modèles
  - Un modèle capable de comprendre du texte et des images sera plus performant qu’un modèle comprenant seulement le texte
  - Les modèles fondés uniquement sur le texte nécessitent d’énormes volumes de données textuelles, ce qui alimente l’inquiétude d’un épuisement prochain des données Internet nécessaires à l’entraînement des modèles
  - Si le texte vient à manquer, il faudra exploiter d’autres modalités de données
Un point particulièrement prometteur : permettre aux personnes malvoyantes de naviguer sur Internet et d’explorer le monde réel grâce à la multimodalité

Rendre les LLM plus rapides et moins coûteux

Lorsque GPT-3.5 est sorti en novembre 2022, beaucoup s’inquiétaient de la latence et du coût d’usage en production
Mais l’analyse latence/coût a beaucoup changé depuis
En moins de six mois, la communauté a trouvé comment créer des modèles n’occupant que 2 % de l’empreinte mémoire de GPT-3.5, tout en s’en rapprochant beaucoup en performances
Idée clé : quand on parvient à construire quelque chose d’assez bon, les gens finissent par trouver comment le rendre rapide et peu coûteux
Quatre grandes techniques d’optimisation/compression de modèles, déjà résumées il y a 4 ans
- Quantization (quantification) : la méthode d’optimisation de modèle la plus courante. Elle réduit la taille du modèle en utilisant moins de bits pour représenter les paramètres. Au lieu de flottants 32 bits, on utilise 16 bits, voire 4 bits
- Knowledge distillation (distillation des connaissances) : entraîner un petit modèle (élève) à imiter un plus grand modèle ou un ensemble de modèles (professeur)
- Low-rank factorization (factorisation de rang faible) : remplacer des tenseurs de grande dimension par des tenseurs de plus faible dimension afin de réduire le nombre de paramètres. Par exemple, décomposer un tenseur 3x3 en produit d’un tenseur 3x1 et d’un tenseur 1x3, ce qui donne 6 paramètres au lieu de 9
- Pruning (élagage)
Aujourd’hui encore, ces quatre techniques restent pertinentes et populaires. Alpaca a utilisé la distillation des connaissances, et QLoRA une combinaison de factorisation de rang faible et de quantification

Concevoir de nouvelles architectures de modèles

Depuis AlexNet en 2012, de nombreuses architectures comme LSTM ou seq2seq ont connu leur heure de gloire avant de disparaître
En comparaison, le Transformer se montre remarquablement tenace. Il est apparu en 2017, et on peut se demander combien de temps encore il dominera
Développer une nouvelle architecture capable de surpasser le Transformer n’est pas facile. Il a été énormément optimisé au cours des six dernières années
Une nouvelle architecture doit être performante à une échelle qui intéresse réellement les gens aujourd’hui
- Le Transformer a d’abord été conçu pour s’exécuter rapidement sur TPU, puis a ensuite été optimisé pour GPU
En 2021, le laboratoire de Chris Ré a suscité beaucoup d’enthousiasme autour de S4.
Ils continuent récemment d’investir dans de nouvelles architectures et ont plus récemment co-développé l’architecture Monarch Mixer avec la startup Together

Développer des alternatives aux GPU

Les GPU sont le matériel dominant pour le deep learning depuis AlexNet en 2012
L’une des raisons de la popularité d’AlexNet est qu’il s’agissait du premier article à entraîner avec succès un réseau de neurones à l’aide de GPU
Avant les GPU, entraîner un modèle de la taille d’AlexNet aurait nécessité des milliers de CPU
Comparés à des milliers de CPU, 2 GPU étaient bien plus accessibles pour les doctorants et les chercheurs, ce qui a déclenché le boom de la recherche en deep learning
Au cours des dix dernières années, de grands groupes, des startups et de nombreuses entreprises ont tenté de créer de nouveaux matériels pour l’IA
Les plus marquants sont les TPU de Google, les IPU de Graphcore et Cerebras
SambaNova a levé plus d’un milliard de dollars pour développer une nouvelle puce d’IA, mais a pivoté vers une plateforme d’IA générative
Pendant un temps, l’informatique quantique a suscité de grands espoirs, avec notamment
- le QPU d’IBM
- l’ordinateur quantique de Google, qui a publié plus tôt cette année dans Nature une avancée majeure sur la réduction des erreurs quantiques. Une machine virtuelle quantique est accessible via Google Colab
- le MIT Center for Quantum Engineering, le Max Planck Institute of Quantum Optics, le Chicago Quantum Exchange, l’Oak Ridge National Laboratory, etc.
Une autre direction très intéressante est celle des puces photoniques
- Les puces actuelles déplacent les données à l’aide d’électricité, ce qui consomme beaucoup d’énergie et introduit de la latence
- Les puces photoniques utilisent des photons pour déplacer les données et exploitent la vitesse de la lumière pour un calcul plus rapide et plus efficace
- Plusieurs startups du secteur ont levé des centaines de millions de dollars, notamment Lightmatter ($270M), Ayar Labs ($220M), Lightelligence ($200M+) et Luminous Computing ($115M)

Rendre les agents utilisables

Les agents sont des LLM capables d’effectuer des tâches comme la recherche sur Internet, l’envoi d’e-mails ou les réservations
Comparé aux autres axes de recherche de cet article, c’est probablement le domaine le plus précoce
En raison de sa nouveauté et de son énorme potentiel, le domaine des agents suscite un enthousiasme considérable
Auto-GPT est désormais le 25e repo le plus populaire sur GitHub en nombre de stars
GPT-Engineering est un autre dépôt populaire
Malgré cet enthousiasme, des doutes persistent quant à la fiabilité et au niveau de performance des LLM pour qu’on leur délègue le pouvoir d’agir
La startup la plus notable dans ce domaine est Adept
- Fondée par deux co-auteurs du Transformer et un ancien VP d’OpenAI, elle a levé à ce jour près de 500 millions de dollars

Améliorer l’apprentissage à partir des préférences humaines

RLHF, Reinforcement Learning from Human Preference, est impressionnant, mais reste un peu bricolé
Il ne serait pas surprenant que l’on découvre une meilleure manière d’entraîner les LLM. Le RLHF laisse encore de nombreuses questions ouvertes
- Comment représenter mathématiquement les préférences humaines ?
  - Aujourd’hui, les préférences humaines sont déterminées par comparaison
  - Les annotateurs humains décident si la réponse A est meilleure que la réponse B, mais pas de combien elle l’est
- Et les goûts humains ?
  - Anthropic a mesuré la qualité des réponses des modèles selon trois axes : utile, honnête et inoffensif
  - DeepMind cherche à générer des réponses qui plaisent à la majorité des gens
  - Voulons-nous une IA capable de prendre position, ou une IA fade qui évite les sujets potentiellement controversés ?
- Compte tenu des différences de culture, de religion ou d’orientation politique, les préférences de qui représentent des préférences « humaines » ?
Il est très difficile d’obtenir des données d’entraînement représentant suffisamment tous les utilisateurs potentiels
Par exemple, dans les données d’InstructGPT d’OpenAI, il n’y avait aucun annotateur de plus de 65 ans. Les annotateurs étaient principalement philippins et bangladais
Les efforts menés par la communauté peuvent partir de bonnes intentions, mais produire des données biaisées
Par exemple, dans le dataset OpenAssistant, 201 répondants sur 222 (90,5 %) ont déclaré être des hommes

Améliorer l’efficacité des interfaces de chat

Depuis ChatGPT, de nombreuses discussions ont eu lieu sur la pertinence du chat comme interface pour des tâches variées
Ce n’est pas un débat nouveau : en Asie, le chat est utilisé depuis environ 10 ans comme interface de super apps
Personnellement, j’aime les interfaces de chat pour les raisons suivantes
- Le chat est une interface dont on peut rapidement apprendre l’usage, y compris pour des personnes qui n’auraient autrement jamais été exposées à un ordinateur ou à Internet
- Les interfaces de chat sont accessibles. Si les mains sont occupées, on peut utiliser la voix au lieu du texte
- Le chat est une interface incroyablement puissante. On peut faire n’importe quelle demande, et même quand la réponse n’est pas bonne, il fournit tout de même une réponse
Mais je pense qu’il reste encore des domaines dans lesquels les interfaces de chat peuvent être améliorées
- Plusieurs messages par tour
- Entrées multimodales
- Intégration de l’IA générative dans les workflows
- Édition et suppression des messages

Construire des LLM pour les langues non anglophones

Aujourd’hui, les LLM conçus d’abord pour l’anglais ne fonctionnent pas très bien pour les autres langues en termes de performances, de latence et de vitesse
Certains des premiers lecteurs de cet article ont dit qu’il ne fallait pas inclure cette direction
- Selon eux, c’est plus un problème de logistique que de recherche. Nous savons déjà comment faire, il suffirait d’y investir de l’argent et des efforts
  Mais ce n’est pas vrai. La plupart des langues manquent de ressources. Elles disposent de bien moins de données de haute qualité que l’anglais ou le chinois, et l’entraînement de grands modèles pourrait exiger d’autres techniques
- Les plus pessimistes disent même que beaucoup de langues disparaîtront à l’avenir, et qu’Internet deviendra deux mondes composés de deux langues : l’anglais et le mandarin. Quelqu’un se souvient d’Esperando ?
L’impact des outils d’IA comme la traduction automatique et les chatbots sur l’apprentissage des langues reste encore flou
Vont-ils aider les gens à apprendre plus vite de nouvelles langues, ou supprimer complètement le besoin d’en apprendre ?

1 commentaires

joone 2023-08-31

L’auteur de ce texte est aussi l’auteur du livre Designing Machine Learning Systems publié chez O'Reilly.
La version traduite a été publiée par Hanbit Publishing.
https://m.hanbit.co.kr/store/books/book_view.html?p_code=B1811121220