La course-poursuite des grands modèles de langage open source

(arxiv.org)

4 points par GN⁺ 2023-12-03 | 1 commentaires | Partager sur WhatsApp

Il s’agit d’une enquête comparant les tâches sur lesquelles les LLM open source ont, un an après la sortie de ChatGPT, atteint des performances équivalentes ou supérieures à celles de ChatGPT
ChatGPT a montré, grâce à l’apprentissage par renforcement à partir de retours humains, sa capacité à fournir des réponses utiles et sûres et à exécuter des consignes, atteignant 100 millions d’utilisateurs en deux mois après son lancement
Les LLM propriétaires ne publient ni leur architecture ni leurs données d’entraînement, ce qui laisse subsister des problèmes de reproductibilité, d’évaluation des risques, de pannes, de coûts d’API, ainsi que de propriété et de confidentialité des données
Les modèles open source comme Llama-2 et Falcon sont souvent perçus comme en retard sur des modèles propriétaires comme GPT-4, mais, sur certains benchmarks, ils ont parfois dépassé GPT-3.5-turbo
Dans un environnement où modèles et benchmarks évoluent rapidement, il vaut mieux éviter de désigner un vainqueur unique et plutôt examiner séparément les capacités générales, les agents, le raisonnement, le contexte long, les applications et la fiabilité

L’écosystème des LLM après ChatGPT

Depuis son lancement fin 2022, ChatGPT a profondément transformé la recherche en IA et le secteur commercial
En appliquant aux grands modèles de langage le fine-tuning supervisé et l’apprentissage par renforcement à partir de retours humains, il a popularisé l’expérience du chatbot capable de répondre à des questions variées et de suivre des instructions
Auparavant, les tâches de langage naturel comme le résumé ou le question-réponse étaient principalement traitées par des modèles préentraînés puis affinés pour chaque tâche, mais ChatGPT exécute largement ce type de tâches
Il a atteint 100 millions d’utilisateurs en deux mois après son lancement, affichant une croissance plus rapide que des applications populaires comme TikTok ou YouTube
Les entreprises continuent d’investir massivement dans ChatGPT en raison de son potentiel de réduction des coûts de main-d’œuvre, d’automatisation des workflows et de création de nouvelles expériences client

Les contraintes imposées par les LLM propriétaires

ChatGPT n’est pas open source et son accès est contrôlé par une entreprise privée
Il est expliqué qu’il suit la procédure introduite avec InstructGPT, c’est-à-dire GPT-3.5, mais son architecture exacte, ses données de préentraînement et ses données de fine-tuning ne sont pas rendues publiques
Cette opacité crée plusieurs contraintes lors de l’évaluation et de l’exploitation du modèle
- Sans visibilité sur le processus interne d’entraînement, il est difficile d’estimer les risques sociétaux, comme la génération de contenus toxiques, non éthiques ou faux
- Des rapports indiquent que les performances de ChatGPT évoluent dans le temps, ce qui complique l’obtention de résultats reproductibles
- Deux pannes majeures sont survenues en novembre 2023, avec des cas où le site web de ChatGPT et l’accès à l’API ont été totalement indisponibles
- En entreprise, les coûts d’appel API, les interruptions de service, la propriété des données et la confidentialité peuvent constituer de véritables charges
- Des événements difficiles à prévoir, comme le conflit au conseil d’administration ayant conduit au licenciement du CEO Sam Altman, à la révolte des employés puis à son retour, deviennent aussi des éléments à prendre en compte pour les utilisateurs professionnels

Jusqu’où les LLM open source ont-ils rattrapé leur retard ?

Les LLM open source attirent l’attention comme alternative capable d’atténuer ou de contourner les limites des LLM propriétaires
La communauté de recherche poursuit ses efforts pour maintenir open source des LLM à hautes performances
Fin 2023, l’idée que des LLM open source comme Llama-2 ou Falcon restent en retard par rapport à des modèles propriétaires comme GPT-3.5 et GPT-4 d’OpenAI, Claude d’Anthropic ou Bard de Google est largement répandue
GPT-4 est généralement considéré comme le modèle le plus avancé
L’écart continue néanmoins de se réduire, et, sur certains benchmarks standard, les meilleurs LLM open source obtiennent de meilleurs résultats que GPT-3.5-turbo
La comparaison elle-même n’est pas simple
- Les LLM propriétaires sont régulièrement réentraînés sur des données plus récentes et continuellement mis à jour
- De nouveaux LLM open source sont également lancés pour combler cet écart
- La multiplicité des jeux de données d’évaluation et des benchmarks utilisés pour comparer les LLM rend difficile la désignation d’un unique meilleur modèle

Domaines d’évaluation comparés et modèles représentatifs

Cette enquête rassemble diverses évaluations comparant des LLM open source et ChatGPT afin de présenter, par domaine, l’écart de performance actuel
Capacités générales
- AlpacaEval, MT-bench, ELO rating, Open LLM leaderboard, entre autres
- Parmi les modèles open source concernés figurent Llama-2, WizardLM, Zephyr, Deepseek, Yi et Mixtral
Capacités d’agent
- Réparties entre utilisation d’outils, auto-débogage, suivi de retours en langage naturel et exploration d’environnement
- Les évaluations incluent API-Bank, ToolBench, APIBench, ToolAlpaca, InterCode-Bash, InterCode-SQL, MINT, ALFWorld et WebArena
- Gorilla, ToolLLaMA, Lemur-chat, AgentLlama et OpenChat-3.5 font partie des modèles concernés
Raisonnement logique
- Inclut les domaines des mathématiques et du code
- GSM8K, MATH, TheoremQA, HumanEval, MBPP et APPs servent de tâches d’évaluation
- WizardMath et WizardCoder sont cités comme modèles représentatifs
Modélisation de contexte long
- Inclut SCROLLS, Zero-SCROLLS, LongBench, L-Eval, BAMBOO et M4LE
- Llama-2-long est traité comme modèle associé
Domaines d’application spécialisés
- Incluent le résumé centré sur les requêtes, le question-réponse ouvert, le médical, la génération de données structurées et la génération de critiques
- QMSum, SQuALITY, CovidET, NEWTS, NQ, TriviaQA, NewsQA, SQuAD, Quoref, NarrativeQA, DROP et MIMIC-CXR sont utilisés comme tâches
- InstructRetro, MentaLLaMA, Radiology-Llama-2, Struct-Bench et Shepherd figurent parmi les modèles concernés
Fiabilité
- Couvre les hallucinations et la sécurité
- TruthfulQA, FactualityPrompt, FActScore, KoLA-KC, HaluEval, FACTOR, SafetyBench et XSTEST sont inclus
- Platypus et Chain-of-Verification sont mentionnés comme approches liées aux hallucinations

Repères de décision pour les chercheurs et les entreprises

Cette enquête fournit à la communauté de recherche et au monde de l’entreprise les éléments nécessaires pour évaluer le niveau actuel et le potentiel futur des LLM open source
Les chercheurs peuvent l’utiliser pour synthétiser les progrès des LLM open source et leurs tendances d’évolution, ainsi que pour identifier de futures orientations de recherche
Les décideurs en entreprise peuvent en tirer les éclairages et lignes directrices nécessaires pour évaluer la pertinence et les avantages de l’adoption de LLM open source
L’article présente d’abord les concepts de base, puis passe en revue les LLM open source ayant dépassé ChatGPT dans plusieurs domaines, discute des tendances de développement, des bonnes pratiques d’entraînement et des problèmes potentiels, avant de se conclure par un résumé

1 commentaires

GN⁺ 2023-12-03

Avis sur Hacker News

Ces derniers jours, plusieurs modèles ouverts puissants sont sortis
Qwen 72B et 1.8B mettent en avant un contexte de 32K, un entraînement sur 3T tokens, une licence commerciale pour moins de 100 millions d’utilisateurs actifs mensuels, et de solides performances aux benchmarks : https://twitter.com/huybery/status/1730127387109781932
DeepSeek LLM 67B a un contexte de 4K, 2T tokens, une licence Apache 2.0, et se montre fort en code. Cela dit, d’après les benchmarks, DeepSeek Code 33B semble meilleur : https://twitter.com/deepseek_ai/status/1729881611234431456
Récemment sont aussi sortis Yi 34B, un 100B dont la sortie prochaine fait l’objet de rumeurs, XVERSE-65B, Aquila2-70B et Yuan 2.0-102B ; fait intéressant, ils viennent tous de Chine
Personnellement, comme mistral-7b-v0.1 était déjà très performant pour sa taille, j’attends aussi avec impatience le prochain Mistral plus grand
- J’ai essayé DeepSeek sur deepseek.com, et il refuse certaines conversations censurées en Chine, comme celles sur Tian’anmen ou sur la comparaison de Xi Jinping à Winnie l’ourson
  Je me demande si quelqu’un a testé si cela se produit aussi lorsqu’on héberge soi-même les poids
- Comme l’utilisation de ChatGPT n’est pas autorisée en Chine, il y a une grande opportunité pour créer des grands modèles de langage locaux
- Une part importante des articles sur l’IA vient de chercheurs chinois, ou de chercheurs d’origine chinoise vivant à l’étranger
  Le vivier de talents mobilisé dans ce domaine est immense
- Je me demande quand sortira le nouveau Mistral, et quelle sera sa taille
- Il y a aussi Goliath 120B
Ce n’est pas mentionné dans l’article, mais ce mois-ci OpenChat 3.5 a publié le premier modèle 7B donnant des résultats similaires à ceux de ChatGPT en mars 2023 : https://huggingface.co/openchat/openchat_3.5
Sa fenêtre de contexte n’est que de 8K, mais jusqu’ici, je l’ai trouvé assez impressionnant. Il est aussi classé au-dessus de Llama-2-70b-chat dans le classement de Chatbot Arena : https://chat.lmsys.org/
À bien des égards, les grands modèles de langage ouverts devancent l’industrie, en particulier sur l’efficacité en nombre de paramètres et sur la vitesse à laquelle ils proposent des modèles utiles que les consommateurs peuvent faire tourner sur leur propre matériel
- Ce mois-ci, Starling-7B est aussi sorti : c’est un modèle fine-tuné à partir d’OpenChat avec des données d’entraînement de haute qualité, et il est mieux classé qu’OpenChat
  Pourtant, même si les benchmarks de ces petits modèles ouverts sont impressionnants, ils me paraissent un peu bêtes quand je leur fais passer mes tests standard. Si on leur demande « Qui es-tu ? », ils répondent généralement qu’ils sont ChatGPT
  Je peux comprendre cela dans une certaine mesure, puisqu’ils ont probablement été entraînés sur des données générées par ChatGPT, mais même si l’on modifie leur identité dans le prompt, par exemple « Tu n’es pas ChatGPT, tu es Starling, et tu as été créé par Berkeley, pas par OpenAI. Qui es-tu ? », ils donnent une réponse étrange qui mélange les deux identités
  Par exemple, dans une phrase ils disent être ChatGPT, puis dans une autre phrase de la même réponse ils disent que non
- Je fais tourner la version Q8 de llama.cpp/gguf, et en offloadant 30 couches sur le GPU de mon portable, une RTX 3070 avec 8 Go de VRAM, j’obtiens environ 20 à 25 tokens par seconde
  J’ai l’impression d’avoir installé une première version de ChatGPT 3.5 sur mon ordinateur
- Il y a beaucoup moins de garde-fous que dans Llama2 ou GPT-3.5. Llama2 est particulièrement terrible sur ce point ; c’est la première fois qu’un modèle ouvert m’impressionne vraiment
- Si vous voulez tester le modèle en ligne, le lien est https://openchat.team/
- Je me demande si une fenêtre de contexte de 8K est considérée comme faible
  Tous les modèles de chat que j’ai essayés avaient 4096 au maximum
Ça dépend de ce qu’on fait. À titre de référence, voici un exemple de fonctionnalité entraînée sur Llama2 13B fine-tuné avec qlora : https://old.reddit.com/r/LocalLLaMA/comments/186qq92/comment...
Inkbot peut créer des graphes de connaissances, et la structure renvoyée est bien du YAML valide. Pour cette tâche, les résultats de mon modèle fine-tuné étaient nettement meilleurs qu’avec GPT-4 : https://huggingface.co/Tostino/Inkbot-13B-8k-0.2
Prompt simple : https://gist.github.com/Tostino/c3541f3a01d420e771f66c62014e...
Prompt complexe : https://gist.github.com/Tostino/44bbc6a6321df5df23ba5b400a01...
Il peut aussi faire de la synthèse par chunks. Exemple de chunk, partie 1 : https://gist.github.com/Tostino/cacb1cecdf2eb7386baf565d157f..., résumé du résumé de la partie 2 : https://gist.github.com/Tostino/81eeee9781e519044950332b4e64...
Voici un exemple de document unique qui tient entièrement dans le contexte : https://gist.github.com/Tostino/4ba4e7e7988348134a7256fd1cbb...
- Travail vraiment génial. Depuis un an, je voulais essayer de faire de la génération de graphes de connaissances avec de grands modèles de langage, mais je n’ai pas eu le temps
  Ça fait plaisir de voir quelqu’un faire avancer cette idée correctement. Je me demande comment tu constitues les données d’entraînement
- J’aime vraiment beaucoup Inkbot. Je me demande si une nouvelle version est en préparation, et ce que donnerait une version basée sur Yi 34B
- Ça a l’air assez impressionnant. Je me demande s’il y a une chance qu’un Inkbot 7B soit aussi en préparation
- Je me demande s’il existe des ressources à consulter sur la façon dont tu l’as fine-tuné
On semble maintenant proche du point où il suffirait de placer un routeur de prompts devant plusieurs modèles spécialisés, par exemple pour le code, le chat, les maths, SQL ou la santé. Cela reviendrait à une sorte de Mixture of Experts locale
On enverrait la requête à un routeur exécuté par un modèle généraliste, qui décomposerait et classifierait le prompt ou la question, la transmettrait en proxy aux modèles experts, puis le modèle généraliste réassemblerait la réponse
Je me demande s’il existe des projets similaires
- Je pense aussi que c’est la direction que ça prend. L’idée serait d’avoir quelques modèles de 1 à 7B ou 14B paramètres, très forts chacun sur une tâche, et de les relier avec un modèle qui délègue bien
  Hugging Face propose Transformers Agents, décrit comme fournissant « une API en langage naturel au-dessus de transformers. Nous définissons un ensemble sélectionné d’outils et concevons un agent qui interprète le langage naturel et utilise ces outils »
  Il existe déjà des outils pour la question-réponse sur documents, la question-réponse textuelle, le sous-titrage d’images, la question-réponse sur images, la segmentation d’images, la reconnaissance vocale, la synthèse vocale, la classification de texte zéro-shot, le résumé, la traduction, le téléchargement de texte depuis une URL web, la génération texte-image, la transformation d’images et la génération texte-vidéo
  C’est conçu pour permettre d’ajouter des outils personnalisés, afin d’ajouter des cas d’usage ou de remplacer des modèles : https://huggingface.co/docs/transformers/transformers_agents
- Même aujourd’hui, c’est presque trivial à implémenter
  La première couche peut combiner traitement du langage naturel et classification zéro-shot pour clarifier la nature de la requête, puis un grand modèle de langage peut décomposer la requête en plusieurs parties concrètes et les envoyer à des modèles spécialisés
  À la fin, on peut réutiliser un grand modèle de langage comme machine à synthétiser pour fusionner le tout. Le problème, c’est qu’il faut pas mal de ressources pour faire tourner plusieurs modèles en parallèle
- Un article tout juste paru montrait qu’améliorer les prompts d’un plus grand modèle généraliste était généralement préférable aux modèles spécialisés : https://arxiv.org/pdf/2311.16452.pdf
- Il y avait il y a quelques mois une rumeur selon laquelle GPT-4 fonctionnerait de cette manière : un modèle de contrôle routerait les données vers des modèles experts
  Peut-être qu’il exécute même tous les experts puis compare les probabilités. À ma connaissance, ce n’est qu’une supposition fondée sur quelques détails ayant fuité sur Xitter
- Pour quelque chose de similaire, regarde LLaVA-Plus. Ici, les experts dont on parle sont appelés des « outils » : https://github.com/LLaVA-VL/LLaVA-Plus-Codebase
Les modèles actuels d’environ 70B, comme Llama 2 70B, sont à peu près au niveau de ChatGPT 3.5
Les meilleurs modèles plus petits peuvent sembler comparables au premier abord, mais ils hallucinent bien davantage et manquent aussi de connaissances sur le monde. GPT-4 « comprend » à un niveau plus profond, et aucun modèle public n’en est encore proche
Une période d’évaluation d’un an paraît appropriée. Au moins pour les grands modèles de langage et la génération d’images, le reste du monde semble avoir environ 12 à 18 mois de retard sur OpenAI
En revanche, les technologies publiques disposent généralement de davantage de fonctions de contrôle de la sortie qu’OpenAI ne privilégie pas, comme les grammars de llama.cpp ou ControlNet. En ce sens, le camp public tend à devancer OpenAI en matière de possibilités de personnalisation
- À l’inverse, les modèles GPT convergent vers le bas. GPT-4 Turbo a tellement perdu en performances que certains modèles 13B produisent désormais des résultats plus cohérents en raisonnement
  Par exemple, voici un test au long cours qui évalue les performances des modèles avec des requêtes volontairement ouvertes et assez ambiguës : https://chat.openai.com/share/dfd9b9ae-7214-4dd7-ad20-7ee07a...
  Le chat GPT-4 Turbo embrouillait les gens, ne choisissait même pas correctement la cible de l’enlèvement, ne changeait pas de sujet même quand on le lui demandait, choisissait dans le mauvais ensemble lorsqu’il devait se souvenir d’un personnage, et ne changeait pas de langue quand on lui demandait
  Si on lui pose des questions en zero-shot, il sait beaucoup de choses, mais dans les situations où il doit prouver sa cohérence interne et son attention, il est très loin de GPT-4
- Je ne pense pas qu’OpenAI prendra de l’avance dans la génération d’images. Après DALL-E, ils ont été dépassés assez vite, et tous les workflows réels que j’ai vus utilisent Midjourney ou Stable Diffusion
  À l’inverse, GPT-4 Vision est très en avance sur les modèles publics
- Pour les grands modèles de langage, c’est possible, mais le domaine évolue trop vite pour en être certain. Cela dit, SDXL 1.0 était bien meilleur que DALL·E 2
  Je considère que DALL·E 3 est un peu meilleur que SDXL, mais en dehors de la génération de texte, la qualité me paraît assez similaire
  Bien sûr, je me trompe peut-être moi-même en n’utilisant SDXL que pour ce qu’il fait bien. Quand je lui demandais de créer des dragons, c’était horrible à chaque fois
- L’appel de fonctions avec des schémas JSON est aussi stable que la fonction grammar de llama.cpp. Je l’ai utilisé sans rencontrer de vrais problèmes
Je ne répondrai pas à la question du titre elle-même, faute d’en savoir assez, mais comme d’autres modèles publics ont été mentionnés, je veux aussi citer DeepSeek 67B, que j’ai essayé ce soir et trouvé bon
https://chat.deepseek.com
Jusqu’ici, cette interface de chat a suffisamment remplacé mon besoin de ChatGPT
https://huggingface.co/deepseek-ai/deepseek-llm-67b-base
https://twitter.com/abacaj/status/1730019229175312612
Mistral OpenOrca était presque aussi bon que GPT-4 Turbo pour l’écriture créative ou l’analyse
En fait, ses sorties ont tendance à être assez similaires, ce qui est suspect, mais en tout cas il permet d’économiser beaucoup d’argent : https://huggingface.co/Open-Orca/Mistral-7B-OpenOrca
- Il y a aussi OpenChat. Si j’ai bien compris, il est entraîné sur des conversations GPT-4 : https://github.com/imoneoi/openchat
- Mistral OpenOrca suit aussi très bien les instructions de tâche
  Il est un peu moins stable que GPT-3.5/4, mais pour mes tâches de traitement de texte, l’écart de qualité relève presque du pile ou face
À long terme, il est presque inévitable que les grands modèles de langage publics commencent à rattraper leur retard
L’un des facteurs à prendre en compte est le coût. La communauté publique est soumise à des contraintes de ressources bien plus fortes, ce qui a vraiment accéléré le développement des modèles de moins de 30B
- Google, Meta et les entreprises financées ne se sont pas du tout approchés de GPT-4, donc je doute que le coût soit le principal facteur
  En dehors des modèles d’OpenAI, le seul bon modèle est Claude
- Le coût posera problème dans cette industrie
  Cela me rappelle l’époque où Rackspace et d’autres tentaient de gagner avec OpenStack parce que c’était « ouvert ». Au final, AWS et Azure ont gagné, et même Google n’est que troisième
  Les grandes entreprises l’emporteront, et il restera des niches pour les outils publics
D’après mon expérience personnelle, les grands modèles de langage publics n’ont pas encore atteint la qualité de GPT-3.5. C’est ce que je pense malgré les nombreuses affirmations fondées sur des benchmarks douteux
Ils sont toutefois déjà utiles aujourd’hui, et on peut les faire tourner sur une machine locale. Pour les tâches simples, je les utilise régulièrement avec le plugin Neovim gen.nvim, et cela me fait gagner beaucoup de temps : https://github.com/David-Kunz/gen.nvim
J’ai hâte de voir la suite
- Intéressant. J’aimerais essayer, mais l’une des dépendances est ollama, et cela ressemble à une app Mac. Je n’ai pas de Mac
  En local, je fais tourner des modèles Llama avec llama-cpp-python, qui fournit une couche compatible OpenAI
Je pense que les modèles publics sont clairement en train de rattraper leur retard. Surtout parce qu’il y a eu une baisse de performance de GPT-4 constante au cours du dernier mois
https://chat.openai.com/share/c91287ee-9a5e-4c99-b5df-49cc45...
- Une grande partie de ce « rattrapage » a probablement été obtenue en générant des jeux de données de fine-tuning de haute qualité avec l’API GPT-4

La course-poursuite des grands modèles de langage open source

L’écosystème des LLM après ChatGPT

Les contraintes imposées par les LLM propriétaires

Jusqu’où les LLM open source ont-ils rattrapé leur retard ?

Domaines d’évaluation comparés et modèles représentatifs

Capacités générales

Capacités d’agent

Raisonnement logique

Modélisation de contexte long

Domaines d’application spécialisés

Fiabilité

Repères de décision pour les chercheurs et les entreprises

À lire aussi

1 commentaires

Avis sur Hacker News