- Il s’agit d’une enquête comparant les tâches sur lesquelles les LLM open source ont, un an après la sortie de ChatGPT, atteint des performances équivalentes ou supérieures à celles de ChatGPT
- ChatGPT a montré, grâce à l’apprentissage par renforcement à partir de retours humains, sa capacité à fournir des réponses utiles et sûres et à exécuter des consignes, atteignant 100 millions d’utilisateurs en deux mois après son lancement
- Les LLM propriétaires ne publient ni leur architecture ni leurs données d’entraînement, ce qui laisse subsister des problèmes de reproductibilité, d’évaluation des risques, de pannes, de coûts d’API, ainsi que de propriété et de confidentialité des données
- Les modèles open source comme Llama-2 et Falcon sont souvent perçus comme en retard sur des modèles propriétaires comme GPT-4, mais, sur certains benchmarks, ils ont parfois dépassé GPT-3.5-turbo
- Dans un environnement où modèles et benchmarks évoluent rapidement, il vaut mieux éviter de désigner un vainqueur unique et plutôt examiner séparément les capacités générales, les agents, le raisonnement, le contexte long, les applications et la fiabilité
L’écosystème des LLM après ChatGPT
- Depuis son lancement fin 2022, ChatGPT a profondément transformé la recherche en IA et le secteur commercial
- En appliquant aux grands modèles de langage le fine-tuning supervisé et l’apprentissage par renforcement à partir de retours humains, il a popularisé l’expérience du chatbot capable de répondre à des questions variées et de suivre des instructions
- Auparavant, les tâches de langage naturel comme le résumé ou le question-réponse étaient principalement traitées par des modèles préentraînés puis affinés pour chaque tâche, mais ChatGPT exécute largement ce type de tâches
- Il a atteint 100 millions d’utilisateurs en deux mois après son lancement, affichant une croissance plus rapide que des applications populaires comme TikTok ou YouTube
- Les entreprises continuent d’investir massivement dans ChatGPT en raison de son potentiel de réduction des coûts de main-d’œuvre, d’automatisation des workflows et de création de nouvelles expériences client
Les contraintes imposées par les LLM propriétaires
- ChatGPT n’est pas open source et son accès est contrôlé par une entreprise privée
- Il est expliqué qu’il suit la procédure introduite avec InstructGPT, c’est-à-dire GPT-3.5, mais son architecture exacte, ses données de préentraînement et ses données de fine-tuning ne sont pas rendues publiques
- Cette opacité crée plusieurs contraintes lors de l’évaluation et de l’exploitation du modèle
- Sans visibilité sur le processus interne d’entraînement, il est difficile d’estimer les risques sociétaux, comme la génération de contenus toxiques, non éthiques ou faux
- Des rapports indiquent que les performances de ChatGPT évoluent dans le temps, ce qui complique l’obtention de résultats reproductibles
- Deux pannes majeures sont survenues en novembre 2023, avec des cas où le site web de ChatGPT et l’accès à l’API ont été totalement indisponibles
- En entreprise, les coûts d’appel API, les interruptions de service, la propriété des données et la confidentialité peuvent constituer de véritables charges
- Des événements difficiles à prévoir, comme le conflit au conseil d’administration ayant conduit au licenciement du CEO Sam Altman, à la révolte des employés puis à son retour, deviennent aussi des éléments à prendre en compte pour les utilisateurs professionnels
Jusqu’où les LLM open source ont-ils rattrapé leur retard ?
- Les LLM open source attirent l’attention comme alternative capable d’atténuer ou de contourner les limites des LLM propriétaires
- La communauté de recherche poursuit ses efforts pour maintenir open source des LLM à hautes performances
- Fin 2023, l’idée que des LLM open source comme Llama-2 ou Falcon restent en retard par rapport à des modèles propriétaires comme GPT-3.5 et GPT-4 d’OpenAI, Claude d’Anthropic ou Bard de Google est largement répandue
- GPT-4 est généralement considéré comme le modèle le plus avancé
- L’écart continue néanmoins de se réduire, et, sur certains benchmarks standard, les meilleurs LLM open source obtiennent de meilleurs résultats que GPT-3.5-turbo
- La comparaison elle-même n’est pas simple
- Les LLM propriétaires sont régulièrement réentraînés sur des données plus récentes et continuellement mis à jour
- De nouveaux LLM open source sont également lancés pour combler cet écart
- La multiplicité des jeux de données d’évaluation et des benchmarks utilisés pour comparer les LLM rend difficile la désignation d’un unique meilleur modèle
Domaines d’évaluation comparés et modèles représentatifs
- Cette enquête rassemble diverses évaluations comparant des LLM open source et ChatGPT afin de présenter, par domaine, l’écart de performance actuel
-
Capacités générales
- AlpacaEval, MT-bench, ELO rating, Open LLM leaderboard, entre autres
- Parmi les modèles open source concernés figurent Llama-2, WizardLM, Zephyr, Deepseek, Yi et Mixtral
-
Capacités d’agent
- Réparties entre utilisation d’outils, auto-débogage, suivi de retours en langage naturel et exploration d’environnement
- Les évaluations incluent API-Bank, ToolBench, APIBench, ToolAlpaca, InterCode-Bash, InterCode-SQL, MINT, ALFWorld et WebArena
- Gorilla, ToolLLaMA, Lemur-chat, AgentLlama et OpenChat-3.5 font partie des modèles concernés
-
Raisonnement logique
- Inclut les domaines des mathématiques et du code
- GSM8K, MATH, TheoremQA, HumanEval, MBPP et APPs servent de tâches d’évaluation
- WizardMath et WizardCoder sont cités comme modèles représentatifs
-
Modélisation de contexte long
- Inclut SCROLLS, Zero-SCROLLS, LongBench, L-Eval, BAMBOO et M4LE
- Llama-2-long est traité comme modèle associé
-
Domaines d’application spécialisés
- Incluent le résumé centré sur les requêtes, le question-réponse ouvert, le médical, la génération de données structurées et la génération de critiques
- QMSum, SQuALITY, CovidET, NEWTS, NQ, TriviaQA, NewsQA, SQuAD, Quoref, NarrativeQA, DROP et MIMIC-CXR sont utilisés comme tâches
- InstructRetro, MentaLLaMA, Radiology-Llama-2, Struct-Bench et Shepherd figurent parmi les modèles concernés
-
Fiabilité
- Couvre les hallucinations et la sécurité
- TruthfulQA, FactualityPrompt, FActScore, KoLA-KC, HaluEval, FACTOR, SafetyBench et XSTEST sont inclus
- Platypus et Chain-of-Verification sont mentionnés comme approches liées aux hallucinations
Repères de décision pour les chercheurs et les entreprises
- Cette enquête fournit à la communauté de recherche et au monde de l’entreprise les éléments nécessaires pour évaluer le niveau actuel et le potentiel futur des LLM open source
- Les chercheurs peuvent l’utiliser pour synthétiser les progrès des LLM open source et leurs tendances d’évolution, ainsi que pour identifier de futures orientations de recherche
- Les décideurs en entreprise peuvent en tirer les éclairages et lignes directrices nécessaires pour évaluer la pertinence et les avantages de l’adoption de LLM open source
- L’article présente d’abord les concepts de base, puis passe en revue les LLM open source ayant dépassé ChatGPT dans plusieurs domaines, discute des tendances de développement, des bonnes pratiques d’entraînement et des problèmes potentiels, avant de se conclure par un résumé
1 commentaires
Avis sur Hacker News
Ces derniers jours, plusieurs modèles ouverts puissants sont sortis
Qwen 72B et 1.8B mettent en avant un contexte de 32K, un entraînement sur 3T tokens, une licence commerciale pour moins de 100 millions d’utilisateurs actifs mensuels, et de solides performances aux benchmarks : https://twitter.com/huybery/status/1730127387109781932
DeepSeek LLM 67B a un contexte de 4K, 2T tokens, une licence Apache 2.0, et se montre fort en code. Cela dit, d’après les benchmarks, DeepSeek Code 33B semble meilleur : https://twitter.com/deepseek_ai/status/1729881611234431456
Récemment sont aussi sortis Yi 34B, un 100B dont la sortie prochaine fait l’objet de rumeurs, XVERSE-65B, Aquila2-70B et Yuan 2.0-102B ; fait intéressant, ils viennent tous de Chine
Personnellement, comme mistral-7b-v0.1 était déjà très performant pour sa taille, j’attends aussi avec impatience le prochain Mistral plus grand
Je me demande si quelqu’un a testé si cela se produit aussi lorsqu’on héberge soi-même les poids
Le vivier de talents mobilisé dans ce domaine est immense
Ce n’est pas mentionné dans l’article, mais ce mois-ci OpenChat 3.5 a publié le premier modèle 7B donnant des résultats similaires à ceux de ChatGPT en mars 2023 : https://huggingface.co/openchat/openchat_3.5
Sa fenêtre de contexte n’est que de 8K, mais jusqu’ici, je l’ai trouvé assez impressionnant. Il est aussi classé au-dessus de Llama-2-70b-chat dans le classement de Chatbot Arena : https://chat.lmsys.org/
À bien des égards, les grands modèles de langage ouverts devancent l’industrie, en particulier sur l’efficacité en nombre de paramètres et sur la vitesse à laquelle ils proposent des modèles utiles que les consommateurs peuvent faire tourner sur leur propre matériel
Pourtant, même si les benchmarks de ces petits modèles ouverts sont impressionnants, ils me paraissent un peu bêtes quand je leur fais passer mes tests standard. Si on leur demande « Qui es-tu ? », ils répondent généralement qu’ils sont ChatGPT
Je peux comprendre cela dans une certaine mesure, puisqu’ils ont probablement été entraînés sur des données générées par ChatGPT, mais même si l’on modifie leur identité dans le prompt, par exemple « Tu n’es pas ChatGPT, tu es Starling, et tu as été créé par Berkeley, pas par OpenAI. Qui es-tu ? », ils donnent une réponse étrange qui mélange les deux identités
Par exemple, dans une phrase ils disent être ChatGPT, puis dans une autre phrase de la même réponse ils disent que non
J’ai l’impression d’avoir installé une première version de ChatGPT 3.5 sur mon ordinateur
Tous les modèles de chat que j’ai essayés avaient 4096 au maximum
Ça dépend de ce qu’on fait. À titre de référence, voici un exemple de fonctionnalité entraînée sur Llama2 13B fine-tuné avec qlora : https://old.reddit.com/r/LocalLLaMA/comments/186qq92/comment...
Inkbot peut créer des graphes de connaissances, et la structure renvoyée est bien du YAML valide. Pour cette tâche, les résultats de mon modèle fine-tuné étaient nettement meilleurs qu’avec GPT-4 : https://huggingface.co/Tostino/Inkbot-13B-8k-0.2
Prompt simple : https://gist.github.com/Tostino/c3541f3a01d420e771f66c62014e...
Prompt complexe : https://gist.github.com/Tostino/44bbc6a6321df5df23ba5b400a01...
Il peut aussi faire de la synthèse par chunks. Exemple de chunk, partie 1 : https://gist.github.com/Tostino/cacb1cecdf2eb7386baf565d157f..., résumé du résumé de la partie 2 : https://gist.github.com/Tostino/81eeee9781e519044950332b4e64...
Voici un exemple de document unique qui tient entièrement dans le contexte : https://gist.github.com/Tostino/4ba4e7e7988348134a7256fd1cbb...
Ça fait plaisir de voir quelqu’un faire avancer cette idée correctement. Je me demande comment tu constitues les données d’entraînement
On semble maintenant proche du point où il suffirait de placer un routeur de prompts devant plusieurs modèles spécialisés, par exemple pour le code, le chat, les maths, SQL ou la santé. Cela reviendrait à une sorte de Mixture of Experts locale
On enverrait la requête à un routeur exécuté par un modèle généraliste, qui décomposerait et classifierait le prompt ou la question, la transmettrait en proxy aux modèles experts, puis le modèle généraliste réassemblerait la réponse
Je me demande s’il existe des projets similaires
Hugging Face propose Transformers Agents, décrit comme fournissant « une API en langage naturel au-dessus de transformers. Nous définissons un ensemble sélectionné d’outils et concevons un agent qui interprète le langage naturel et utilise ces outils »
Il existe déjà des outils pour la question-réponse sur documents, la question-réponse textuelle, le sous-titrage d’images, la question-réponse sur images, la segmentation d’images, la reconnaissance vocale, la synthèse vocale, la classification de texte zéro-shot, le résumé, la traduction, le téléchargement de texte depuis une URL web, la génération texte-image, la transformation d’images et la génération texte-vidéo
C’est conçu pour permettre d’ajouter des outils personnalisés, afin d’ajouter des cas d’usage ou de remplacer des modèles : https://huggingface.co/docs/transformers/transformers_agents
La première couche peut combiner traitement du langage naturel et classification zéro-shot pour clarifier la nature de la requête, puis un grand modèle de langage peut décomposer la requête en plusieurs parties concrètes et les envoyer à des modèles spécialisés
À la fin, on peut réutiliser un grand modèle de langage comme machine à synthétiser pour fusionner le tout. Le problème, c’est qu’il faut pas mal de ressources pour faire tourner plusieurs modèles en parallèle
Peut-être qu’il exécute même tous les experts puis compare les probabilités. À ma connaissance, ce n’est qu’une supposition fondée sur quelques détails ayant fuité sur Xitter
Les modèles actuels d’environ 70B, comme Llama 2 70B, sont à peu près au niveau de ChatGPT 3.5
Les meilleurs modèles plus petits peuvent sembler comparables au premier abord, mais ils hallucinent bien davantage et manquent aussi de connaissances sur le monde. GPT-4 « comprend » à un niveau plus profond, et aucun modèle public n’en est encore proche
Une période d’évaluation d’un an paraît appropriée. Au moins pour les grands modèles de langage et la génération d’images, le reste du monde semble avoir environ 12 à 18 mois de retard sur OpenAI
En revanche, les technologies publiques disposent généralement de davantage de fonctions de contrôle de la sortie qu’OpenAI ne privilégie pas, comme les grammars de llama.cpp ou ControlNet. En ce sens, le camp public tend à devancer OpenAI en matière de possibilités de personnalisation
Par exemple, voici un test au long cours qui évalue les performances des modèles avec des requêtes volontairement ouvertes et assez ambiguës : https://chat.openai.com/share/dfd9b9ae-7214-4dd7-ad20-7ee07a...
Le chat GPT-4 Turbo embrouillait les gens, ne choisissait même pas correctement la cible de l’enlèvement, ne changeait pas de sujet même quand on le lui demandait, choisissait dans le mauvais ensemble lorsqu’il devait se souvenir d’un personnage, et ne changeait pas de langue quand on lui demandait
Si on lui pose des questions en zero-shot, il sait beaucoup de choses, mais dans les situations où il doit prouver sa cohérence interne et son attention, il est très loin de GPT-4
À l’inverse, GPT-4 Vision est très en avance sur les modèles publics
Je considère que DALL·E 3 est un peu meilleur que SDXL, mais en dehors de la génération de texte, la qualité me paraît assez similaire
Bien sûr, je me trompe peut-être moi-même en n’utilisant SDXL que pour ce qu’il fait bien. Quand je lui demandais de créer des dragons, c’était horrible à chaque fois
Je ne répondrai pas à la question du titre elle-même, faute d’en savoir assez, mais comme d’autres modèles publics ont été mentionnés, je veux aussi citer DeepSeek 67B, que j’ai essayé ce soir et trouvé bon
https://chat.deepseek.com
Jusqu’ici, cette interface de chat a suffisamment remplacé mon besoin de ChatGPT
https://huggingface.co/deepseek-ai/deepseek-llm-67b-base
https://twitter.com/abacaj/status/1730019229175312612
Mistral OpenOrca était presque aussi bon que GPT-4 Turbo pour l’écriture créative ou l’analyse
En fait, ses sorties ont tendance à être assez similaires, ce qui est suspect, mais en tout cas il permet d’économiser beaucoup d’argent : https://huggingface.co/Open-Orca/Mistral-7B-OpenOrca
Il est un peu moins stable que GPT-3.5/4, mais pour mes tâches de traitement de texte, l’écart de qualité relève presque du pile ou face
À long terme, il est presque inévitable que les grands modèles de langage publics commencent à rattraper leur retard
L’un des facteurs à prendre en compte est le coût. La communauté publique est soumise à des contraintes de ressources bien plus fortes, ce qui a vraiment accéléré le développement des modèles de moins de 30B
En dehors des modèles d’OpenAI, le seul bon modèle est Claude
Cela me rappelle l’époque où Rackspace et d’autres tentaient de gagner avec OpenStack parce que c’était « ouvert ». Au final, AWS et Azure ont gagné, et même Google n’est que troisième
Les grandes entreprises l’emporteront, et il restera des niches pour les outils publics
D’après mon expérience personnelle, les grands modèles de langage publics n’ont pas encore atteint la qualité de GPT-3.5. C’est ce que je pense malgré les nombreuses affirmations fondées sur des benchmarks douteux
Ils sont toutefois déjà utiles aujourd’hui, et on peut les faire tourner sur une machine locale. Pour les tâches simples, je les utilise régulièrement avec le plugin Neovim gen.nvim, et cela me fait gagner beaucoup de temps : https://github.com/David-Kunz/gen.nvim
J’ai hâte de voir la suite
En local, je fais tourner des modèles Llama avec llama-cpp-python, qui fournit une couche compatible OpenAI
Je pense que les modèles publics sont clairement en train de rattraper leur retard. Surtout parce qu’il y a eu une baisse de performance de GPT-4 constante au cours du dernier mois
https://chat.openai.com/share/c91287ee-9a5e-4c99-b5df-49cc45...