1er anniversaire de la sortie de ChatGPT : la poursuite des grands modèles de langage open source
- Lancé fin 2022, ChatGPT a entraîné de profonds changements dans l’ensemble du domaine de l’IA.
- En ajustant les grands modèles de langage (LLM) via l’apprentissage supervisé et l’apprentissage par renforcement à partir de retours humains, il a démontré sa capacité à répondre aux questions humaines et à suivre des instructions sur une grande variété de tâches.
- À la suite de ce succès, l’intérêt pour les LLM a augmenté dans le monde académique comme dans l’industrie, de nombreuses startups se concentrent sur les LLM, et les LLM open source progressent rapidement, certains affirmant qu’ils atteignent, voire dépassent, les performances de ChatGPT sur certaines tâches.
Impact sur la recherche et les activités économiques
- Bien que les LLM closed source (par exemple GPT d’OpenAI ou Claude d’Anthropic) affichent généralement de meilleures performances que les modèles open source, les LLM open source progressent rapidement, et certains affirment avoir atteint des performances équivalentes, voire supérieures, sur certaines tâches.
- Ces avancées ont des implications importantes non seulement pour la recherche, mais aussi pour les activités économiques.
L’avis de GN⁺
- À l’occasion du 1er anniversaire de la sortie de ChatGPT, il est important de noter que les grands modèles de langage open source progressent rapidement et affichent, sur certaines tâches, des performances comparables, voire supérieures, à celles de ChatGPT.
- Cela a des conséquences majeures à la fois pour la recherche et pour les entreprises, et peut contribuer à promouvoir la démocratisation des technologies d’IA et l’innovation.
- Cet article propose un contenu intéressant pour celles et ceux qui s’intéressent aux avancées de l’IA et à leur impact sur la société.
1 commentaires
Avis sur Hacker News
Grands modèles puissants rendus publics ces derniers jours :
Démonstration des capacités d’un llama2 de 1,3 milliard de paramètres affiné avec qlora :
Il semble devenir nécessaire de placer un routeur de prompts devant plusieurs modèles spécialisés (code, chat, maths, SQL, santé, etc.) :
Actuellement, les modèles d’environ 70B sont au niveau de ChatGPT 3.5, et les petits modèles peuvent sembler comparables au début, mais hallucinent davantage et manquent de connaissances sur le monde
GPT 4 "comprend" à un niveau plus profond, et les modèles open source ne sont pas encore comparables
La technologie open source dispose de fonctions de contrôle de sortie qu’OpenAI n’implémente pas (par ex. la grammaire de llama.cpp ou ControlNet) ; sur cet aspect, l’open source est en avance sur OpenAI
Retour d’expérience après avoir utilisé le modèle DeepSeek 67B :
Mistral OpenOrca est presque au niveau de GPT4-turbo pour l’écriture créative et l’analyse, avec une tendance à produire des textes similaires
À long terme, il est presque inévitable que les LLM open source rattrapent leur retard, et la communauté open source, malgré des ressources bien plus limitées, accélère fortement le développement des modèles de moins de 30B paramètres
D’après une expérience personnelle, les LLM open source n’ont pas encore atteint la qualité de GPT 3.5, mais ils sont déjà utiles aujourd’hui et peuvent tourner sur une machine locale
Utilisation du plugin Neovim gen.nvim pour effectuer des tâches simples, avec un gain de temps considérable
Expression d’enthousiasme pour l’avenir
Conviction que les modèles open source rattrapent leur retard, alors que GPT4 a continuellement régressé au cours du dernier mois