- GPT-2, GPT-3, Llama, Mixtral, DeepSeek, Minimax, Hunyuan, etc. : récapitulatif des informations objectives et de l’évolution concernant la taille en paramètres et l’architecture des principaux grands modèles de langage
- GPT-2 (2019) allait de 130 millions à 1,6 milliard de paramètres, GPT-3 (2020) comptait 175 milliards (175B) de paramètres, et Llama-3.1 (2024) 405 milliards (405B), montrant une croissance rapide de la taille des grands modèles
- Avec l’apparition de l’architecture MoE (Mixture-of-Experts), des modèles de niveau GPT-3 et au-delà sont devenus open source / téléchargeables ; parmi les exemples représentatifs figurent DeepSeek V3 Base (671B), ERNIE-4.5 (424B), Mixtral-8x22B (141B) et d’autres très grands modèles
- La comparaison entre les modèles Dense (tous les paramètres sont utilisés) et MoE (seuls certains paramètres experts sont activés) est devenue plus complexe, et il est difficile de comparer facilement leur « intelligence » réelle
- Dernièrement, diverses tendances de progrès sont apparues, comme le support multimodal et multilingue, de nouvelles architectures et l’usage de données synthétiques
- Ce document rassemble des informations factuelles sur l’évolution de la taille des modèles de base (base models) des grands modèles de langage (LLM) au cours des dernières années
- Il se concentre non pas sur les chatbots ou assistants, mais sur les modèles en tant que moteurs natifs de génération de texte
Histoire
- GPT-2(-medium, -large, -xl) (2019) : respectivement 137M, 380M, 812M et 1,61B de paramètres
- entraîné sur un jeu de données WebText d’environ 40GB (estimé à 1 milliard de tokens)
- la liste des sites utilisés peut être consultée dans
domains.txt
- GPT-3(davinci, davinci-002) (2020) : 175 milliards de paramètres
- entraîné sur environ 400 milliards de tokens provenant de CommonCrawl, WebText2, Books1·2, Wikipedia, etc.
- plusieurs mois d’entraînement ont été nécessaires sur des milliers de GPU A100
- GPT-3.5, GPT-4 (2022, 2023) : les informations officielles sur l’architecture et les données n’ont pas été publiées
Llama
- Llama est une série de grands modèles de langage développée par Meta (ex-Facebook), qui a attiré l’attention grâce à son ouverture en open source et à une architecture exploitable avec relativement peu de ressources
- L’évolution de la taille des modèles (nombre de paramètres), des données d’entraînement et de l’architecture a porté la tendance open source des LLM (grands modèles de langage)
-
Llama 1 (2023)
- 7B, 13B, 33B, 65B : modèles de 7, 13, 33 et 65 milliards de paramètres
- Données d’entraînement : 1,4 trillion (1.4T) de tokens de textes à grande échelle (Books3, CommonCrawl, etc.)
- Llama 65B était alors le plus grand modèle ouvert de son époque
- Books3 est un vaste ensemble de données qui a joué un rôle important dans les débats juridiques sur le droit d’auteur
- Caractéristiques
- exécutable avec des GPU relativement modestes (même 65B fonctionne sur 8 GPU)
- distribution en poids ouverts, favorisant la prolifération de nombreux modèles dérivés et d’expérimentations communautaires
-
Llama 2 (second semestre 2023)
- au moment de sa publication, modèles de 7, 13 et 70 milliards de paramètres (7B, 13B, 70B)
- une version conversationnelle (chatbot) a aussi été publiée, avec support du fine-tuning et du RLHF (apprentissage par renforcement à partir de feedback humain)
- licence autorisant la communauté et les usages commerciaux (avec certaines restrictions)
-
Llama 3.1 (2024)
- 405B : 405 milliards de paramètres dense (tous les paramètres sont utilisés)
- Données d’entraînement : 2,87 trillions de tokens + 800 milliards pour le long contexte + 40 millions d’annealing (ajout de code/mathématiques de haute qualité, etc.) → total de 3,67 trillions de tokens
- Architecture
- basée sur Transformer, utilisant tous les paramètres simultanément lors de l’inférence (dense)
- ajout de données de code et de mathématiques de haute qualité pour maximiser les scores sur les principaux benchmarks (annealing)
- Caractéristiques
- modèle dense de grande taille récent téléchargeable parmi les modèles open source
- Meta ne publie pas ouvertement la composition du dataset, et certains jeux de données controversés sur le plan du droit d’auteur (comme Books3) pourraient être inclus
- dans certaines évaluations, la dimension « assistant » a été renforcée, créant un léger écart avec son rôle de pur moteur de texte
-
Llama 4 (2025)
- Le plus grand modèle : 2 trillions (2T) de paramètres en MoE (Mixture-of-Experts)
- A288B 16E : 288 milliards de paramètres actifs, 16 experts, avec seule une partie des 2 trillions de paramètres totaux activée
- Situation
- le modèle 2T n’a pas été publié (usage expérimental interne), seules des versions dérivées / réduites ont été rendues publiques (
maverick, scout, etc.)
- les modèles dérivés sont souvent jugés moins « intelligents » que l’original
- lors de la publication, la confiance a baissé à cause d’une controverse sur la manipulation des scores de benchmark (affaire lmarena) et de rumeurs de dissolution de l’équipe
- Caractéristiques de l’architecture MoE
- seuls certains paramètres experts sont activés, ce qui offre une meilleure efficacité de calcul qu’un modèle dense à nombre de paramètres équivalent
- permet l’usage réel de très grands modèles (dans des environnements distribués ou avec peu de ressources)
-
Importance et impact de Llama
- La série Llama a favorisé l’expansion de l’écosystème open source et la démocratisation des grands modèles de langage
- Avec la publication de Llama-3.1 405B, le téléchargement et l’expérimentation de grands modèles de niveau GPT-3/4 sont devenus réalistes
- L’introduction de l’architecture MoE a stimulé l’entraînement et la diffusion de modèles ultra-larges (avec une influence sur DeepSeek, Mixtral, etc.)
- Toutefois, les modèles récents soulèvent des débats sur l’évolution de leurs caractéristiques en tant que « purs modèles de langage », en raison notamment de l’optimisation sur benchmark (annealing) et du renforcement de la dimension assistant
The desert – la période de vide et les changements dans les grands modèles open source
- Ce terme désigne la longue période de vide durant laquelle il était impossible de trouver en open source des grands modèles de langage au niveau de GPT-3 (175 milliards de paramètres) ou au-delà
- Pendant cette période (2020 à mi-2023), seuls des modèles relativement petits comme les Llama de 70B ou moins étaient publiés,
- certains projets ont tenté d’améliorer leurs performances en fine-tunant de petits Llama (par ex. 70B) avec des données synthétiques générées par GPT-3
- cependant, lorsque du texte produit par l’IA est réutilisé pour entraîner une IA, des problèmes de dégradation de la qualité des données (« data degeneration ») peuvent survenir
- Parmi les raisons de l’absence prolongée de modèles à poids ouverts de niveau GPT-3,
- on trouve la combinaison du coût d’entraînement (infrastructures de plusieurs milliers à dizaines de milliers de GPU), de l’accès aux données et de la difficulté à distribuer des architectures à très grand nombre de paramètres
- La publication du modèle Llama-3.1 405B (405 milliards de paramètres dense) a véritablement lancé l’open source des modèles ultra-larges
- juste avant cela (décembre 2023), Mixtral-8x7B de Mistral (architecture MoE, 56 milliards de paramètres au total), puis en avril 2024 Mixtral-8x22B (141 milliards au total, 39 milliards de paramètres actifs), etc.
- ont permis d’entraîner et de distribuer des grands modèles de niveau GPT-3 avec relativement peu de ressources grâce à l’architecture MoE (Mixture-of-Experts)
- L’architecture MoE repose sur plusieurs réseaux d’experts (Experts), dont seule une partie est activée à chaque inférence
- cela permet d’exploiter de grands modèles avec moins de ressources (mémoire et calcul) qu’une architecture dense
- les limites de mémoire et du nombre de GPU ont fait du MoE un facteur décisif dans la démocratisation des grands modèles ouverts
Derniers grands modèles MoE (Mixture-of-Experts)
Deepseek V3 Base (2024)
- 671 milliards de paramètres (MoE), 37 milliards actifs, entraîné sur 14,8 trillions de tokens de haute qualité
- R1 (modèle spécialisé en raisonnement) est aussi apparu, devenant le premier modèle téléchargeable à approcher des performances de niveau GPT-4
- juste après sa publication, il a eu un fort impact sur le marché, avec notamment une baisse temporaire du cours de NVIDIA (NVDA)
- depuis, d’autres grands modèles MoE émergents, y compris chinois, sont apparus les uns après les autres
- certains introduisent en entraînement de nouveaux types de données variés pour prendre en charge le multimodal et le multilingue
Databricks (DBRX, mars 2024)
- 132 milliards de paramètres au total, 36 milliards actifs, 12 trillions de tokens
- sélection de 4 experts parmi 16 (plus granulaire que Mistral et Grok)
Minimax (janvier 2025)
- 456 milliards de paramètres au total, 45,9 milliards actifs, contrôle de la qualité des données d’entraînement via un reward labeler maison
Dots (juin 2025)
- 143 milliards de paramètres au total, 14 milliards actifs, 11,2 trillions de tokens, contexte 32K
- architecture top-6/128 experts, performances similaires à Qwen2.5-72B
Hunyuan (juin 2025)
- 80 milliards en MoE, 13 milliards actifs, 20 trillions de tokens, contexte 256K
- 8 experts non partagés actifs, expert partagé toujours actif
Ernie (juin 2025)
- 424 milliards de paramètres au total, 47 milliards actifs, plusieurs trillions de tokens
Conclusion et perspectives
- En 2024~2025, divers modèles ultra-larges de niveau GPT-3 (175 milliards) ou supérieur sont publiés
- 405B (405 milliards) est le modèle de base dense le plus récent, mais les derniers modèles MoE continuent eux aussi de grandir et de se diversifier
- La comparaison de performances Dense vs MoE reste floue, et il faut encore débattre des architectures et des tailles nécessaires à une véritable « intelligence »
- De nouvelles architectures (RWKV, byte-latent, bitnet) et l’usage de données synthétiques sont également à l’étude, mais le progrès fondamental en tant que pur moteur de texte reste un défi
- La plupart des grands modèles récents ont tendance à être fine-tunés pour jouer le rôle d’« assistant IA » ; le moment est venu d’explorer des LLM alternatifs
1 commentaires
Avis Hacker News
Je continue d’être émerveillé, pas tant d’un point de vue purement technique, que par la quantité de données compressées dans ces modèles téléchargeables. Hier, dans un avion sans Wi‑Fi, j’ai téléchargé via Ollama le modèle gemma3:12b (8,1 Go) et j’ai posé toutes sortes de questions avec mes enfants. Ce n’était pas parfait sur des sujets variés comme les jeux vidéo récents, les animaux ou l’histoire, mais j’ai trouvé vraiment impressionnant qu’autant de savoir humain tienne dans un fichier aussi petit et reste utilisable hors ligne. C’est une compression avec perte, bien sûr, mais le fait qu’on puisse compresser le savoir humain à ce point reste stupéfiant
Je trouve vraiment fascinant à quel point les modèles de langage peuvent devenir de puissants outils de compression. Lorsqu’on entraîne un modèle pour un usage assistant, il compresse mieux les historiques de conversation d’assistant que du texte ordinaire. Il existe une évaluation appelée UncheatableEval qui permet de mesurer les capacités de compression des modèles de langage sur diverses tâches. Ce critère est en pratique un test qu’on ne peut pas vraiment « tricher ». J’estime que les performances de compression constituent un véritable benchmark, contrairement à des domaines comme les jeux où l’on peut exploiter des astuces
Je recommande le projet Kiwix, qui permet de télécharger et d’utiliser hors ligne diverses ressources. Ils proposent aussi des appareils préchargés pour les endroits où l’accès à Internet est instable ou inexistant
À titre indicatif, pour la Wikipedia anglophone (au 26 juin 2025), il y a plus de 7 millions d’articles et 63 millions de pages. Le texte seul représente environ 156 Go, et la base complète atteint environ 26 To si l’on inclut toutes les versions
8,1 Go, c’est vraiment énorme. Cela représente 64,8 milliards (64,800,000,000) de bits. On peut peut-être se représenter 100 bits ou 1 000 bits, mais 10 000, 1 million, 64 millions, puis ce nombre multiplié par 1 000, ça donne vraiment la mesure de l’immensité de cette quantité
Le domaine qui étudie les modèles de langage sous l’angle de la théorie de l’information ou de la compression reste encore modeste, mais il devient de plus en plus important pour l’efficacité et le passage à l’échelle. J’ai animé aujourd’hui une discussion sur le sujet, donc n’hésitez pas à aller voir si cela vous intéresse
Deepseek v1 compte environ 670 milliards de paramètres, pour une taille physique d’environ 1,4 To. J’estime que si l’on compressait tous les livres numérisés existants, on obtiendrait quelques To, que le web public représenterait environ 50 To, et que l’ensemble des textes électroniques en anglais, zippés, se situerait autour de O(100 To). La taille actuelle des modèles ne représente qu’environ 1 % du total, et on semble être entré dans une phase où les agrandir n’apporte plus les gains de performance espérés (voir gpt4.5 vs 4o). C’est pourquoi, récemment, avec les modèles de reasoning, le coût de calcul se déplace davantage vers le temps d’inference. Pour obtenir un gain supplémentaire, je m’attends à ce que l’évolution passe désormais par des modèles spécialisés focalisés sur des domaines précis. Je pense qu’un objectif à moyen terme pourrait être 1 To de VRAM d’inférence pour des modèles open source de haute qualité. C’est une spécification qui pourrait devenir accessible même pour une PME, probablement autour de 250B de paramètres
Si l’on ajoute les images et la vidéo, ces estimations peuvent finir par ressembler à l’ancienne idée selon laquelle 640 Ko devraient suffire à tout le monde. Ensuite, si des robots explorent eux‑mêmes le monde pour collecter des données, davantage d’information s’accumulera. Plus sérieusement, l’ajout d’images et de données d’interaction aurait une utilité significative même pour la génération de texte
J’ai fait un calcul rapide avec des chiffres réels. En prenant 157 millions d’articles scientifiques et 52 millions de livres, avec une moyenne de 10 000 mots par article et 100 000 mots par livre, puis en estimant le taux de compression à partir d’un échantillon de livres, on obtient environ 30 To non compressés, et 5,5 To compressés. Cela tient sur trois cartes microSD de 2 To (750 dollars au total)
Petite remarque : je ne pense pas qu’il soit approprié d’utiliser la notation big O (O(100 To)) pour une capacité de stockage fixe
Je me demande si les 50 To se réfèrent à la Library of Congress. L’ensemble d’Internet est probablement bien plus volumineux
Je me demande d’où viennent les chiffres « tous les livres numérisés se compressent en quelques To, le web public fait 50 To ». Si tu as une source, j’aimerais bien la voir. J’ai déjà lu quelque part que tous les écrits de l’humanité jusqu’à un certain siècle tenaient dans environ 50 Mo, mais je ne retrouve plus la source, donc il est possible que je me trompe
La série Gemma et Gemini (Google) manque à l’appel. Et c’est aussi dommage que la série T5 ne soit pas mentionnée, alors qu’elle a joué un rôle important dans le transfer learning et dans la diffusion du domaine. T5 a été à l’origine de nombreux concepts
Pour une vue plus visuelle, il existe un graphique qui récapitule le total de paramètres par année : Total Parameters vs. Release Year by Family
Ce graphique montre très clairement à quel point GPT-3 a représenté un bond en avant majeur, et comment personne n’a réussi à rattraper ce niveau pendant longtemps
C’est vraiment un superbe travail. Merci de l’avoir fait. J’ai laissé dans les commentaires de mon post une capture du graphique, le lien et le crédit
Très bon article. Mais il part un peu du principe que seuls ces modèles de langage géants constituent la meilleure innovation. Les grands acteurs sont restés plutôt discrets ces derniers temps, et de l’extérieur, OpenAI a laissé entrevoir quelques indices par son comportement. Ils ont construit des modèles bien plus grands, mais les résultats se sont révélés décevants, et ils ont discrètement arrêté les expériences. En réalité, il se peut que les modèles de reasoning les plus puissants à la pointe soient parfois plus petits que les grands modèles publiquement connus
La situation est ironique. La communauté open source a essayé toutes sortes d’approches — modèles 30 à 70B, RLHF, données synthétiques — pour rattraper GPT-3 (175B), mais l’écart persistait. Au final, il est apparu que la taille intrinsèque du modèle compte vraiment, et il a fallu l’arrivée de véritables monstres dense (405B) ou de modèles MoE (DeepSeek V3, DBRX, etc.) pour voir émerger, en dehors des labos fermés, un niveau de reasoning comparable à GPT-4
Je ne suis pas d’accord avec la note disant que « pour approcher le niveau de GPT-3, les modèles open source ont majoritairement entraîné des Llama de l’ordre de 70B sur des données synthétiques générées par GPT-3 ». Si les données synthétiques entraînaient toujours une dégradation des performances, les labos d’IA ne les utiliseraient jamais. En pratique, ils s’en servent pour construire de meilleurs modèles. Il existe bien des papiers montrant une dégradation quand on fait très délibérément tourner une boucle d’entraînement sur ses propres sorties, mais cela ne correspond pas à la manière dont les labos d’IA utilisent réellement les données synthétiques. Si ce papier a autant circulé, c’est surtout parce que l’idée d’une « IA qui se dévore elle‑même jusqu’à sa perte » est un concept très séduisant
Je trouve dommage que les gens répètent sans cesse que les LLM sont une compression avec perte. C’est une analogie approximativement correcte, mais le point plus rigoureux et plus intéressant est qu’un LLM peut aussi fonctionner comme un algorithme de compression sans perte. Il y a deux exemples. 1) On peut utiliser un codage arithmétique sur n’importe quel texte avec un coût proche de la log-vraisemblance du LLM (à condition que l’émetteur et le récepteur disposent des mêmes paramètres du LLM) 2) On peut mettre en œuvre une compression sans perte avec un LLM et SGD (le code d’entraînement), en ne comptant pas les paramètres du modèle dans la longueur de description. La ressource de Jack Rae, “compression for AGI”, vaut le détour
Avec des chiffres comme « 1.61B », j’ai du mal à me représenter la taille réelle des fichiers ou la quantité de VRAM nécessaire. J’aimerais savoir quel espace de stockage cela représente en pratique, quels sont les besoins matériels, ce que je peux faire tourner si j’achète du matériel maintenant, et quels modèles je pourrai probablement faire tourner dans 10 ans
À raison d’1 octet par paramètre (f8), cela fait 1,6 Go ; à 2 octets (f16), 2,3 Go. Il faut aussi prévoir de la mémoire supplémentaire au-delà du simple chargement sur le GPU, donc mieux vaut compter environ 4 fois le nombre de paramètres. Autrement dit, pour 2B de paramètres, 8 Go de VRAM sont recommandés
La plupart des modèles sont entraînés en 16 bits (2 octets). Un modèle d’un milliard de paramètres représente donc 2 Go. En usage réel, une quantification 8 bits plus petite suffit souvent, et passer de 16 bits à 8 bits entraîne généralement très peu de perte de performance. On peut donc estimer simplement qu’un modèle de 1B fait 1 Go et qu’un modèle de 20B fait 20 Go. Des quantifications encore plus basses (5 bits, 4 bits, etc.) peuvent aussi rester tout à fait exploitables selon l’usage si la baisse de qualité reste faible. On a même vu des cas où des modèles entraînés directement en 4 bits donnaient de meilleurs résultats que des modèles quantifiés depuis 16 bits. Le goulot d’étranglement des gros modèles n’est pas la capacité de VRAM, mais la bande passante. Donc les GPU avec beaucoup de VRAM sont importants. Même avec 128 Go de RAM système, si l’on dépasse la mémoire GPU, la bande passante GPU-CPU insuffisante rendra souvent le CPU plus lent. Un GPU comme la RTX 5090 offre 32 Go de VRAM et environ 1 Tb/s de bande passante. Les Apple M series montent à 512 Gb/s, et AMD Strix Halo propose 128 Go de mémoire unifiée avec 256 Gb/s de bande passante. Pour des retours d’expérience concrets sur l’exécution de LLM sur du matériel grand public, on peut consulter Reddit r/LocalLLaMA. Attention toutefois, on y trouve aussi des expériences assez extrêmes. Quant à la situation dans 10 ans, elle est imprévisible. TSMC, Samsung et Intel sont tous focalisés sur la production de GPU haut de gamme pour répondre à la demande des hyperscalers, et l’industrie des semi-conducteurs traverse une période difficile à anticiper en raison de nombreux facteurs — politique, commerce, IA, événements imprévus, etc.