Interview de Mark Zuckerberg — Llama 3, pourquoi open sourcer un modèle à 10 milliards de dollars

xguru · 2024-04-21T13:19:58+09:00

Dans une interview avec Dwarkesh Patel, il a abordé Llama 3, l’open source comme voie vers l’AGI, le silicium sur mesure et les contraintes énergétiques liées au scaling ; voici un bref résumé de l’ensemble de la transcription Llama 3 Meta a lancé Llama 3, un modèle open source, qui doit faire tourner une nouvelle version de Meta AI Meta AI vise à devenir l’assistant IA le plus intelligent et le plus librement accessible Llama 3 est proposé sous forme de modèles denses de tailles 8B, 70B déjà disponibles, et 405B encore en cours d’entraînement Une feuille de route est prévue pour de nouvelles versions multimodales, multilingues et avec une fenêtre de contexte plus large, avec un déploiement du 405B prévu cette année Le 405B est actuellement en entraînement, a atteint 85 au MMLU et devrait prendre la tête sur plusieurs benchmarks Le modèle Llama 3 8B offre des performances presque équivalentes à celles du plus grand modèle Llama 2 Le 70B est également excellent et atteint déjà 82 au MMLU GPU Meta a sécurisé des GPU H100 en 2022, alors que son cours de bourse s’effondrait, afin de construire Reels L’infrastructure limitait la vitesse à laquelle l’entreprise pouvait rattraper TikTok, et Meta a donc commandé deux fois plus pour ne plus jamais se retrouver dans cette situation Meta anticipait qu’ils seraient nécessaires plus tard pour l’entraînement de grands modèles, mais pensait alors surtout à la recommandation de contenu Avec le recul, cela s’est révélé être une excellente décision, rendue possible précisément parce que l’entreprise était en retard Ce n’était pas un cas de « ah, je suis allé trop loin en avance » En réalité, quand Meta prend une bonne décision, c’est souvent parce qu’elle a déjà raté quelque chose auparavant et ne veut pas répéter la même erreur Importance des capacités de codage et de raisonnement vers l’AGI (Artificial General Intelligence) Meta reconnaît que, pour résoudre de vrais cas d’usage, les capacités de codage et de raisonnement sont importantes, même lorsque le modèle ne reçoit pas directement de questions de programmation L’objectif final est de résoudre l’AGI et de permettre au modèle d’exécuter des tâches complexes en plusieurs étapes L’AGI sera atteinte en ajoutant progressivement diverses capacités comme le multimodal, la compréhension des émotions et la mémoire Goulots d’étranglement énergétiques et de scalabilité Les progrès exponentiels de la taille des modèles peuvent se poursuivre, mais finiront par se heurter à des goulots d’étranglement énergétiques et d’infrastructure Aujourd’hui, beaucoup de data centers sont de l’ordre de 50 mégawatts ou 100 MW, et les grands data centers autour de 150 MW Mais on va commencer à construire des data centers de 300 MW, 500 MW ou même 1 GW de capacité, même s’il n’en existe pas encore à cette échelle aujourd’hui À 1 GW, l’entraînement de modèles exigerait à lui seul une capacité proche de celle d’une centrale nucléaire, et la construction de clusters de cette taille prendra des années en raison de procédures d’autorisation strictes Importance de la révolution de l’IA L’IA est aussi fondamentale que la création même de l’informatique, et elle va transformer notre façon de travailler tout en apportant de nouveaux outils créatifs À l’échelle du temps cosmique, les progrès seront rapides, mais il n’y aura pas d’explosion de l’intelligence du jour au lendemain à cause des goulots d’étranglement Il a le sentiment que l’on se dirige vers une séparation entre intelligence, conscience et agentivité, ce qui pourrait en faire un outil extrêmement précieux Open source et équilibre des pouvoirs Une IA puissante concentrée entre les mains d’un petit nombre peut être aussi dangereuse qu’une IA largement disponible Meta soutient clairement l’open source, mais n’a pas rendu public tout ce qu’elle fait L’open source permet à la communauté de renforcer les modèles et de garantir un terrain concurrentiel plus équilibré Mais si, à un certain moment, un changement qualitatif des capacités amenait Meta à juger qu’il n’est plus approprié de faire de l’open source, alors l’entreprise ne le ferait pas ; tout cela reste très difficile à prévoir Meta reste orientée vers l’open source tant que c’est responsable et utile, et peut facturer aux fournisseurs cloud l’usage de ses modèles À court terme, l’accent est mis sur l’atténuation des dommages réels causés par le mauvais usage des modèles, et à long terme sur les risques existentiels Pourquoi open sourcer un modèle à 10 milliards de dollars Ce qui est frustrant dans l’écosystème mobile, c’est qu’il y a deux entreprises gatekeepers : Apple et Google Ces deux entreprises vous disent ce que vous avez le droit de construire Il y a aussi une dimension économique, puisqu’elles prennent de l’argent quand on construit quelque chose, mais c’est surtout l’aspect qualitatif qui énerve davantage Il y a eu de nombreuses fois où Meta avait lancé, ou voulait lancer, une fonctionnalité et où Apple disait : « non, ça ne peut pas être lancé » C’est profondément agaçant, et la question est donc de savoir si l’on veut retrouver ce même monde dans l’IA Un petit nombre d’entreprises opérant des modèles fermés pourrait-il contrôler les API et vous dire ce que vous avez le droit de créer ? On peut donc dire qu’il vaut la peine de construire soi-même son propre modèle pour ne pas se retrouver dans cette position Meta ne veut pas qu’une autre entreprise lui dise ce qu’elle peut construire Du point de vue de l’open source, beaucoup de développeurs ne veulent probablement pas non plus que ce type d’entreprise leur dise ce qu’ils peuvent construire La question devient alors : quel est l’écosystème qui se construit autour de cela ? Qu’y a-t-il de vraiment nouveau et d’intéressant ? Dans quelle mesure cela peut-il améliorer nos produits ? Comme pour les bases de données, les systèmes de cache ou l’architecture, il est souvent possible d’obtenir de la communauté des contributions précieuses qui aident à fabriquer de meilleurs produits Dans ce cas, le travail spécifique aux applications que fait Meta resterait différenciant, sans pour autant devenir l’élément le plus important Meta pourrait continuer à faire ce qu’elle fait Et parce que c’est open source, tous les systèmes, ceux de Meta comme ceux de la communauté, s’amélioreraient Mais un autre scénario est possible Peut-être que le modèle se rapprochera davantage du produit lui-même Dans ce cas, le calcul économique deviendrait plus délicat, qu’on fasse ou non de l’open source, car cela commoditiserait fortement votre position Mais jusqu’à présent, Meta n’a pas l’impression que l’on se trouve encore dans cette situation Monétisation du modèle Peut-on s’attendre à tirer des revenus significatifs en concédant des licences du modèle à des fournisseurs cloud ? À bien des égards, la licence de Llama est une licence open source très permissive Il existe toutefois des restrictions pour les grandes entreprises qui l’utilisent, et c’est pour cette raison que Meta les a mises en place Meta ne cherche pas à empêcher ces entreprises d’utiliser le modèle, mais souhaite qu’elles viennent discuter avec elle si elles veulent essentiellement reprendre ce que Meta a construit pour le revendre et en tirer de l’argent Dans le cas de Microsoft Azure ou d’Amazon, si ces entreprises revendent le modèle, il doit y avoir un partage des revenus En d’autres termes, elles doivent venir en parler à Meta avant de faire cela ; c’est ainsi que le processus fonctionne Ainsi, pour Llama-2, Meta a conclu des accords avec pratiquement tous les grands acteurs du cloud, et Llama-2 est proposé en service hébergé sur tous les clouds Meta pense que cela prendra encore plus d’ampleur à mesure qu’elle publiera des modèles toujours plus grands Ce n’est pas l’activité principale de Meta, mais si ces entreprises vendent ses modèles, il est logique, selon elle, qu’elle partage aussi cet avantage d’une manière ou d’une autre Silicium sur mesure Meta développe un silicium sur mesure pour exécuter efficacement des modèles de grande taille Pas encore pour Llama-4, mais l’entreprise a d’abord construit du silicium sur mesure capable de gérer l’inférence pour les tâches de ranking et de recommandation, notamment pour Reels, le fil d’actualité, les publicités, etc. Le fait d’avoir pu transférer cela vers son propre silicium permet désormais de réserver les GPU NVIDIA, plus coûteux, à l’entraînement Meta espère qu’un jour elle pourra développer elle-même son silicium, l’utiliser d’abord pour des entraînements simples, puis plus tard pour entraîner des modèles vraiment très grands En attendant, le programme avance plutôt bien, est déployé de manière méthodique et s’inscrit dans une feuille de route de long terme

(dwarkeshpatel.com)

30 points par xguru 2024-04-21 | 4 commentaires | Partager sur WhatsApp

Dans une interview avec Dwarkesh Patel, il a abordé Llama 3, l’open source comme voie vers l’AGI, le silicium sur mesure et les contraintes énergétiques liées au scaling ; voici un bref résumé de l’ensemble de la transcription

Llama 3

Meta a lancé Llama 3, un modèle open source, qui doit faire tourner une nouvelle version de Meta AI
Meta AI vise à devenir l’assistant IA le plus intelligent et le plus librement accessible
Llama 3 est proposé sous forme de modèles denses de tailles 8B, 70B déjà disponibles, et 405B encore en cours d’entraînement
Une feuille de route est prévue pour de nouvelles versions multimodales, multilingues et avec une fenêtre de contexte plus large, avec un déploiement du 405B prévu cette année
Le 405B est actuellement en entraînement, a atteint 85 au MMLU et devrait prendre la tête sur plusieurs benchmarks
Le modèle Llama 3 8B offre des performances presque équivalentes à celles du plus grand modèle Llama 2
Le 70B est également excellent et atteint déjà 82 au MMLU

GPU

Meta a sécurisé des GPU H100 en 2022, alors que son cours de bourse s’effondrait, afin de construire Reels
L’infrastructure limitait la vitesse à laquelle l’entreprise pouvait rattraper TikTok, et Meta a donc commandé deux fois plus pour ne plus jamais se retrouver dans cette situation
Meta anticipait qu’ils seraient nécessaires plus tard pour l’entraînement de grands modèles, mais pensait alors surtout à la recommandation de contenu
Avec le recul, cela s’est révélé être une excellente décision, rendue possible précisément parce que l’entreprise était en retard
Ce n’était pas un cas de « ah, je suis allé trop loin en avance »
En réalité, quand Meta prend une bonne décision, c’est souvent parce qu’elle a déjà raté quelque chose auparavant et ne veut pas répéter la même erreur

Importance des capacités de codage et de raisonnement vers l’AGI (Artificial General Intelligence)

Meta reconnaît que, pour résoudre de vrais cas d’usage, les capacités de codage et de raisonnement sont importantes, même lorsque le modèle ne reçoit pas directement de questions de programmation
L’objectif final est de résoudre l’AGI et de permettre au modèle d’exécuter des tâches complexes en plusieurs étapes
L’AGI sera atteinte en ajoutant progressivement diverses capacités comme le multimodal, la compréhension des émotions et la mémoire

Goulots d’étranglement énergétiques et de scalabilité

Les progrès exponentiels de la taille des modèles peuvent se poursuivre, mais finiront par se heurter à des goulots d’étranglement énergétiques et d’infrastructure
Aujourd’hui, beaucoup de data centers sont de l’ordre de 50 mégawatts ou 100 MW, et les grands data centers autour de 150 MW
Mais on va commencer à construire des data centers de 300 MW, 500 MW ou même 1 GW de capacité, même s’il n’en existe pas encore à cette échelle aujourd’hui
À 1 GW, l’entraînement de modèles exigerait à lui seul une capacité proche de celle d’une centrale nucléaire, et la construction de clusters de cette taille prendra des années en raison de procédures d’autorisation strictes

Importance de la révolution de l’IA

L’IA est aussi fondamentale que la création même de l’informatique, et elle va transformer notre façon de travailler tout en apportant de nouveaux outils créatifs
À l’échelle du temps cosmique, les progrès seront rapides, mais il n’y aura pas d’explosion de l’intelligence du jour au lendemain à cause des goulots d’étranglement
Il a le sentiment que l’on se dirige vers une séparation entre intelligence, conscience et agentivité, ce qui pourrait en faire un outil extrêmement précieux

Open source et équilibre des pouvoirs

Une IA puissante concentrée entre les mains d’un petit nombre peut être aussi dangereuse qu’une IA largement disponible
Meta soutient clairement l’open source, mais n’a pas rendu public tout ce qu’elle fait
L’open source permet à la communauté de renforcer les modèles et de garantir un terrain concurrentiel plus équilibré
Mais si, à un certain moment, un changement qualitatif des capacités amenait Meta à juger qu’il n’est plus approprié de faire de l’open source, alors l’entreprise ne le ferait pas ; tout cela reste très difficile à prévoir
Meta reste orientée vers l’open source tant que c’est responsable et utile, et peut facturer aux fournisseurs cloud l’usage de ses modèles
À court terme, l’accent est mis sur l’atténuation des dommages réels causés par le mauvais usage des modèles, et à long terme sur les risques existentiels

Pourquoi open sourcer un modèle à 10 milliards de dollars

Ce qui est frustrant dans l’écosystème mobile, c’est qu’il y a deux entreprises gatekeepers : Apple et Google
Ces deux entreprises vous disent ce que vous avez le droit de construire
Il y a aussi une dimension économique, puisqu’elles prennent de l’argent quand on construit quelque chose, mais c’est surtout l’aspect qualitatif qui énerve davantage
Il y a eu de nombreuses fois où Meta avait lancé, ou voulait lancer, une fonctionnalité et où Apple disait : « non, ça ne peut pas être lancé »
C’est profondément agaçant, et la question est donc de savoir si l’on veut retrouver ce même monde dans l’IA
Un petit nombre d’entreprises opérant des modèles fermés pourrait-il contrôler les API et vous dire ce que vous avez le droit de créer ?
On peut donc dire qu’il vaut la peine de construire soi-même son propre modèle pour ne pas se retrouver dans cette position
Meta ne veut pas qu’une autre entreprise lui dise ce qu’elle peut construire
Du point de vue de l’open source, beaucoup de développeurs ne veulent probablement pas non plus que ce type d’entreprise leur dise ce qu’ils peuvent construire
La question devient alors : quel est l’écosystème qui se construit autour de cela ?
- Qu’y a-t-il de vraiment nouveau et d’intéressant ?
- Dans quelle mesure cela peut-il améliorer nos produits ?
Comme pour les bases de données, les systèmes de cache ou l’architecture, il est souvent possible d’obtenir de la communauté des contributions précieuses qui aident à fabriquer de meilleurs produits
Dans ce cas, le travail spécifique aux applications que fait Meta resterait différenciant, sans pour autant devenir l’élément le plus important
Meta pourrait continuer à faire ce qu’elle fait
Et parce que c’est open source, tous les systèmes, ceux de Meta comme ceux de la communauté, s’amélioreraient
Mais un autre scénario est possible
Peut-être que le modèle se rapprochera davantage du produit lui-même
Dans ce cas, le calcul économique deviendrait plus délicat, qu’on fasse ou non de l’open source, car cela commoditiserait fortement votre position
Mais jusqu’à présent, Meta n’a pas l’impression que l’on se trouve encore dans cette situation

Monétisation du modèle

Peut-on s’attendre à tirer des revenus significatifs en concédant des licences du modèle à des fournisseurs cloud ?
À bien des égards, la licence de Llama est une licence open source très permissive
Il existe toutefois des restrictions pour les grandes entreprises qui l’utilisent, et c’est pour cette raison que Meta les a mises en place
Meta ne cherche pas à empêcher ces entreprises d’utiliser le modèle, mais souhaite qu’elles viennent discuter avec elle si elles veulent essentiellement reprendre ce que Meta a construit pour le revendre et en tirer de l’argent
Dans le cas de Microsoft Azure ou d’Amazon, si ces entreprises revendent le modèle, il doit y avoir un partage des revenus
En d’autres termes, elles doivent venir en parler à Meta avant de faire cela ; c’est ainsi que le processus fonctionne
Ainsi, pour Llama-2, Meta a conclu des accords avec pratiquement tous les grands acteurs du cloud, et Llama-2 est proposé en service hébergé sur tous les clouds
Meta pense que cela prendra encore plus d’ampleur à mesure qu’elle publiera des modèles toujours plus grands
Ce n’est pas l’activité principale de Meta, mais si ces entreprises vendent ses modèles, il est logique, selon elle, qu’elle partage aussi cet avantage d’une manière ou d’une autre

Silicium sur mesure

Meta développe un silicium sur mesure pour exécuter efficacement des modèles de grande taille
Pas encore pour Llama-4, mais l’entreprise a d’abord construit du silicium sur mesure capable de gérer l’inférence pour les tâches de ranking et de recommandation, notamment pour Reels, le fil d’actualité, les publicités, etc.
Le fait d’avoir pu transférer cela vers son propre silicium permet désormais de réserver les GPU NVIDIA, plus coûteux, à l’entraînement
Meta espère qu’un jour elle pourra développer elle-même son silicium, l’utiliser d’abord pour des entraînements simples, puis plus tard pour entraîner des modèles vraiment très grands
En attendant, le programme avance plutôt bien, est déployé de manière méthodique et s’inscrit dans une feuille de route de long terme

4 commentaires

laeyoung 2024-04-22

« Si c’est 1 GW, il faut une centrale nucléaire rien que pour l’entraînement du modèle. »

Désormais, pour entraîner un foundation model, il faut donc développer le nucléaire (?)

tsboard 2024-04-22

On dirait qu’il a beaucoup de choses en tête. Son hostilité marquée envers Google et Apple, qui contrôlent les plateformes, se comprend.

daejin 2024-04-22

Le passage sur « pourquoi avoir open sourcé un modèle à 10 milliards de dollars » est un texte résumé, mais il y a quand même quelque chose d’assez éclairant dedans.

realg 2024-04-21

Merci pour cet excellent contenu.