Llama 3.3 70B permet désormais d’exécuter un modèle de niveau GPT-4 sur un ordinateur portable

xguru · 2024-12-11T10:02:02+09:00

Il est désormais possible d’exécuter le modèle Llama 3.3 70B de Meta, aux performances de niveau GPT-4, sur un ordinateur portable classique (MacBook Pro M2 avec 64 Go) Une avancée majeure réalisée environ 20 mois après la sortie de LLaMA en mars 2023 Le modèle est téléchargé localement et exécuté via Ollama avec 42 Go de données (également possible avec MLX d’Apple) 64 Go de RAM sont nécessaires et, comme l’utilisation mémoire est élevée à l’exécution, il est recommandé de fermer les autres applications gourmandes en ressources Performances et benchmarks Dans le benchmark LiveBench, le modèle se classe 19e, affiche de meilleures performances que Claude 3 Opus et se situe à un niveau comparable à GPT-4 Turbo Il obtient notamment les meilleurs résultats sur l’évaluation de compréhension des consignes (Instruction Following) Il peut accomplir diverses tâches comme la génération de texte, l’écriture de code et la génération d’images SVG Il devient possible d’exécuter des modèles de plus en plus puissants même sur des appareils personnels Autres modèles LLM notables pouvant tourner en local Qwen2.5-Coder-32B Modèle développé par l’équipe de recherche Qwen d’Alibaba et publié sous licence Apache 2.0 Il offre d’excellentes performances pour les tâches de génération de code et peut être utilisé librement Un outil d’autant plus pertinent pour les développeurs grâce à sa licence open source QwQ Met en œuvre un schéma de chain-of-thought similaire à la série o1 d’OpenAI Capable de résoudre des problèmes complexes étape par étape Il est impressionnant de voir qu’il fonctionne aussi de manière fluide en environnement local Llama 3.2 de Meta Les modèles de taille 1B et 3B peuvent fonctionner même sur de petits ordinateurs comme un Raspberry Pi Ils offrent d’excellentes performances au regard de leur taille, et la gamme inclut aussi des modèles multimodaux de vision en 11B et 90B capables de traiter des images Il existe donc un large éventail de choix, des petits modèles aux très grands modèles Ces modèles montrent que la technologie des LLM peut désormais sortir du matériel de classe serveur pour fonctionner aussi sur des ordinateurs personnels ordinaires Les progrès des modèles open source élargissent en particulier un environnement où les développeurs peuvent expérimenter et créer des applications librement Perspectives Des avancées majeures sont attendues en matière de multimodalité et d’efficacité des modèles L’évolution devrait continuer à privilégier l’exécution de tâches pratiques et efficaces plutôt qu’un objectif d’AGI Les modèles actuels à eux seuls devraient déjà permettre un travail productif au cours des prochaines années

(simonwillison.net)

22 points par xguru 2024-12-11 | 13 commentaires | Partager sur WhatsApp

Il est désormais possible d’exécuter le modèle Llama 3.3 70B de Meta, aux performances de niveau GPT-4, sur un ordinateur portable classique (MacBook Pro M2 avec 64 Go)
Une avancée majeure réalisée environ 20 mois après la sortie de LLaMA en mars 2023
Le modèle est téléchargé localement et exécuté via Ollama avec 42 Go de données (également possible avec MLX d’Apple)
- 64 Go de RAM sont nécessaires et, comme l’utilisation mémoire est élevée à l’exécution, il est recommandé de fermer les autres applications gourmandes en ressources
Performances et benchmarks
- Dans le benchmark LiveBench, le modèle se classe 19e, affiche de meilleures performances que Claude 3 Opus et se situe à un niveau comparable à GPT-4 Turbo
- Il obtient notamment les meilleurs résultats sur l’évaluation de compréhension des consignes (Instruction Following)
- Il peut accomplir diverses tâches comme la génération de texte, l’écriture de code et la génération d’images SVG
Il devient possible d’exécuter des modèles de plus en plus puissants même sur des appareils personnels
Autres modèles LLM notables pouvant tourner en local
- Qwen2.5-Coder-32B
  - Modèle développé par l’équipe de recherche Qwen d’Alibaba et publié sous licence Apache 2.0
  - Il offre d’excellentes performances pour les tâches de génération de code et peut être utilisé librement
  - Un outil d’autant plus pertinent pour les développeurs grâce à sa licence open source
- QwQ
  - Met en œuvre un schéma de chain-of-thought similaire à la série o1 d’OpenAI
  - Capable de résoudre des problèmes complexes étape par étape
  - Il est impressionnant de voir qu’il fonctionne aussi de manière fluide en environnement local
- Llama 3.2 de Meta
  - Les modèles de taille 1B et 3B peuvent fonctionner même sur de petits ordinateurs comme un Raspberry Pi
  - Ils offrent d’excellentes performances au regard de leur taille, et la gamme inclut aussi des modèles multimodaux de vision en 11B et 90B capables de traiter des images
  - Il existe donc un large éventail de choix, des petits modèles aux très grands modèles
- Ces modèles montrent que la technologie des LLM peut désormais sortir du matériel de classe serveur pour fonctionner aussi sur des ordinateurs personnels ordinaires
- Les progrès des modèles open source élargissent en particulier un environnement où les développeurs peuvent expérimenter et créer des applications librement
Perspectives
- Des avancées majeures sont attendues en matière de multimodalité et d’efficacité des modèles
- L’évolution devrait continuer à privilégier l’exécution de tâches pratiques et efficaces plutôt qu’un objectif d’AGI
- Les modèles actuels à eux seuls devraient déjà permettre un travail productif au cours des prochaines années

13 commentaires

javaguardian 2024-12-16

Ça devrait quand même tourner sur un M1 Max avec 64 Go, non ?

ndrgrd 2024-12-13

À moins de n’avoir aucun intérêt pour l’informatique, je pensais qu’en gros, 64 Go était la base pour les gens du milieu..

plenty 2024-12-13

À moins de manipuler beaucoup de données, la différence entre 16 et 64 n’est pas vraiment un domaine où l’on perçoit une grande différence.

savvykang 2024-12-13

On développe très bien avec 8 Go de RAM aussi. Tous les travaux n’ont pas besoin d’autant de mémoire.

felizgeek 2024-12-13

Avec 64 Go de RAM, ça me semble assez accessible.
Ces derniers temps, la DDR5 16 Go pour ordinateur portable ne coûte plus que 60 000 wons.
On trouve aussi beaucoup de portables avec 64 Go dans la tranche des 800 000 wons.

riskatcher 2024-12-13

Sur Mac, 64 Go de RAM reviennent à peu près à avoir 64 Go de VRAM, donc en pratique il faut partir d’environ 300.

plenty 2024-12-13

Les Mac de la série M partagent la RAM entre le CPU et le GPU, ce qui a pour effet d’augmenter la mémoire disponible pour le GPU.

ifmkl 2024-12-11

Après avoir lu l’article original, le titre me paraît au moins un peu plus clair. Comme le billet dit en fait : l’auteur a fait tourner un modèle Llama sur son propre ordinateur portable !.. Haha

savvykang 2024-12-11

Est-ce qu’on parle de 64 Go en tenant compte du fait qu’il faut aussi faire tourner d’autres programmes ? Je pense que ce n’est pas une configuration réaliste pour ce qu’on appellerait un PC grand public, voire personnel.

ffdd270 2024-12-11

Dans ce contexte, un ordinateur personnel semble généralement simplement signifier « vendu sur le marché B2C et disponible à l’achat (quel que soit le prix) ». Cela paraissait assez éloigné de l’idée que « tout le monde peut l’utiliser ».

stargt 2024-12-11

Les situations sont variées. J’utilise moi aussi un MacBook Pro 96 Go à titre personnel, et même en dehors du développement lié aux LLM, le swap se remplit souvent.

huiya 2024-12-11

64 Go de RAM sur un ordinateur portable standard... ?? 😭

dhy0613 2024-12-11

Il serait plus juste de parler de matériel grand public.

Llama 3.3 70B permet désormais d’exécuter un modèle de niveau GPT-4 sur un ordinateur portable

À lire aussi

13 commentaires