Llama-3.3-70B-Instruct

(huggingface.co)

2 points par GN⁺ 2024-12-07 | 1 commentaires | Partager sur WhatsApp

Llama-3.3-70B-Instruct, publié sur Hugging Face, est un modèle multilingue de génération de texte de Meta, ajusté par instruction à l’échelle 70B, destiné aux usages d’IA conversationnelle et de génération de texte
Il repose sur un modèle de langage autorégressif Transformer optimisé ; la version ajustée est alignée sur des préférences d’utilité et de sécurité via SFT et RLHF
Le préentraînement a utilisé environ 15T+ tokens de données publiques en ligne, avec une fenêtre de contexte de 128k, une date de coupure des connaissances en décembre 2023, et la prise en charge de 8 langues
Pour accéder au modèle sur Hugging Face, il faut accepter de partager ses coordonnées, ainsi que respecter la Llama 3.3 Community License et l’Acceptable Use Policy
En déploiement réel, il est recommandé de ne pas utiliser le modèle seul, mais de l’intégrer dans un système d’IA avec garde-fous de sécurité, avec des tests et ajustements de sécurité adaptés à l’usage

Nature du modèle et principales spécifications

Llama 3.3 est un grand modèle de langage multilingue développé par Meta, et la version 70B Instruct est un modèle génératif ajusté par instruction prenant en charge les entrées et sorties textuelles
Il est optimisé pour les cas d’usage conversationnels multilingues et est évalué comme offrant, sur plusieurs benchmarks industriels généraux, de meilleures performances que de nombreux modèles de chat open source et propriétaires
L’architecture repose sur un modèle de langage autorégressif basé sur un Transformer optimisé
- La version ajustée utilise le supervised fine-tuning (SFT) et le reinforcement learning with human feedback (RLHF)
- Toutes les versions du modèle utilisent le Grouped-Query Attention (GQA) afin d’améliorer la scalabilité en inférence
Principales spécifications
- Paramètres : 70B
- Entrée : texte multilingue
- Sortie : texte multilingue et code
- Longueur de contexte : 128k
- Nombre de tokens de préentraînement : 15T+
- Date de coupure des connaissances : décembre 2023
- Date de sortie : 6 décembre 2024
Les langues prises en charge sont l’anglais, l’allemand, le français, l’italien, le portugais, l’hindi, l’espagnol et le thaï
Le modèle est un modèle statique entraîné sur des jeux de données hors ligne, et de futures versions ajustées doivent être publiées en intégrant les retours de la communauté

Conditions d’accès et obligations de licence

Pour accéder à ce contenu de modèle sur Hugging Face, il faut accepter de partager ses coordonnées
- Les informations fournies sont collectées, stockées, traitées et partagées conformément à la Meta Privacy Policy
La licence est la Llama 3.3 Community License Agreement
- Les Llama Materials incluent Llama 3.3 de Meta, sa documentation et toute partie de ceux-ci
- Elle accorde une licence limitée, non exclusive, mondiale, incessible et gratuite pour utiliser, reproduire, distribuer, copier, créer des œuvres dérivées et modifier ces éléments
Des exigences supplémentaires s’appliquent en cas de redistribution ou de distribution d’un produit qui les intègre
- Si vous distribuez les Llama Materials ou des dérivés, ou fournissez un produit ou service qui les inclut, vous devez fournir une copie de la licence
- Vous devez afficher de manière visible “Built with Llama” sur le site concerné, l’interface utilisateur, un billet de blog, la page about ou la documentation produit
- Si vous utilisez les Llama Materials ou leurs sorties/résultats pour créer, entraîner, fine-tuner ou améliorer un modèle d’IA puis le distribuez, le nom du modèle doit inclure le préfixe “Llama”
- Toutes les copies distribuées doivent conserver les mentions de copyright et de licence spécifiées dans le fichier texte “Notice”
Des conditions additionnelles s’appliquent aux usages commerciaux à très grande échelle
- Si, au cours du mois précédant la date de sortie de Llama 3.3, le licencié ou ses affiliés dépassaient 700 millions d’utilisateurs actifs mensuels pour leurs produits ou services, ils doivent demander une licence distincte à Meta
- Tant que Meta n’accorde pas explicitement ces droits, ils ne peuvent pas être exercés
Le contrat est interprété selon le droit de l’État de Californie, et les tribunaux californiens ont compétence exclusive pour les litiges associés

Périmètre autorisé et usages interdits

Llama 3.3 est destiné à un usage commercial et de recherche dans plusieurs langues
- Le modèle text-only ajusté par instruction est destiné à des usages de chat de type assistant
- Le modèle préentraîné peut être adapté à diverses tâches de génération en langage naturel
- Les sorties du modèle peuvent aussi servir à générer des données synthétiques et à améliorer d’autres modèles, notamment via la distillation
Les usages hors périmètre incluent notamment
- Les usages qui enfreignent les lois, réglementations ou règles de conformité commerciale applicables
- Les usages interdits par l’Acceptable Use Policy et la Llama 3.3 Community License
- Les usages en dehors des langues explicitement prises en charge dans la model card
Le modèle a été entraîné sur une collection de langues plus large que les 8 langues officiellement prises en charge, mais pour toute langue supplémentaire, le développeur doit respecter la licence et les politiques et garantir un usage sûr et responsable
L’Acceptable Use Policy interdit notamment les usages suivants
- Violence, terrorisme, exploitation d’enfants, traite d’êtres humains, violences sexuelles, diffusion d’informations illégales, sollicitation sexuelle et autres activités criminelles
- Harcèlement, abus, menaces et intimidation
- Discrimination ou actes illégaux/nuisibles dans l’emploi, le crédit, le logement ou l’accès à des biens et services essentiels
- Exercice non autorisé de professions réglementées
- Collecte, traitement, divulgation, génération ou inférence de données sensibles ou privées sans droit légal
- Atteinte aux droits de tiers ou usage abusif de ceux-ci
- Génération de code malveillant, de malware, de virus informatiques ou perturbation du fonctionnement de systèmes
- Contournement ou suppression des restrictions d’usage ou des mesures de sécurité
Les activités comportant un risque de mort ou de dommages corporels sont également interdites
- Activités militaires, de guerre, liées au nucléaire ou à ses applications, renseignement, ou activités soumises à l’ITAR
- Armes à feu et armes illégales, drogues illégales, substances réglementées
- Infrastructures critiques, technologies de transport, exploitation d’équipements lourds
- Contenus encourageant l’automutilation, les atteintes à autrui, la violence, les abus ou les dommages corporels
Des interdictions liées à la tromperie sont aussi prévues
- Génération ou promotion de fraude ou de désinformation
- Génération de contenus diffamatoires
- Génération et diffusion de spam
- Usurpation d’identité sans consentement ni droit légal
- Présenter l’usage ou les sorties de Llama 3.3 comme ayant été créés par un humain
- Génération de faux engagements en ligne, comme de faux avis
Pour les modèles multimodaux inclus dans Llama 3.3, les personnes résidant dans l’UE ou les entreprises ayant leur principal établissement dans l’UE ne se voient pas accorder les droits de la Section 1(a)
- Cette restriction ne s’applique pas aux utilisateurs finaux de produits ou services incluant ces modèles multimodaux

Exécution et options de serving

Ce dépôt inclut deux versions de Llama-3.3-70B-Instruct : une pour transformers et une pour le codebase llama d’origine
À partir de transformers >= 4.45.0, l’inférence conversationnelle peut être exécutée via l’abstraction pipeline de Transformers ou via les classes Auto et la fonction generate()
- La mise à jour s’effectue avec pip install --upgrade transformers
- L’exemple crée un pipeline text-generation avec torch.bfloat16 et device_map="auto"
Le tool use de Transformers est également pris en charge
- Plusieurs formats de tool use sont pris en charge, et le guide des formats de prompt est disponible dans les LLaMA prompt format docs
- Le tool use peut être géré via les chat templates de Transformers
- Si le modèle génère un appel d’outil, il faut ajouter tool_calls au message assistant, puis ajouter le résultat de l’exécution de l’outil comme message de rôle tool, avant d’appeler à nouveau generate()
Avec bitsandbytes et transformers, il est possible de charger les checkpoints en 8-bit et en 4-bit pour optimiser davantage la mémoire
- Le chargement en 8-bit utilise BitsAndBytesConfig(load_in_8bit=True)
- Le chargement en 4-bit consiste à passer load_in_4bit=True
Pour l’utilisation du codebase llama d’origine, il faut suivre les instructions du Meta Llama repository
- Les checkpoints originaux peuvent être téléchargés avec huggingface-cli download meta-llama/Llama-3.3-70B-Instruct --include "original/*" --local-dir Llama-3.3-70B-Instruct
Des options d’application locale et de serving sont aussi proposées
- vLLM lance un serveur avec vllm serve "meta-llama/Llama-3.3-70B-Instruct" et s’appelle via l’API compatible OpenAI /v1/chat/completions
- SGLang lance un serveur avec python3 -m sglang.launch_server --model-path "meta-llama/Llama-3.3-70B-Instruct" et s’appelle via une API compatible OpenAI
- Docker Model Runner s’utilise avec docker model run hf.co/meta-llama/Llama-3.3-70B-Instruct

Données d’entraînement, calcul et émissions

Les données de préentraînement se composent d’environ 15 billions de tokens issus de sources publiques
Les données de fine-tuning incluent des jeux de données publics d’instructions ainsi que plus de 25 millions d’exemples synthétiques générés
La fraîcheur des données s’étend jusqu’à décembre 2023 pour les données de préentraînement
L’entraînement a utilisé des bibliothèques d’apprentissage personnalisées, le cluster GPU personnalisé de Meta et son infrastructure de production
- Le fine-tuning, l’annotation et l’évaluation ont également été réalisés sur l’infrastructure de production
En cumulé, l’entraînement a consommé 39.3M heures GPU sur du matériel H100-80GB
- L’élément Llama 3.3 70B représente 7.0M heures GPU
- La consommation électrique d’entraînement est indiquée à 700W par GPU
Les émissions de gaz à effet de serre liées à l’entraînement sont distinguées selon la méthode de calcul
- L’estimation totale basée sur la localisation est de 11,390 tons CO2eq
- Les émissions basées sur la localisation pour Llama 3.3 70B sont de 2,040 tons CO2eq
- Meta affirmant maintenir depuis 2020 des émissions nettes nulles sur ses opérations mondiales et un approvisionnement électrique correspondant à 100 % d’énergies renouvelables, les émissions d’entraînement basées sur le marché sont de 0 tons CO2eq
- La méthodologie de calcul de l’énergie et des gaz à effet de serre est présentée dans ce papier
- Comme Meta publie le modèle en accès public, l’énergie d’entraînement utilisée et les émissions de gaz à effet de serre associées ne sont pas supportées par les autres utilisateurs

Positionnement dans les benchmarks

Les benchmarks de texte en anglais comparent Llama 3.3 à ses modèles précédents
Principaux résultats de Llama-3.3 70B Instruct
- MMLU(CoT): 86.0
- MMLU Pro(CoT): 68.9
- IFEval: 92.1
- GPQA Diamond(CoT): 50.5
- HumanEval: 88.4
- MBPP EvalPlus(base): 87.6
- MATH(CoT): 77.0
- BFCL v2: 77.3
- MGSM: 91.1
Quelques comparaisons avec des modèles précédents ou supérieurs
- Sur HumanEval, Llama 3.1 70B Instruct obtient 80.5, Llama-3.3 70B Instruct 88.4, et Llama 3.1 405B Instruct 89.0
- Sur MATH, Llama 3.1 70B Instruct obtient 68.0, Llama-3.3 70B Instruct 77.0, et Llama 3.1 405B Instruct 73.8
- Sur MGSM, Llama 3.1 70B Instruct obtient 86.9, Llama-3.3 70B Instruct 91.1, et Llama 3.1 405B Instruct 91.6

Évaluation de la sécurité et responsabilité de déploiement

L’approche de publication responsable de Meta suit trois stratégies pour gérer les risques de confiance et de sécurité
- Aider les développeurs à déployer des expériences utiles, sûres et flexibles adaptées aux utilisateurs visés et aux cas d’usage pris en charge par Llama
- Protéger les développeurs contre les utilisateurs adverses cherchant à détourner les capacités de Llama
- Fournir des protections communautaires pour aider à prévenir l’usage abusif du modèle
Llama 3.3 est conçu comme une technologie de base destinée à divers cas d’usage
- La sécurité du modèle est alignée sur des cas d’usage généraux et des catégories de risques standard
- Les développeurs doivent définir des politiques adaptées à leur cas d’usage et déployer les systèmes Llama avec les protections nécessaires
- Les directives associées sont disponibles dans le Responsible Use Guide
Le fine-tuning de sécurité de Llama 3.3 Instruct vise à fournir des ressources pour étudier la robustesse du fine-tuning de sécurité et à réduire la charge pesant sur les développeurs pour déployer des systèmes d’IA sûrs
- Les données de fine-tuning combinent des données humaines produites par des prestataires et des données synthétiques
- Des classifieurs basés sur des LLM sont utilisés pour sélectionner des prompts et réponses de haute qualité
- La stratégie de données de sécurité inclut des prompts borderline et adversariaux
- Les réponses des données de sécurité sont modifiées pour respecter des consignes de ton de refus
Les grands modèles de langage comme Llama 3.3 ne sont pas conçus pour être déployés seuls
- Ils doivent être déployés comme partie d’un système d’IA complet, avec des garde-fous de sécurité supplémentaires
- Lors de la création de systèmes agentiques, les développeurs doivent déployer des protections au niveau système
- Meta fournit via ses ressources trust and safety Llama Guard 3, Prompt Guard et Code Shield
- Les démos de reference implementations incluent ces protections par défaut
Pour les fonctionnalités de tool use, les développeurs sont responsables de l’intégration entre le LLM et les outils ou services choisis
- Ils doivent définir des politiques claires par cas d’usage
- Ils doivent évaluer l’intégrité ainsi que les limites de sûreté et de sécurité des services tiers
Sur les capacités multilingues, des sorties peuvent être produites dans des langues autres que les 8 officiellement prises en charge
- Pour converser dans des langues ne répondant pas encore aux critères de sécurité et d’utilité, il faut mettre en œuvre du fine-tuning et des contrôles système
- Meta déconseille fortement l’usage conversationnel dans des langues non prises en charge

Évaluation des risques et ressources communautaires

Les évaluations portent à la fois sur les cas d’usage généraux et sur des capacités spécifiques
- L’évaluation des cas d’usage généraux mesure les risques de sécurité des applications les plus courantes, comme les chatbots, les assistants de code et les appels d’outils
- Des jeux de données d’évaluation adversariaux dédiés ont été construits, et des systèmes composés de modèles Llama et de Llama Guard 3 ont été évalués
- Il est important d’évaluer les applications dans leur contexte, et il est recommandé de construire des jeux de données d’évaluation dédiés à chaque cas d’usage
Des exercices de red team itératifs ont été menés
- Leur objectif est d’identifier les risques via du prompting adversarial
- Les enseignements tirés ont servi à améliorer les benchmarks et les jeux de données de safety tuning
- Les équipes de red team réunissaient des experts en cybersécurité, apprentissage automatique adversarial, IA responsable, integrity et contenus multilingues
Domaines de risque particulièrement ciblés pour l’atténuation
- CBRNE : des uplift tests ont été menés pour évaluer si l’usage des modèles de la famille Llama 3 augmentait de manière significative les capacités d’acteurs malveillants en matière de prolifération d’armes chimiques ou biologiques
- Child Safety : des équipes expertes ont évalué la capacité du modèle à produire des sorties créant des risques pour la sécurité des enfants et la nécessité d’une atténuation via fine-tuning
- Cyber attack enablement : des analyses ont étudié si le modèle augmentait le niveau technique et la vitesse des capacités humaines dans les tâches de piratage, et s’il pouvait mener des cyberattaques complexes comme agent autonome dans un contexte de ransomware
Meta participe à des consortiums ouverts comme AI Alliance, Partnership on AI et MLCommons, et contribue à la standardisation de la sécurité et à la transparence
Les outils Purple Llama sont open source pour un usage communautaire, et les contributions sont accueillies via le PurpleLlama GitHub repository
Les Llama Impact Grants visent à identifier et soutenir des applications Llama à impact social dans l’éducation, le climat et l’innovation ouverte
Grâce à des mécanismes de signalement des sorties et au bug bounty program, Meta continue d’améliorer la technologie Llama avec l’aide de la communauté

Limites et points d’attention pour les développeurs

Les valeurs clés mises en avant pour Llama 3.3 sont l’ouverture, l’inclusivité et l’utilité
Le modèle est conçu pour être accessible à des personnes ayant des origines, expériences et points de vue variés
Llama 3.3 est une technologie nouvelle, et son usage comporte encore des risques
- Les tests réalisés à ce jour ne couvrent pas tous les scénarios, et ne pourront pas tous les couvrir
- Comme pour les autres LLM, les sorties potentielles ne peuvent pas être prédites à l’avance
- Dans certains cas, le modèle peut produire des réponses inexactes, biaisées ou autrement inappropriées
Avant de déployer une application basée sur Llama 3.3, les développeurs doivent effectuer des tests de sécurité et un ajustement adaptés à cette application
Des ressources sur le développement responsable sont disponibles dans le Responsible Use Guide, Trust and Safety et d’autres resources

1 commentaires

GN⁺ 2024-12-07

Avis sur Hacker News

Benchmarks : https://www.reddit.com/r/LocalLLaMA/comments/1h85ld5/comment...
Les performances semblent similaires, voire légèrement supérieures, à celles de Llama 3.2 405B, ce qui est vraiment impressionnant
D’après Zuck (https://www.instagram.com/p/DDPm9gqv2cW/), il s’agit de la dernière release de la série Llama 3, et Llama 4 est prévu pour 2025, ce qui donne envie de voir la suite
- Avec un GPU 4090 de 24 Go et 64 Go de mémoire CPU sur un 7950x, en répartissant le modèle entre GPU et CPU avec lm-studio, j’obtiens 2,12 tok/s
  J’ai chargé 40/80 couches sur le GPU, et la qualité de sortie semble correcte jusqu’ici
  Pour les requêtes qu’on ne veut pas envoyer sur le réseau tout en voulant la meilleure réponse possible, ce type de configuration peut être utile
  Si de meilleures quantifications ou des configurations avec davantage de mémoire GPU deviennent possibles, on devrait pouvoir utiliser ce type de gros modèle en local comme un assistant de code solide
  Le modèle utilisé est lmstudio-community/Llama-3.3-70B-Instruct-GGUF/Llama-3.3-70B-Instruct-Q4_K_M.gguf
- À noter qu’à cause du système de nommage de Llama, il n’existe pas de modèle Llama 3.2 405B
  Les modèles 8B/70B/405B appartiennent à Llama 3, 3.1 ou 3.3 (le 405B n’était pas présent dans la release initiale), tandis que Llama 3.2 ne contient que les modèles 1B, 3B, 11B vision et 90B vision
  C’est une structure assez déroutante
- Comme les performances sont assez proches du 405B, il serait intéressant de comparer le 3.3-70B non quantifié avec un 405B quantifié à taille équivalente pour voir lequel l’emporte
Cela me rappelle la célèbre phrase de Steve Jobs disant à Dropbox que le stockage était « une fonctionnalité, pas un produit »
En publiant en open source des modèles aussi puissants, Zuckerberg transforme en pratique l’IA en bien générique, tandis que le vrai modèle économique de Meta reste centré sur les plateformes sociales
Meta peut utiliser ces modèles pour renforcer Facebook et Instagram, tout en profitant des améliorations et de l’attention de la communauté
La stratégie n’est pas de vendre de l’IA, mais de renforcer le cœur de métier grâce à l’IA
En les ouvrant, l’entreprise bénéficie d’une large adoption et d’un développement continu sans avoir à monétiser directement les modèles eux-mêmes
- Il ne faut pas non plus sous-estimer la valeur du fait de tendre davantage la main à la communauté des développeurs
  C’est peut-être une coïncidence, mais depuis que ces modèles ont commencé à être publiés, je vois plus souvent les gens parler de « Meta » sur HN, et ces derniers temps l’attitude est bien plus positive qu’avant
  La sympathie n’a peut-être pas autant de valeur qu’une modération/censure automatisée bon marché ou que des fonctionnalités tape-à-l’œil, mais elle en a clairement une
- Je réfléchissais depuis un moment au véritable modèle économique de l’open source, et je me demandais aussi pourquoi Google dépense de l’argent pour Chrome
  Après les déclarations de Zuckerberg, il m’apparaît que l’open source est utile pour une entreprise lorsqu’il peut augmenter le chiffre d’affaires ou réduire les coûts
  Chrome et Visual Studio Code sont des exemples d’augmentation du chiffre d’affaires
  Par exemple, plus il y a de gens qui codent, plus ils sont susceptibles de payer MSFT ; VS Code vise donc à rendre la programmation aussi attrayante que possible
  Chrome suit une logique similaire
  Linux et Llama sont des exemples de réduction des coûts
  Comme Zuckerberg l’a dit lui-même, il ne veut pas qu’un acteur prenne un monopole sur les LLM et grossisse comme une boule de neige ; il a donc choisi d’aider le camp open source à prendre de l’élan
- Rendre les compléments génériques : https://gwern.net/complement
- Petite plainte un peu différente de « le stockage est une fonctionnalité, pas un produit » : j’ai récemment changé de téléphone après 3 ans, et j’ai été surpris de voir que le stockage reste globalement limité autour de 128 Go
  J’ai l’impression que la capacité est artificiellement bridée pour pousser les services de stockage cloud
- Meta a fortement amélioré la qualité de ses publicités
  Il m’arrive souvent de voir des pubs Facebook et Instagram et de finir effectivement par acheter, alors qu’honnêtement, en plus de 20 ans, je n’avais jamais cliqué volontairement sur une publicité
Sur plusieurs benchmarks, il semble presque au niveau de GPT-4o : https://x.com/Ahmad_Al_Dahle/status/1865071436630778109
- En plus, il est 25 fois moins cher, utilisable hors ligne, on peut désactiver la censure/l’alignement, et il est possible de le fine-tuner et d’en faire des sauvegardes
  Triste journée pour OpenAI, bonne journée pour l’humanité
- L’année semble se terminer dans la même ambiance qu’à son début
  L’essentiel de l’évolution de l’IA se fait sur des modèles plus petits
  Le vrai changement est arrivé lorsque les entreprises ont commencé à comprendre la valeur des données d’entraînement et les gains d’efficacité qui dépassent largement la taille finale des modèles
- Je me demande quelle version de GPT-4o est utilisée dans ce benchmark
  La release 08-06 semble obtenir des scores un peu plus élevés que ces chiffres dans plusieurs benchmarks : https://github.com/openai/simple-evals?tab=readme-ov-file#be...
- Cela rend le prix de 200 dollars par mois encore plus ridicule
Dans notre benchmark, il fait bien mieux que prévu : https://help.kagi.com/kagi/ai/llm-benchmark.html
Il faudra creuser davantage, mais c’est impressionnant
- Quand je lui ai demandé : « Dans D&D 5e, mon personnage sorcier vient de passer niveau 6, qu’est-ce qu’il gagne ? », il a inventé de façon plausible pas mal de choses
  GPT-4 en a aussi inventé un peu, tandis que Claude a répondu correctement
J’ai un peu perdu le fil de ce qui se passe côté modèles sur HuggingFace, donc je suis curieux
J’aimerais savoir ce qu’on peut faire avec ce type de modèle
Est-ce qu’on peut le télécharger sur un ordinateur portable et l’exécuter avec JupyterLab ? Si oui, quels sont les avantages ? Peut-on le mettre à jour régulièrement avec de nouvelles données d’Internet, le fine-tuner pour un usage spécifique comme des données géospatiales, et à quel point le fine-tuning est-il difficile et long ?
Si HuggingFace contient des réponses à ces questions, un URL serait apprécié
Pour moi, HuggingFace ressemble au GitHub des débuts
Une minorité l’utilise intensivement, tandis que les autres semblent se gratter la tête sans savoir comment s’en servir
C’est une question de débutant, mais la réponse pourrait être utile à beaucoup de monde
- C’est possible
  La communauté crée des versions quantifiées pouvant tourner sur des GPU grand public
  La quantification 4 bits de Llama 70B tourne plutôt bien sur un MacBook Pro, et le Neural Engine, qui utilise la mémoire unifiée du CPU, est assez solide pour ce type d’usage
  Côté GPU, c’est un peu plus délicat, car la mémoire des GPU grand public reste limitée
  Le fine-tuning est aussi possible
  Des frameworks comme Unsloth le rendent plus simple : https://github.com/unslothai/unsloth
  Le fine-tuning peut être assez délicat à faire correctement, car il faut comprendre des éléments comme le taux d’apprentissage, mais on trouve sur Internet de bonnes ressources, et beaucoup de développeurs amateurs y sont parvenus
  Il n’est pas nécessaire d’avoir un doctorat en machine learning, mais il faut des données exprimables sous forme de texte
  Source : je travaille chez Databricks comme directeur de l’ingénierie du model serving
- C’est possible ; je ne connais pas bien JupyterLab, et je passe sur les avantages
  Les mises à jour régulières sont en pratique difficiles, et le fine-tuning est possible mais assez pénible, donc il vaut mieux payer quelqu’un d’autre pour le faire
- HuggingFace est fondamentalement un peu comme GitHub pour les modèles
  N’importe qui peut y mettre n’importe quoi, mais la plateforme standardise dans une certaine mesure les outils et les modes de distribution
  Il y a aussi une équipe qui aide à l’intégration pour rendre les releases plus faciles à utiliser, ainsi que des bibliothèques pour le fine-tuning
Je suis le prix par million de tokens sur OpenRouter, et c’est amusant de voir qu’il baisse tous les quelques rafraîchissements : https://openrouter.ai/meta-llama/llama-3.3-70b-instruct
Pour les personnes intéressées, j’ai mis en ligne les poids bitsandbytes 4 bits, GGUF et les poids 16 bits d’origine sur https://huggingface.co/unsloth
Avec Unsloth, on peut fine-tuner Llama 3.3 70B avec moins de 48 Go de VRAM ; c’est 2 fois plus rapide et utilise 70 % de mémoire en moins
Le fait que Meta ait publié Llama en open source est l’une des meilleures exécutions de la stratégie commoditisez votre complément dont je me souvienne
Pour ceux qui ne connaissent pas cette stratégie, voici le lien vers « Laws of Tech: Commoditize Your Complement » de Gwern : https://gwern.net/complement
Meta continue de dépasser les attentes
L’objectif était dès le départ de viser OpenAI/Anthropic et de les déstabiliser avec une stratégie de terre brûlée consistant à sortir des modèles ouverts puissants
Les grands gagnants, c’est nous, les développeurs
Ce matin, j’ai passé quelques minutes à lancer un serveur de modèles H100, puis je l’ai fait tourner sur 2 H100 avec une version quantifiée en FP8 et la quantification du cache KV ; la vitesse et la qualité semblent prometteuses
J’ai hâte de voir si de meilleurs benchmarks de suivi d’instructions se traduiront par des améliorations côté appels de fonctions et capacités agentiques

Llama-3.3-70B-Instruct

Nature du modèle et principales spécifications

Conditions d’accès et obligations de licence

Périmètre autorisé et usages interdits

Exécution et options de serving

Données d’entraînement, calcul et émissions

Positionnement dans les benchmarks

Évaluation de la sécurité et responsabilité de déploiement

Évaluation des risques et ressources communautaires

Limites et points d’attention pour les développeurs

À lire aussi

1 commentaires

Avis sur Hacker News