Llama-3.3-70B-Instruct
(huggingface.co)- Llama-3.3-70B-Instruct, publié sur Hugging Face, est un modèle multilingue de génération de texte de Meta, ajusté par instruction à l’échelle 70B, destiné aux usages d’IA conversationnelle et de génération de texte
- Il repose sur un modèle de langage autorégressif Transformer optimisé ; la version ajustée est alignée sur des préférences d’utilité et de sécurité via SFT et RLHF
- Le préentraînement a utilisé environ 15T+ tokens de données publiques en ligne, avec une fenêtre de contexte de 128k, une date de coupure des connaissances en décembre 2023, et la prise en charge de 8 langues
- Pour accéder au modèle sur Hugging Face, il faut accepter de partager ses coordonnées, ainsi que respecter la Llama 3.3 Community License et l’Acceptable Use Policy
- En déploiement réel, il est recommandé de ne pas utiliser le modèle seul, mais de l’intégrer dans un système d’IA avec garde-fous de sécurité, avec des tests et ajustements de sécurité adaptés à l’usage
Nature du modèle et principales spécifications
- Llama 3.3 est un grand modèle de langage multilingue développé par Meta, et la version
70B Instructest un modèle génératif ajusté par instruction prenant en charge les entrées et sorties textuelles - Il est optimisé pour les cas d’usage conversationnels multilingues et est évalué comme offrant, sur plusieurs benchmarks industriels généraux, de meilleures performances que de nombreux modèles de chat open source et propriétaires
- L’architecture repose sur un modèle de langage autorégressif basé sur un Transformer optimisé
- La version ajustée utilise le supervised fine-tuning (SFT) et le reinforcement learning with human feedback (RLHF)
- Toutes les versions du modèle utilisent le Grouped-Query Attention (GQA) afin d’améliorer la scalabilité en inférence
- Principales spécifications
- Paramètres : 70B
- Entrée : texte multilingue
- Sortie : texte multilingue et code
- Longueur de contexte : 128k
- Nombre de tokens de préentraînement : 15T+
- Date de coupure des connaissances : décembre 2023
- Date de sortie : 6 décembre 2024
- Les langues prises en charge sont l’anglais, l’allemand, le français, l’italien, le portugais, l’hindi, l’espagnol et le thaï
- Le modèle est un modèle statique entraîné sur des jeux de données hors ligne, et de futures versions ajustées doivent être publiées en intégrant les retours de la communauté
Conditions d’accès et obligations de licence
- Pour accéder à ce contenu de modèle sur Hugging Face, il faut accepter de partager ses coordonnées
- Les informations fournies sont collectées, stockées, traitées et partagées conformément à la Meta Privacy Policy
- La licence est la Llama 3.3 Community License Agreement
- Les Llama Materials incluent Llama 3.3 de Meta, sa documentation et toute partie de ceux-ci
- Elle accorde une licence limitée, non exclusive, mondiale, incessible et gratuite pour utiliser, reproduire, distribuer, copier, créer des œuvres dérivées et modifier ces éléments
- Des exigences supplémentaires s’appliquent en cas de redistribution ou de distribution d’un produit qui les intègre
- Si vous distribuez les Llama Materials ou des dérivés, ou fournissez un produit ou service qui les inclut, vous devez fournir une copie de la licence
- Vous devez afficher de manière visible “Built with Llama” sur le site concerné, l’interface utilisateur, un billet de blog, la page about ou la documentation produit
- Si vous utilisez les Llama Materials ou leurs sorties/résultats pour créer, entraîner, fine-tuner ou améliorer un modèle d’IA puis le distribuez, le nom du modèle doit inclure le préfixe “Llama”
- Toutes les copies distribuées doivent conserver les mentions de copyright et de licence spécifiées dans le fichier texte “Notice”
- Des conditions additionnelles s’appliquent aux usages commerciaux à très grande échelle
- Si, au cours du mois précédant la date de sortie de Llama 3.3, le licencié ou ses affiliés dépassaient 700 millions d’utilisateurs actifs mensuels pour leurs produits ou services, ils doivent demander une licence distincte à Meta
- Tant que Meta n’accorde pas explicitement ces droits, ils ne peuvent pas être exercés
- Le contrat est interprété selon le droit de l’État de Californie, et les tribunaux californiens ont compétence exclusive pour les litiges associés
Périmètre autorisé et usages interdits
- Llama 3.3 est destiné à un usage commercial et de recherche dans plusieurs langues
- Le modèle text-only ajusté par instruction est destiné à des usages de chat de type assistant
- Le modèle préentraîné peut être adapté à diverses tâches de génération en langage naturel
- Les sorties du modèle peuvent aussi servir à générer des données synthétiques et à améliorer d’autres modèles, notamment via la distillation
- Les usages hors périmètre incluent notamment
- Les usages qui enfreignent les lois, réglementations ou règles de conformité commerciale applicables
- Les usages interdits par l’Acceptable Use Policy et la Llama 3.3 Community License
- Les usages en dehors des langues explicitement prises en charge dans la model card
- Le modèle a été entraîné sur une collection de langues plus large que les 8 langues officiellement prises en charge, mais pour toute langue supplémentaire, le développeur doit respecter la licence et les politiques et garantir un usage sûr et responsable
- L’Acceptable Use Policy interdit notamment les usages suivants
- Violence, terrorisme, exploitation d’enfants, traite d’êtres humains, violences sexuelles, diffusion d’informations illégales, sollicitation sexuelle et autres activités criminelles
- Harcèlement, abus, menaces et intimidation
- Discrimination ou actes illégaux/nuisibles dans l’emploi, le crédit, le logement ou l’accès à des biens et services essentiels
- Exercice non autorisé de professions réglementées
- Collecte, traitement, divulgation, génération ou inférence de données sensibles ou privées sans droit légal
- Atteinte aux droits de tiers ou usage abusif de ceux-ci
- Génération de code malveillant, de malware, de virus informatiques ou perturbation du fonctionnement de systèmes
- Contournement ou suppression des restrictions d’usage ou des mesures de sécurité
- Les activités comportant un risque de mort ou de dommages corporels sont également interdites
- Activités militaires, de guerre, liées au nucléaire ou à ses applications, renseignement, ou activités soumises à l’ITAR
- Armes à feu et armes illégales, drogues illégales, substances réglementées
- Infrastructures critiques, technologies de transport, exploitation d’équipements lourds
- Contenus encourageant l’automutilation, les atteintes à autrui, la violence, les abus ou les dommages corporels
- Des interdictions liées à la tromperie sont aussi prévues
- Génération ou promotion de fraude ou de désinformation
- Génération de contenus diffamatoires
- Génération et diffusion de spam
- Usurpation d’identité sans consentement ni droit légal
- Présenter l’usage ou les sorties de Llama 3.3 comme ayant été créés par un humain
- Génération de faux engagements en ligne, comme de faux avis
- Pour les modèles multimodaux inclus dans Llama 3.3, les personnes résidant dans l’UE ou les entreprises ayant leur principal établissement dans l’UE ne se voient pas accorder les droits de la Section 1(a)
- Cette restriction ne s’applique pas aux utilisateurs finaux de produits ou services incluant ces modèles multimodaux
Exécution et options de serving
- Ce dépôt inclut deux versions de Llama-3.3-70B-Instruct : une pour
transformerset une pour le codebasellamad’origine - À partir de
transformers >= 4.45.0, l’inférence conversationnelle peut être exécutée via l’abstractionpipelinede Transformers ou via les classes Auto et la fonctiongenerate()- La mise à jour s’effectue avec
pip install --upgrade transformers - L’exemple crée un pipeline
text-generationavectorch.bfloat16etdevice_map="auto"
- La mise à jour s’effectue avec
- Le tool use de Transformers est également pris en charge
- Plusieurs formats de tool use sont pris en charge, et le guide des formats de prompt est disponible dans les LLaMA prompt format docs
- Le tool use peut être géré via les chat templates de Transformers
- Si le modèle génère un appel d’outil, il faut ajouter
tool_callsau message assistant, puis ajouter le résultat de l’exécution de l’outil comme message de rôletool, avant d’appeler à nouveaugenerate()
- Avec
bitsandbytesettransformers, il est possible de charger les checkpoints en 8-bit et en 4-bit pour optimiser davantage la mémoire- Le chargement en 8-bit utilise
BitsAndBytesConfig(load_in_8bit=True) - Le chargement en 4-bit consiste à passer
load_in_4bit=True
- Le chargement en 8-bit utilise
- Pour l’utilisation du codebase
llamad’origine, il faut suivre les instructions du Meta Llama repository- Les checkpoints originaux peuvent être téléchargés avec
huggingface-cli download meta-llama/Llama-3.3-70B-Instruct --include "original/*" --local-dir Llama-3.3-70B-Instruct
- Les checkpoints originaux peuvent être téléchargés avec
- Des options d’application locale et de serving sont aussi proposées
- vLLM lance un serveur avec
vllm serve "meta-llama/Llama-3.3-70B-Instruct"et s’appelle via l’API compatible OpenAI/v1/chat/completions - SGLang lance un serveur avec
python3 -m sglang.launch_server --model-path "meta-llama/Llama-3.3-70B-Instruct"et s’appelle via une API compatible OpenAI - Docker Model Runner s’utilise avec
docker model run hf.co/meta-llama/Llama-3.3-70B-Instruct
- vLLM lance un serveur avec
Données d’entraînement, calcul et émissions
- Les données de préentraînement se composent d’environ 15 billions de tokens issus de sources publiques
- Les données de fine-tuning incluent des jeux de données publics d’instructions ainsi que plus de 25 millions d’exemples synthétiques générés
- La fraîcheur des données s’étend jusqu’à décembre 2023 pour les données de préentraînement
- L’entraînement a utilisé des bibliothèques d’apprentissage personnalisées, le cluster GPU personnalisé de Meta et son infrastructure de production
- Le fine-tuning, l’annotation et l’évaluation ont également été réalisés sur l’infrastructure de production
- En cumulé, l’entraînement a consommé 39.3M heures GPU sur du matériel H100-80GB
- L’élément Llama 3.3 70B représente 7.0M heures GPU
- La consommation électrique d’entraînement est indiquée à 700W par GPU
- Les émissions de gaz à effet de serre liées à l’entraînement sont distinguées selon la méthode de calcul
- L’estimation totale basée sur la localisation est de 11,390 tons CO2eq
- Les émissions basées sur la localisation pour Llama 3.3 70B sont de 2,040 tons CO2eq
- Meta affirmant maintenir depuis 2020 des émissions nettes nulles sur ses opérations mondiales et un approvisionnement électrique correspondant à 100 % d’énergies renouvelables, les émissions d’entraînement basées sur le marché sont de 0 tons CO2eq
- La méthodologie de calcul de l’énergie et des gaz à effet de serre est présentée dans ce papier
- Comme Meta publie le modèle en accès public, l’énergie d’entraînement utilisée et les émissions de gaz à effet de serre associées ne sont pas supportées par les autres utilisateurs
Positionnement dans les benchmarks
- Les benchmarks de texte en anglais comparent Llama 3.3 à ses modèles précédents
- Principaux résultats de Llama-3.3 70B Instruct
- MMLU(CoT): 86.0
- MMLU Pro(CoT): 68.9
- IFEval: 92.1
- GPQA Diamond(CoT): 50.5
- HumanEval: 88.4
- MBPP EvalPlus(base): 87.6
- MATH(CoT): 77.0
- BFCL v2: 77.3
- MGSM: 91.1
- Quelques comparaisons avec des modèles précédents ou supérieurs
- Sur HumanEval, Llama 3.1 70B Instruct obtient 80.5, Llama-3.3 70B Instruct 88.4, et Llama 3.1 405B Instruct 89.0
- Sur MATH, Llama 3.1 70B Instruct obtient 68.0, Llama-3.3 70B Instruct 77.0, et Llama 3.1 405B Instruct 73.8
- Sur MGSM, Llama 3.1 70B Instruct obtient 86.9, Llama-3.3 70B Instruct 91.1, et Llama 3.1 405B Instruct 91.6
Évaluation de la sécurité et responsabilité de déploiement
- L’approche de publication responsable de Meta suit trois stratégies pour gérer les risques de confiance et de sécurité
- Aider les développeurs à déployer des expériences utiles, sûres et flexibles adaptées aux utilisateurs visés et aux cas d’usage pris en charge par Llama
- Protéger les développeurs contre les utilisateurs adverses cherchant à détourner les capacités de Llama
- Fournir des protections communautaires pour aider à prévenir l’usage abusif du modèle
- Llama 3.3 est conçu comme une technologie de base destinée à divers cas d’usage
- La sécurité du modèle est alignée sur des cas d’usage généraux et des catégories de risques standard
- Les développeurs doivent définir des politiques adaptées à leur cas d’usage et déployer les systèmes Llama avec les protections nécessaires
- Les directives associées sont disponibles dans le Responsible Use Guide
- Le fine-tuning de sécurité de Llama 3.3 Instruct vise à fournir des ressources pour étudier la robustesse du fine-tuning de sécurité et à réduire la charge pesant sur les développeurs pour déployer des systèmes d’IA sûrs
- Les données de fine-tuning combinent des données humaines produites par des prestataires et des données synthétiques
- Des classifieurs basés sur des LLM sont utilisés pour sélectionner des prompts et réponses de haute qualité
- La stratégie de données de sécurité inclut des prompts borderline et adversariaux
- Les réponses des données de sécurité sont modifiées pour respecter des consignes de ton de refus
- Les grands modèles de langage comme Llama 3.3 ne sont pas conçus pour être déployés seuls
- Ils doivent être déployés comme partie d’un système d’IA complet, avec des garde-fous de sécurité supplémentaires
- Lors de la création de systèmes agentiques, les développeurs doivent déployer des protections au niveau système
- Meta fournit via ses ressources trust and safety Llama Guard 3, Prompt Guard et Code Shield
- Les démos de reference implementations incluent ces protections par défaut
- Pour les fonctionnalités de tool use, les développeurs sont responsables de l’intégration entre le LLM et les outils ou services choisis
- Ils doivent définir des politiques claires par cas d’usage
- Ils doivent évaluer l’intégrité ainsi que les limites de sûreté et de sécurité des services tiers
- Sur les capacités multilingues, des sorties peuvent être produites dans des langues autres que les 8 officiellement prises en charge
- Pour converser dans des langues ne répondant pas encore aux critères de sécurité et d’utilité, il faut mettre en œuvre du fine-tuning et des contrôles système
- Meta déconseille fortement l’usage conversationnel dans des langues non prises en charge
Évaluation des risques et ressources communautaires
- Les évaluations portent à la fois sur les cas d’usage généraux et sur des capacités spécifiques
- L’évaluation des cas d’usage généraux mesure les risques de sécurité des applications les plus courantes, comme les chatbots, les assistants de code et les appels d’outils
- Des jeux de données d’évaluation adversariaux dédiés ont été construits, et des systèmes composés de modèles Llama et de Llama Guard 3 ont été évalués
- Il est important d’évaluer les applications dans leur contexte, et il est recommandé de construire des jeux de données d’évaluation dédiés à chaque cas d’usage
- Des exercices de red team itératifs ont été menés
- Leur objectif est d’identifier les risques via du prompting adversarial
- Les enseignements tirés ont servi à améliorer les benchmarks et les jeux de données de safety tuning
- Les équipes de red team réunissaient des experts en cybersécurité, apprentissage automatique adversarial, IA responsable, integrity et contenus multilingues
- Domaines de risque particulièrement ciblés pour l’atténuation
- CBRNE : des uplift tests ont été menés pour évaluer si l’usage des modèles de la famille Llama 3 augmentait de manière significative les capacités d’acteurs malveillants en matière de prolifération d’armes chimiques ou biologiques
- Child Safety : des équipes expertes ont évalué la capacité du modèle à produire des sorties créant des risques pour la sécurité des enfants et la nécessité d’une atténuation via fine-tuning
- Cyber attack enablement : des analyses ont étudié si le modèle augmentait le niveau technique et la vitesse des capacités humaines dans les tâches de piratage, et s’il pouvait mener des cyberattaques complexes comme agent autonome dans un contexte de ransomware
- Meta participe à des consortiums ouverts comme AI Alliance, Partnership on AI et MLCommons, et contribue à la standardisation de la sécurité et à la transparence
- Les outils Purple Llama sont open source pour un usage communautaire, et les contributions sont accueillies via le PurpleLlama GitHub repository
- Les Llama Impact Grants visent à identifier et soutenir des applications Llama à impact social dans l’éducation, le climat et l’innovation ouverte
- Grâce à des mécanismes de signalement des sorties et au bug bounty program, Meta continue d’améliorer la technologie Llama avec l’aide de la communauté
Limites et points d’attention pour les développeurs
- Les valeurs clés mises en avant pour Llama 3.3 sont l’ouverture, l’inclusivité et l’utilité
- Le modèle est conçu pour être accessible à des personnes ayant des origines, expériences et points de vue variés
- Llama 3.3 est une technologie nouvelle, et son usage comporte encore des risques
- Les tests réalisés à ce jour ne couvrent pas tous les scénarios, et ne pourront pas tous les couvrir
- Comme pour les autres LLM, les sorties potentielles ne peuvent pas être prédites à l’avance
- Dans certains cas, le modèle peut produire des réponses inexactes, biaisées ou autrement inappropriées
- Avant de déployer une application basée sur Llama 3.3, les développeurs doivent effectuer des tests de sécurité et un ajustement adaptés à cette application
- Des ressources sur le développement responsable sont disponibles dans le Responsible Use Guide, Trust and Safety et d’autres resources
1 commentaires
Avis sur Hacker News
Benchmarks : https://www.reddit.com/r/LocalLLaMA/comments/1h85ld5/comment...
Les performances semblent similaires, voire légèrement supérieures, à celles de Llama 3.2 405B, ce qui est vraiment impressionnant
D’après Zuck (https://www.instagram.com/p/DDPm9gqv2cW/), il s’agit de la dernière release de la série Llama 3, et Llama 4 est prévu pour 2025, ce qui donne envie de voir la suite
J’ai chargé 40/80 couches sur le GPU, et la qualité de sortie semble correcte jusqu’ici
Pour les requêtes qu’on ne veut pas envoyer sur le réseau tout en voulant la meilleure réponse possible, ce type de configuration peut être utile
Si de meilleures quantifications ou des configurations avec davantage de mémoire GPU deviennent possibles, on devrait pouvoir utiliser ce type de gros modèle en local comme un assistant de code solide
Le modèle utilisé est
lmstudio-community/Llama-3.3-70B-Instruct-GGUF/Llama-3.3-70B-Instruct-Q4_K_M.ggufLes modèles 8B/70B/405B appartiennent à Llama 3, 3.1 ou 3.3 (le 405B n’était pas présent dans la release initiale), tandis que Llama 3.2 ne contient que les modèles 1B, 3B, 11B vision et 90B vision
C’est une structure assez déroutante
Cela me rappelle la célèbre phrase de Steve Jobs disant à Dropbox que le stockage était « une fonctionnalité, pas un produit »
En publiant en open source des modèles aussi puissants, Zuckerberg transforme en pratique l’IA en bien générique, tandis que le vrai modèle économique de Meta reste centré sur les plateformes sociales
Meta peut utiliser ces modèles pour renforcer Facebook et Instagram, tout en profitant des améliorations et de l’attention de la communauté
La stratégie n’est pas de vendre de l’IA, mais de renforcer le cœur de métier grâce à l’IA
En les ouvrant, l’entreprise bénéficie d’une large adoption et d’un développement continu sans avoir à monétiser directement les modèles eux-mêmes
C’est peut-être une coïncidence, mais depuis que ces modèles ont commencé à être publiés, je vois plus souvent les gens parler de « Meta » sur HN, et ces derniers temps l’attitude est bien plus positive qu’avant
La sympathie n’a peut-être pas autant de valeur qu’une modération/censure automatisée bon marché ou que des fonctionnalités tape-à-l’œil, mais elle en a clairement une
Après les déclarations de Zuckerberg, il m’apparaît que l’open source est utile pour une entreprise lorsqu’il peut augmenter le chiffre d’affaires ou réduire les coûts
Chrome et Visual Studio Code sont des exemples d’augmentation du chiffre d’affaires
Par exemple, plus il y a de gens qui codent, plus ils sont susceptibles de payer MSFT ; VS Code vise donc à rendre la programmation aussi attrayante que possible
Chrome suit une logique similaire
Linux et Llama sont des exemples de réduction des coûts
Comme Zuckerberg l’a dit lui-même, il ne veut pas qu’un acteur prenne un monopole sur les LLM et grossisse comme une boule de neige ; il a donc choisi d’aider le camp open source à prendre de l’élan
J’ai l’impression que la capacité est artificiellement bridée pour pousser les services de stockage cloud
Il m’arrive souvent de voir des pubs Facebook et Instagram et de finir effectivement par acheter, alors qu’honnêtement, en plus de 20 ans, je n’avais jamais cliqué volontairement sur une publicité
Sur plusieurs benchmarks, il semble presque au niveau de GPT-4o : https://x.com/Ahmad_Al_Dahle/status/1865071436630778109
Triste journée pour OpenAI, bonne journée pour l’humanité
L’essentiel de l’évolution de l’IA se fait sur des modèles plus petits
Le vrai changement est arrivé lorsque les entreprises ont commencé à comprendre la valeur des données d’entraînement et les gains d’efficacité qui dépassent largement la taille finale des modèles
La release 08-06 semble obtenir des scores un peu plus élevés que ces chiffres dans plusieurs benchmarks : https://github.com/openai/simple-evals?tab=readme-ov-file#be...
Dans notre benchmark, il fait bien mieux que prévu : https://help.kagi.com/kagi/ai/llm-benchmark.html
Il faudra creuser davantage, mais c’est impressionnant
GPT-4 en a aussi inventé un peu, tandis que Claude a répondu correctement
J’ai un peu perdu le fil de ce qui se passe côté modèles sur HuggingFace, donc je suis curieux
J’aimerais savoir ce qu’on peut faire avec ce type de modèle
Est-ce qu’on peut le télécharger sur un ordinateur portable et l’exécuter avec JupyterLab ? Si oui, quels sont les avantages ? Peut-on le mettre à jour régulièrement avec de nouvelles données d’Internet, le fine-tuner pour un usage spécifique comme des données géospatiales, et à quel point le fine-tuning est-il difficile et long ?
Si HuggingFace contient des réponses à ces questions, un URL serait apprécié
Pour moi, HuggingFace ressemble au GitHub des débuts
Une minorité l’utilise intensivement, tandis que les autres semblent se gratter la tête sans savoir comment s’en servir
C’est une question de débutant, mais la réponse pourrait être utile à beaucoup de monde
La communauté crée des versions quantifiées pouvant tourner sur des GPU grand public
La quantification 4 bits de Llama 70B tourne plutôt bien sur un MacBook Pro, et le Neural Engine, qui utilise la mémoire unifiée du CPU, est assez solide pour ce type d’usage
Côté GPU, c’est un peu plus délicat, car la mémoire des GPU grand public reste limitée
Le fine-tuning est aussi possible
Des frameworks comme Unsloth le rendent plus simple : https://github.com/unslothai/unsloth
Le fine-tuning peut être assez délicat à faire correctement, car il faut comprendre des éléments comme le taux d’apprentissage, mais on trouve sur Internet de bonnes ressources, et beaucoup de développeurs amateurs y sont parvenus
Il n’est pas nécessaire d’avoir un doctorat en machine learning, mais il faut des données exprimables sous forme de texte
Source : je travaille chez Databricks comme directeur de l’ingénierie du model serving
Les mises à jour régulières sont en pratique difficiles, et le fine-tuning est possible mais assez pénible, donc il vaut mieux payer quelqu’un d’autre pour le faire
N’importe qui peut y mettre n’importe quoi, mais la plateforme standardise dans une certaine mesure les outils et les modes de distribution
Il y a aussi une équipe qui aide à l’intégration pour rendre les releases plus faciles à utiliser, ainsi que des bibliothèques pour le fine-tuning
Je suis le prix par million de tokens sur OpenRouter, et c’est amusant de voir qu’il baisse tous les quelques rafraîchissements : https://openrouter.ai/meta-llama/llama-3.3-70b-instruct
Pour les personnes intéressées, j’ai mis en ligne les poids bitsandbytes 4 bits, GGUF et les poids 16 bits d’origine sur https://huggingface.co/unsloth
Avec Unsloth, on peut fine-tuner Llama 3.3 70B avec moins de 48 Go de VRAM ; c’est 2 fois plus rapide et utilise 70 % de mémoire en moins
Le fait que Meta ait publié Llama en open source est l’une des meilleures exécutions de la stratégie commoditisez votre complément dont je me souvienne
Pour ceux qui ne connaissent pas cette stratégie, voici le lien vers « Laws of Tech: Commoditize Your Complement » de Gwern : https://gwern.net/complement
Meta continue de dépasser les attentes
L’objectif était dès le départ de viser OpenAI/Anthropic et de les déstabiliser avec une stratégie de terre brûlée consistant à sortir des modèles ouverts puissants
Les grands gagnants, c’est nous, les développeurs
Ce matin, j’ai passé quelques minutes à lancer un serveur de modèles H100, puis je l’ai fait tourner sur 2 H100 avec une version quantifiée en FP8 et la quantification du cache KV ; la vitesse et la qualité semblent prometteuses
J’ai hâte de voir si de meilleurs benchmarks de suivi d’instructions se traduiront par des améliorations côté appels de fonctions et capacités agentiques