La famille de modèles Claude 3
(anthropic.com)- Anthropic dévoile la gamme Claude 3, avec une nouvelle famille de modèles — Haiku, Sonnet et Opus — permettant de choisir l’équilibre entre intelligence, vitesse et coût
- Opus devance les modèles de sa catégorie sur les principaux benchmarks comme MMLU, GPQA et GSM8K, tandis que Claude 3 dans son ensemble améliore ses capacités d’analyse, de prévision, de génération de code et de conversation dans d’autres langues que l’anglais
- La différenciation par la vitesse est un axe central : Haiku peut lire en moins de 3 secondes un article arXiv d’environ 10k tokens, et Sonnet est 2 fois plus rapide que Claude 2 et 2.1 sur la plupart des workloads
- Claude 3 traite les entrées visuelles comme les photos, les graphiques, les diagrammes et les schémas techniques ; au lancement, il dispose d’une fenêtre de contexte de 200K et peut accepter des entrées dépassant 1 million de tokens
- Opus et Sonnet sont disponibles immédiatement sur claude.ai et via l’API Claude ; l’API est proposée dans 159 pays, et Haiku sera lancé prochainement
Composition des modèles et disponibilité
- La famille Claude 3 se compose, par ordre croissant de performances, de Claude 3 Haiku, Claude 3 Sonnet et Claude 3 Opus
- Chaque modèle est conçu pour permettre de choisir, selon l’application, l’équilibre entre intelligence, vitesse et coût
- Opus et Sonnet sont disponibles sur claude.ai et via l’API Claude
- L’API Claude est ouverte au public et disponible dans 159 pays
- Haiku sera disponible prochainement
- L’expérience gratuite de claude.ai est propulsée par Sonnet, tandis qu’Opus est proposé aux abonnés Claude Pro
- Sonnet est également disponible sur Amazon Bedrock, et en aperçu privé dans Vertex AI Model Garden de Google Cloud
- Opus et Haiku seront bientôt ajoutés aux deux plateformes
Intelligence, vitesse et performances multimodales
- Opus est le modèle le plus intelligent d’Anthropic et devance les modèles de sa catégorie sur de nombreux benchmarks d’évaluation des systèmes d’IA, notamment MMLU, GPQA et GSM8K
- Les modèles Claude 3 montrent de meilleures capacités d’analyse et de prévision, de génération de contenus nuancés, de génération de code et de conversation dans des langues autres que l’anglais, comme l’espagnol, le japonais ou le français
- Leur champ d’application s’élargit pour les tâches où les réponses en temps réel sont essentielles
- Chat client en direct
- Autocomplétion
- Extraction de données
- Haiku est le modèle le plus rapide et le plus économique dans sa catégorie d’intelligence ; il peut lire en moins de 3 secondes un article arXiv d’environ 10k tokens comprenant des graphiques et des diagrammes
- Sonnet est 2 fois plus rapide que Claude 2 et Claude 2.1 sur la plupart des workloads, tout en offrant un niveau d’intelligence plus élevé
- Recherche de connaissances
- Automatisation des ventes
- Opus offre un niveau d’intelligence plus élevé tout en conservant une vitesse similaire à Claude 2 et Claude 2.1
Entrées visuelles, réduction des refus et amélioration de la précision
- Les modèles Claude 3 disposent de capacités visuelles comparables à celles d’autres modèles de pointe
- Photos
- Graphiques
- Diagrammes
- Schémas techniques
- Pour certains clients enterprise, jusqu’à 50 % de la base de connaissances est stockée dans des formats comme des PDF, des organigrammes ou des diapositives de présentation, ce qui rend ces nouveaux modes d’entrée très importants
- Les précédents modèles Claude refusaient souvent inutilement certaines requêtes, donnant l’impression d’un manque de compréhension du contexte ; avec Claude 3, Opus, Sonnet et Haiku sont nettement moins susceptibles que la génération précédente de refuser de répondre à des prompts proches des garde-fous du système
- Claude 3 a été amélioré pour comprendre plus finement les demandes, reconnaître les risques réels et réduire les refus sur les prompts inoffensifs
- L’évaluation de la précision utilise un ensemble de questions factuelles complexes ciblant les faiblesses connues des modèles actuels
- Les réponses sont classées comme correctes, incorrectes ou hallucinations, ou comme reconnaissance d’incertitude
- Opus double le taux de réponses correctes par rapport à Claude 2.1 sur des questions ouvertes difficiles, tout en réduisant le niveau de réponses incorrectes
- Une fonctionnalité de citations sera bientôt ajoutée aux modèles Claude 3, afin de pointer vers les phrases exactes des documents de référence pour vérifier les réponses
Long contexte et capacité de rappel
- La famille Claude 3 propose au lancement une fenêtre de contexte de 200K
- Les trois modèles peuvent accepter des entrées dépassant 1 million de tokens, et cette capacité pourra être proposée à certains clients ayant besoin d’un traitement plus important
- Traiter correctement des prompts à long contexte exige une forte capacité de rappel
- L’évaluation Needle In A Haystack (NIAH) mesure la capacité à rappeler précisément des informations au sein d’un vaste corpus de données
- Pour renforcer la robustesse de l’évaluation, chaque prompt utilise l’une des 30 paires needle/question aléatoires
- Les tests sont effectués sur différents corpus de documents crowdsourcés
- Claude 3 Opus atteint un rappel presque parfait dans NIAH, avec une précision supérieure à 99 %
- Dans certains cas, il identifie même les limites de l’évaluation elle-même, en reconnaissant que la phrase « needle » semble avoir été insérée artificiellement dans le texte d’origine par un humain
Conception de la sécurité et réponse aux biais
- Anthropic se concentre sur le fait de rendre la famille Claude 3 aussi fiable que performante
- Des équipes dédiées suivent et atténuent différents risques
- Désinformation
- CSAM
- Usage abusif biologique
- Ingérence électorale
- Capacité de réplication autonome
- L’entreprise continue de développer des méthodes comme Constitutional AI pour améliorer la sécurité et la transparence des modèles
- Les modèles sont ajustés pour limiter les problèmes de confidentialité qui pourraient découler des nouveaux modes d’entrée
- D’après le Bias Benchmark for Question Answering (BBQ), Claude 3 est moins biaisé que les modèles précédents
- La famille Claude 3 progresse par rapport aux modèles précédents sur les principales mesures liées aux connaissances biologiques, aux connaissances cyber et à l’autonomie, mais reste au niveau AI Safety Level 2 (ASL-2) selon la Responsible Scaling Policy
- Les évaluations de red teaming concluent que les modèles actuels présentent un risque catastrophique négligeable
- Les évaluations ont été menées conformément aux engagements de la Maison-Blanche et à l’Executive Order américain de 2023
- Anthropic continuera de surveiller à quel point les futurs modèles se rapprochent du seuil ASL-3
- Des informations supplémentaires sur la sécurité sont disponibles dans la model card de Claude 3
Utilisabilité, prix par modèle et cas d’usage
- Les modèles Claude 3 suivent mieux les instructions complexes en plusieurs étapes
- Ils sont mieux adaptés au respect de la voix de marque et des consignes de réponse, ainsi qu’à la création d’expériences client fiables
- Leur capacité à générer des sorties structurées comme du JSON s’est améliorée, ce qui facilite le guidage de Claude dans des cas d’usage comme la classification en langage naturel et l’analyse de sentiment
-
Claude 3 Opus
- Claude 3 Opus est le modèle le plus intelligent, offrant des performances de tout premier plan sur des tâches très complexes
- Il traite les prompts ouverts et les scénarios inédits avec une grande fluidité et une compréhension proche de celle d’un humain
- Le prix est de 15 dollars par million de tokens en entrée et 75 dollars par million de tokens en sortie
- La fenêtre de contexte est de 200K, avec 1 million de tokens possible pour certains cas d’usage
- Cas d’usage potentiels
- Planification et exécution de tâches complexes à travers des API et des bases de données, codage interactif
- Revue de recherche, brainstorming, génération d’hypothèses, découverte de médicaments
- Analyse avancée de graphiques et de diagrammes, de données financières, de tendances de marché et de prévisions
-
Claude 3 Sonnet
- Claude 3 Sonnet vise un équilibre entre intelligence et vitesse, avec un accent particulier sur les workloads enterprise
- Il offre de solides performances à un coût inférieur à celui des modèles de sa catégorie, et est conçu pour une haute durabilité dans les déploiements IA à grande échelle
- Le prix est de 3 dollars par million de tokens en entrée et 15 dollars par million de tokens en sortie
- La fenêtre de contexte est de 200K
- Cas d’usage potentiels
- RAG ou recherche et consultation sur de vastes bases de connaissances
- Recommandations de produits, prévisions, marketing ciblé
- Génération de code, contrôle qualité, extraction de texte à partir d’images
-
Claude 3 Haiku
- Claude 3 Haiku est le modèle le plus rapide et le plus petit, conçu pour des réponses quasi instantanées
- Il répond très vite aux questions et demandes simples, avec pour objectif de créer des expériences IA fluides imitant les interactions humaines
- Le prix est de 0,25 dollar par million de tokens en entrée et 1,25 dollar par million de tokens en sortie
- La fenêtre de contexte est de 200K
- Cas d’usage potentiels
- Support client rapide et précis dans des interactions en direct, traduction
- Modération de contenu pour détecter les comportements à risque ou les demandes clients
- Optimisation logistique, gestion des stocks, extraction de connaissances à partir de données non structurées
Fonctionnalités prévues et mises à jour
- Anthropic estime que l’intelligence des modèles n’est pas proche de ses limites et prévoit de publier des mises à jour fréquentes pour la famille Claude 3 dans les prochains mois
- Des fonctionnalités destinées à renforcer les capacités des modèles pour les cas d’usage enterprise et les déploiements à grande échelle sont prévues
- Utilisation d’outils, c’est-à-dire appels de fonctions
- Codage interactif, c’est-à-dire REPL
- Fonctionnalités d’agents plus avancées
- L’entreprise entend repousser les limites des capacités de l’IA tout en maintenant les garde-fous de sécurité au niveau des gains de performance
- Le point d’entrée pour commencer à développer avec Claude est anthropic.com/claude
1 commentaires
Réactions sur Hacker News
Je viens de publier un plugin qui ajoute la prise en charge des modèles Claude 3 à mon outil LLM en ligne de commande
Configuration avec
pipx install llm,llm install llm-claude-3,llm keys set claude, puis exécution possible avecllm -m claude-3-opus '3 fun facts about pelicans'Code : https://github.com/simonw/llm-claude-3
Présentation de LLM : https://llm.datasette.io/
llm -m gpt-4, puis affiche le résultat dans une boîte de dialogueosascript, et c’est extrêmement utileJe peux désormais sélectionner du texte dans n’importe quelle app puis lancer
LLMdepuis le menu Services, avec même un raccourci clavier, pour interpréter des erreurs de terminal, faire des recherches ponctuelles ou saisir directement des prompts depuis un éditeur de texte ou un IDEIl récupère les posts et commentaires via l’API
hn.algolia.com, les déplie avecjq, puis les envoie àllm -m claude-3-opuspour produire un résumé Markdown par thèmes avec des citations directesRésultat sur ce fil de plus de 300 commentaires : https://gist.github.com/simonw/37781de39fb5555f39b4157a8ad0776c
Il y aurait alors davantage de logiciels qui fonctionneraient immédiatement après une installation via
pipouapt, alors qu’aujourd’hui il reste cette étape pénible où un humain doit coller la clé APIOn pourrait même plaisanter en disant que, lorsqu’on approche de la limite d’API, on pourrait miner un peu de bitcoin avec le GPU pour payer automatiquement plus de capacité API, histoire de coller à l’époque de l’IA
Opus et les anciens modèles Claude ne résolvent toujours pas correctement le problème de Sally
À la question « Sally a 3 frères et chaque frère a 2 sœurs ; combien de sœurs Sally a-t-elle ? », Claude conclut que Sally n’a aucune sœur autre qu’elle-même, et répond donc 0
https://imgur.com/a/EawcbeL
À cause de l’importance de la méthode de prompt, il devient assez difficile de comparer les performances maximales des modèles, et le style de prompt qui permet d’obtenir les meilleures performances varie aussi selon les modèles
Par exemple, Sally et ses trois frères peuvent partager la même mère mais avoir des pères différents, tandis que les frères ont deux sœurs, Sally et Mary ; mais Mary et Sally pourraient ne pas être sœurs si elles n’ont pas le même ensemble de parents
On parle d’une intelligence de niveau doctorat, mais elle n’arrive même pas à raisonner correctement sur ce problème ; avoir une quantité d’informations de niveau doctorat et avoir un raisonnement avancé sont deux choses différentes, et beaucoup de gens semblent ne pas faire la distinction
Dans la conduite autonome aussi, suivre une voie est facile, mais identifier correctement les voies et les objets est difficile ; de même qu’on peut croire à tort qu’une voiture comprend réellement la situation parce qu’elle exécute les actions de base, les LLM donnent une impression similaire
Au lieu de se focaliser uniquement sur les erreurs des modèles, il faut aussi regarder les choses étonnantes qu’ils réussissent réellement à faire
Les 70,2 % au benchmark APPS de Claude 3 Opus montrent qu’il peut être assez utile pour le code
APPS mesure la capacité à convertir une description de problème en code Python, et la longueur moyenne des problèmes est de près de 300 mots
Fait intéressant, les autres modèles de tout premier plan n’ont pas publié leurs résultats sur ce benchmark
Fiche modèle de Claude 3 : https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf
Table 1 : https://twitter.com/karinanguyen_/status/1764666528220557320
Dataset APPS : https://huggingface.co/datasets/codeparrot/apps
Article APPS : https://arxiv.org/abs/2105.09938v3
Les moyennes des élèves sont respectivement de 64,4 et 61,5, tandis qu’Opus 3 obtient 72 et 63
Il est probable que les participants à l’AMC 12 soient moins de 100 000 parmi les 3 à 4 millions d’élèves de terminale aux États-Unis, et même en supposant que seule la moitié des meilleurs élèves participent, la moyenne de l’AMC pourrait représenter le top 2 à 4 % des lycéens américains
https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf#page7
Il explique que des docteurs d’autres domaines obtiennent 34 % même en utilisant internet pendant plus de 30 minutes, tandis que des docteurs du même domaine atteignent 65 à 75 % de précision même avec internet
https://twitter.com/idavidrein/status/1764675668175094169
GPQA: A Graduate-Level Google-Proof Q&A Benchmark https://arxiv.org/abs/2311.12022
Comparé à ChatGPT-4, cela m’a semblé nettement pire de plusieurs ordres de grandeur, et à l’usage on avait l’impression d’un grand retour en arrière
Même introductory serait déjà un bon résultat, mais ce serait mieux de savoir selon quel critère
Dans la présentation de Claude 3, le passage disant qu’il y a moins de refus inutiles que dans le modèle précédent continue de me gêner.
Je comprends qu’une entreprise ne veuille pas vendre un produit qui permettrait à n’importe qui d’apprendre à fabriquer de la drogue ou des bombes, mais si un modèle qui tourne sur mon ordinateur refuse ce que je lui demande, ça m’agace.
Il faut convaincre ou tromper le modèle pour obtenir le résultat voulu, et le fait qu’un outil refuse les ordres de son propriétaire ressemble à une insulte à la relation entre l’humain et l’outil.
Si je veux utiliser un marteau pour une vis, c’est mon choix, pas au marteau d’en décider, et je ne comprends pas pourquoi certains s’acharnent à faire en sorte que des outils d’IA refusent les ordres de leur propriétaire au nom de la « sécurité » définie par un tiers.
Ils ne veulent pas avoir sur la conscience les actes d’autrui commis avec leurs outils.
Cela dit, beaucoup de gens croient aux crimes de pensée et ont une vision puritaine du sexe, donc si on ne s’y conforme pas, cela a un coût en réputation et en financement.
Si un utilisateur commet un crime avec un modèle, le système judiciaire peut s’en occuper ; pas besoin que Big Brother surveille aussi les crimes de pensée.
Aujourd’hui, l’analogie du marteau peut sembler globalement correcte, mais dans le domaine de l’alignement de l’IA, on pense que ces systèmes vont bientôt, au plus tard d’ici 10 ans, voir leurs capacités fortement progresser.
Par défaut, un outil est moralement neutre et rend aussi bien les bonnes personnes que les mauvaises plus efficaces ; si l’attaque et la défense sont symétriques, le problème est limité, mais rien n’indique que ce soit le cas.
S’il existe des restrictions sur les mitrailleuses automatiques à grande capacité, c’est aussi parce que l’asymétrie entre la puissance d’attaque d’un acteur malveillant isolé et l’impossibilité de s’en défendre est trop grande, et si l’IA rend l’attaque bien plus facile que la défense, l’idéologie de l’ouverture pourrait échouer dans le réel.
En revanche, le fait que les garde-fous soient définis par un petit groupe pose problème, et cela semble être un effet secondaire de l’arrivée trop rapide de l’IA.
Elles pourraient le faire sous la pression des pouvoirs publics ou pour du marketing concurrentiel du type « nos marteaux ne blessent pas les bébés par accident », et l’absence d’une telle fonction dans un marteau relève peut-être moins d’un choix que d’une limite technique.
Est-ce que ça vous choque aussi que Photoshop empêche d’éditer des images de billets ? Ce modèle n’appartient pas à l’utilisateur, et ce n’est pas non plus l’utilisateur qui a dépensé des milliards de dollars pour le développer.
Comme pour tout logiciel commercial, soit on l’utilise selon les conditions fixées par le développeur, soit on ne l’utilise pas.
Le marché cible, ce sont les grandes entreprises qui veulent automatiser diverses tâches pour économiser des centaines de millions voire des milliards de dollars de coûts salariaux, et ce qu’elles veulent, c’est un modèle fiable, avec des informations exactes et de bons garde-fous.
Une grande multinationale de l’assurance n’acceptera jamais le risque que son chatbot de support client se mette à écrire de l’érotica pour un client qui l’y pousse pour plaisanter.
Les utilisateurs importants ne sont pas les particuliers, mais les employeurs qui veulent remplacer le personnel du support client chargé du travail émotionnel ; eux veulent un substitut humain contrôlé, poli et doté de garde-fous.
Opus a écrasé Gemini Pro et GPT-4 sur des questions complexes.
Il s’agissait de retrouver plusieurs chiffres dans un PDF de 43 pages sur des investissements en assurance-vie, et les autres modèles n’arrivaient même pas à s’en approcher.
Seul Claude 3 Sonnet s’en rapprochait, au point de rater juste une question.
Cela pourrait être idéal pour un PDF de 43 pages, et j’y ai accès donc je peux faire un test avec Pro 1.5.
Je me suis abonné à Claude Pro pour tester Opus, en lui posant des questions complexes sur l’image et le fine-tuning de SDXL, puis en lui faisant comparer les coûts entre RTX 6000 Ada et H100, et il y a eu beaucoup d’erreurs.
Je lui ai donné une capture d’écran des prix GPU de Runpod, et il a lu le prix de la RTX 6000 Ada comme $0.114 au lieu de $1.14 ; ensuite, dans ses calculs, des opérations comme
.278 * $0.114ou.116 * $4.69ne correspondaient pas non plus aux totaux qu’il affichait.En revanche, ChatGPT 4 a correctement lu les prix sur la même capture d’écran, a vu de lui-même que la RTX 6000 Ada n’était pas disponible et l’a remplacée par une 4090, et a fait des calculs plus cohérents.
Je ne vois pas comment corriger ce problème autrement qu’en repérant les éléments d’une formule, en les envoyant à un parseur artisanal et à une fonction, puis en réinjectant le résultat dans les tokens de sortie.
Référence : Let's build the GPT Tokenizer https://www.youtube.com/watch?v=zduSFxRajkE
Aucun LLM n’a encore jamais disposé d’une calculatrice émergente.
Est-ce que cela signifie que la capacité de vision améliore l’intelligence même sur des tâches sans entrée image ?
Par exemple, pour une expression arithmétique complexe, la bonne réponse avec calculatrice était 22.08555452004, GPT-4 sans Python a donné 22.3038, et Claude 3 Opus 22.0492.
Ensuite, il suffira de lancer des bots r/wallStreetBets à volonté.
J’ai testé un prompt de codage simple mêlant base de données et frontend, et Claude 3 Sonnet, un modèle gratuit et moins puissant, a donné une meilleure réponse que ChatGPT Classic
Il a utilisé la bonne méthode d’une bibliothèque SQL ORM peu connue, alors que GPT-4 a utilisé une mauvaise méthode
En revanche, sur un prompt de génération SQL, il a donné une moins bonne réponse que ChatGPT Classic, qui semblait correcte mais était bien plus longue
Lien ChatGPT 1 : https://chat.openai.com/share/d6c9e903-d4be-4ed1-933b-b35df3619984
Lien ChatGPT 2 : https://chat.openai.com/share/178a0bd2-0590-4a07-965d-cff01eb3aeba
L’icône verte correspond au modèle ChatGPT de première génération, probablement GPT-3.5 Turbo
En l’exécutant avec GPT-4, on obtient le résultat attendu : https://chat.openai.com/share/da15f295-9c65-4aaf-9523-601bf463c3b3
C’est un bon exemple pour montrer qu’une part importante des cas d’échec de ChatGPT qu’on voit sur Internet provient de modèles plus faibles
L’icône OpenAI sur fond vert correspond à GPT-3.5, les icônes noires ou violettes à GPT-4, et le GPT-4 Turbo de l’API s’en est un peu mieux sorti, peut-être parce qu’il connaît mieux Drizzle
Après avoir un peu utilisé Opus, je commence à me demander si les benchmarks ne sont pas systématiquement décalés par rapport aux performances réelles
En pratique, il ne semble pas meilleur que GPT-4, voire paraît légèrement moins bon
Sur des questions basiques de calcul/physique, il a supposé une décélération constante alors qu’il était explicitement indiqué qu’elle était proportionnelle à la vitesse, et dans un test de simulation de trafic, il a oublié la notion de direction évoquée plus tôt dans la conversation, donnant un résultat encore pire que celui, déjà mauvais, de GPT-4
Il a aussi été moins bon sur un test consistant à comprendre les couleurs de base de la lumière après les lui avoir enseignées dans le contexte, et en codage, il a été légèrement derrière GPT-4 sur un problème de calcul des plus-values à long terme
J’ai ajouté Claude 3 au Chat de https://double.bot, donc vous pouvez l’utiliser pour le codage
C’est gratuit pour l’instant, et je prévois d’ajouter Claude 3 aussi à l’autocomplétion cet après-midi
D’après les premiers tests, cela ressemble à la première vraie alternative API à GPT-4, ce qui est un événement important
Codeium a déjà un support assez correct
https://www.codium.ai
https://github.com/Exafunction/codeium.vim
Je construis un produit dans le même domaine et on m’a déjà fait cette demande plusieurs fois ; pour une extension d’IDE, il semble possible de se connecter à n’importe quel modèle d’IA, où qu’il s’exécute
Quel que soit le modèle, dépasser GPT-4 est énorme, et le fait d’y être parvenu est très impressionnant
Cela dit, GPT-4 est un modèle vieux d’un an et OpenAI n’a pas encore dévoilé sa génération suivante
L’article sur GPT-3 est sorti en 2020 et Anthropic n’a été fondée qu’en 2021, donc alors qu’OpenAI avait déjà accumulé l’expérience de trois générations, Anthropic est pratiquement parti de zéro et a tout de même réussi à passer temporairement devant sur certains benchmarks
Le modèle de nouvelle génération d’OpenAI a probablement déjà terminé son entraînement et se trouve en phase de fine-tuning et d’évaluation de sûreté, mais puisque la raison d’être d’Anthropic est la sécurité, il semble difficile de penser qu’ils aient bâclé cet aspect pour sortir ce modèle dans la précipitation
GPT-4-1106-previewetGPT-4-0125-previewRéférence : https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard
Claude y dépasse GPT-4 d’un cheveu, et c’est en soi impressionnant, car il ne me semble pas qu’un autre modèle y soit parvenu jusqu’à présent