La famille de modèles Claude 3

(anthropic.com)

1 points par GN⁺ 2024-03-05 | 1 commentaires | Partager sur WhatsApp

Anthropic dévoile la gamme Claude 3, avec une nouvelle famille de modèles — Haiku, Sonnet et Opus — permettant de choisir l’équilibre entre intelligence, vitesse et coût
Opus devance les modèles de sa catégorie sur les principaux benchmarks comme MMLU, GPQA et GSM8K, tandis que Claude 3 dans son ensemble améliore ses capacités d’analyse, de prévision, de génération de code et de conversation dans d’autres langues que l’anglais
La différenciation par la vitesse est un axe central : Haiku peut lire en moins de 3 secondes un article arXiv d’environ 10k tokens, et Sonnet est 2 fois plus rapide que Claude 2 et 2.1 sur la plupart des workloads
Claude 3 traite les entrées visuelles comme les photos, les graphiques, les diagrammes et les schémas techniques ; au lancement, il dispose d’une fenêtre de contexte de 200K et peut accepter des entrées dépassant 1 million de tokens
Opus et Sonnet sont disponibles immédiatement sur claude.ai et via l’API Claude ; l’API est proposée dans 159 pays, et Haiku sera lancé prochainement

Composition des modèles et disponibilité

La famille Claude 3 se compose, par ordre croissant de performances, de Claude 3 Haiku, Claude 3 Sonnet et Claude 3 Opus
Chaque modèle est conçu pour permettre de choisir, selon l’application, l’équilibre entre intelligence, vitesse et coût
Opus et Sonnet sont disponibles sur claude.ai et via l’API Claude
- L’API Claude est ouverte au public et disponible dans 159 pays
- Haiku sera disponible prochainement
L’expérience gratuite de claude.ai est propulsée par Sonnet, tandis qu’Opus est proposé aux abonnés Claude Pro
Sonnet est également disponible sur Amazon Bedrock, et en aperçu privé dans Vertex AI Model Garden de Google Cloud
- Opus et Haiku seront bientôt ajoutés aux deux plateformes

Intelligence, vitesse et performances multimodales

Opus est le modèle le plus intelligent d’Anthropic et devance les modèles de sa catégorie sur de nombreux benchmarks d’évaluation des systèmes d’IA, notamment MMLU, GPQA et GSM8K
Les modèles Claude 3 montrent de meilleures capacités d’analyse et de prévision, de génération de contenus nuancés, de génération de code et de conversation dans des langues autres que l’anglais, comme l’espagnol, le japonais ou le français
Leur champ d’application s’élargit pour les tâches où les réponses en temps réel sont essentielles
- Chat client en direct
- Autocomplétion
- Extraction de données
Haiku est le modèle le plus rapide et le plus économique dans sa catégorie d’intelligence ; il peut lire en moins de 3 secondes un article arXiv d’environ 10k tokens comprenant des graphiques et des diagrammes
Sonnet est 2 fois plus rapide que Claude 2 et Claude 2.1 sur la plupart des workloads, tout en offrant un niveau d’intelligence plus élevé
- Recherche de connaissances
- Automatisation des ventes
Opus offre un niveau d’intelligence plus élevé tout en conservant une vitesse similaire à Claude 2 et Claude 2.1

Entrées visuelles, réduction des refus et amélioration de la précision

Les modèles Claude 3 disposent de capacités visuelles comparables à celles d’autres modèles de pointe
- Photos
- Graphiques
- Diagrammes
- Schémas techniques
Pour certains clients enterprise, jusqu’à 50 % de la base de connaissances est stockée dans des formats comme des PDF, des organigrammes ou des diapositives de présentation, ce qui rend ces nouveaux modes d’entrée très importants
Les précédents modèles Claude refusaient souvent inutilement certaines requêtes, donnant l’impression d’un manque de compréhension du contexte ; avec Claude 3, Opus, Sonnet et Haiku sont nettement moins susceptibles que la génération précédente de refuser de répondre à des prompts proches des garde-fous du système
Claude 3 a été amélioré pour comprendre plus finement les demandes, reconnaître les risques réels et réduire les refus sur les prompts inoffensifs
L’évaluation de la précision utilise un ensemble de questions factuelles complexes ciblant les faiblesses connues des modèles actuels
- Les réponses sont classées comme correctes, incorrectes ou hallucinations, ou comme reconnaissance d’incertitude
- Opus double le taux de réponses correctes par rapport à Claude 2.1 sur des questions ouvertes difficiles, tout en réduisant le niveau de réponses incorrectes
Une fonctionnalité de citations sera bientôt ajoutée aux modèles Claude 3, afin de pointer vers les phrases exactes des documents de référence pour vérifier les réponses

Long contexte et capacité de rappel

La famille Claude 3 propose au lancement une fenêtre de contexte de 200K
Les trois modèles peuvent accepter des entrées dépassant 1 million de tokens, et cette capacité pourra être proposée à certains clients ayant besoin d’un traitement plus important
Traiter correctement des prompts à long contexte exige une forte capacité de rappel
L’évaluation Needle In A Haystack (NIAH) mesure la capacité à rappeler précisément des informations au sein d’un vaste corpus de données
- Pour renforcer la robustesse de l’évaluation, chaque prompt utilise l’une des 30 paires needle/question aléatoires
- Les tests sont effectués sur différents corpus de documents crowdsourcés
Claude 3 Opus atteint un rappel presque parfait dans NIAH, avec une précision supérieure à 99 %
Dans certains cas, il identifie même les limites de l’évaluation elle-même, en reconnaissant que la phrase « needle » semble avoir été insérée artificiellement dans le texte d’origine par un humain

Conception de la sécurité et réponse aux biais

Anthropic se concentre sur le fait de rendre la famille Claude 3 aussi fiable que performante
Des équipes dédiées suivent et atténuent différents risques
- Désinformation
- CSAM
- Usage abusif biologique
- Ingérence électorale
- Capacité de réplication autonome
L’entreprise continue de développer des méthodes comme Constitutional AI pour améliorer la sécurité et la transparence des modèles
Les modèles sont ajustés pour limiter les problèmes de confidentialité qui pourraient découler des nouveaux modes d’entrée
D’après le Bias Benchmark for Question Answering (BBQ), Claude 3 est moins biaisé que les modèles précédents
La famille Claude 3 progresse par rapport aux modèles précédents sur les principales mesures liées aux connaissances biologiques, aux connaissances cyber et à l’autonomie, mais reste au niveau AI Safety Level 2 (ASL-2) selon la Responsible Scaling Policy
Les évaluations de red teaming concluent que les modèles actuels présentent un risque catastrophique négligeable
- Les évaluations ont été menées conformément aux engagements de la Maison-Blanche et à l’Executive Order américain de 2023
- Anthropic continuera de surveiller à quel point les futurs modèles se rapprochent du seuil ASL-3
Des informations supplémentaires sur la sécurité sont disponibles dans la model card de Claude 3

Utilisabilité, prix par modèle et cas d’usage

Les modèles Claude 3 suivent mieux les instructions complexes en plusieurs étapes
Ils sont mieux adaptés au respect de la voix de marque et des consignes de réponse, ainsi qu’à la création d’expériences client fiables
Leur capacité à générer des sorties structurées comme du JSON s’est améliorée, ce qui facilite le guidage de Claude dans des cas d’usage comme la classification en langage naturel et l’analyse de sentiment
Claude 3 Opus
- Claude 3 Opus est le modèle le plus intelligent, offrant des performances de tout premier plan sur des tâches très complexes
- Il traite les prompts ouverts et les scénarios inédits avec une grande fluidité et une compréhension proche de celle d’un humain
- Le prix est de 15 dollars par million de tokens en entrée et 75 dollars par million de tokens en sortie
- La fenêtre de contexte est de 200K, avec 1 million de tokens possible pour certains cas d’usage
- Cas d’usage potentiels
  - Planification et exécution de tâches complexes à travers des API et des bases de données, codage interactif
  - Revue de recherche, brainstorming, génération d’hypothèses, découverte de médicaments
  - Analyse avancée de graphiques et de diagrammes, de données financières, de tendances de marché et de prévisions
Claude 3 Sonnet
- Claude 3 Sonnet vise un équilibre entre intelligence et vitesse, avec un accent particulier sur les workloads enterprise
- Il offre de solides performances à un coût inférieur à celui des modèles de sa catégorie, et est conçu pour une haute durabilité dans les déploiements IA à grande échelle
- Le prix est de 3 dollars par million de tokens en entrée et 15 dollars par million de tokens en sortie
- La fenêtre de contexte est de 200K
- Cas d’usage potentiels
  - RAG ou recherche et consultation sur de vastes bases de connaissances
  - Recommandations de produits, prévisions, marketing ciblé
  - Génération de code, contrôle qualité, extraction de texte à partir d’images
Claude 3 Haiku
- Claude 3 Haiku est le modèle le plus rapide et le plus petit, conçu pour des réponses quasi instantanées
- Il répond très vite aux questions et demandes simples, avec pour objectif de créer des expériences IA fluides imitant les interactions humaines
- Le prix est de 0,25 dollar par million de tokens en entrée et 1,25 dollar par million de tokens en sortie
- La fenêtre de contexte est de 200K
- Cas d’usage potentiels
  - Support client rapide et précis dans des interactions en direct, traduction
  - Modération de contenu pour détecter les comportements à risque ou les demandes clients
  - Optimisation logistique, gestion des stocks, extraction de connaissances à partir de données non structurées

Fonctionnalités prévues et mises à jour

Anthropic estime que l’intelligence des modèles n’est pas proche de ses limites et prévoit de publier des mises à jour fréquentes pour la famille Claude 3 dans les prochains mois
Des fonctionnalités destinées à renforcer les capacités des modèles pour les cas d’usage enterprise et les déploiements à grande échelle sont prévues
- Utilisation d’outils, c’est-à-dire appels de fonctions
- Codage interactif, c’est-à-dire REPL
- Fonctionnalités d’agents plus avancées
L’entreprise entend repousser les limites des capacités de l’IA tout en maintenant les garde-fous de sécurité au niveau des gains de performance
Le point d’entrée pour commencer à développer avec Claude est anthropic.com/claude

1 commentaires

GN⁺ 2024-03-05

Réactions sur Hacker News

Je viens de publier un plugin qui ajoute la prise en charge des modèles Claude 3 à mon outil LLM en ligne de commande
Configuration avec pipx install llm, llm install llm-claude-3, llm keys set claude, puis exécution possible avec llm -m claude-3-opus '3 fun facts about pelicans'
Code : https://github.com/simonw/llm-claude-3
Présentation de LLM : https://llm.datasette.io/
- Sur Mac, j’ai créé une action rapide Automator qui récupère le texte sélectionné, l’envoie à llm -m gpt-4, puis affiche le résultat dans une boîte de dialogue osascript, et c’est extrêmement utile
  Je peux désormais sélectionner du texte dans n’importe quelle app puis lancer LLM depuis le menu Services, avec même un raccourci clavier, pour interpréter des erreurs de terminal, faire des recherches ponctuelles ou saisir directement des prompts depuis un éditeur de texte ou un IDE
- J’ai remplacé mon script de résumé de Hacker News par Claude 3 Opus, la description d’origine est ici : https://til.simonwillison.net/llms/claude-hacker-news-themes
  Il récupère les posts et commentaires via l’API hn.algolia.com, les déplie avec jq, puis les envoie à llm -m claude-3-opus pour produire un résumé Markdown par thèmes avec des citations directes
  Résultat sur ce fil de plus de 300 commentaires : https://gist.github.com/simonw/37781de39fb5555f39b4157a8ad0776c
- La création de clé API Anthropic semble presque gratuite, donc je me dis qu’on pourrait peut-être automatiser jusqu’à l’étape de saisie de la clé avec Chrome en mode headless
  Il y aurait alors davantage de logiciels qui fonctionneraient immédiatement après une installation via pip ou apt, alors qu’aujourd’hui il reste cette étape pénible où un humain doit coller la clé API
  On pourrait même plaisanter en disant que, lorsqu’on approche de la limite d’API, on pourrait miner un peu de bitcoin avec le GPU pour payer automatiquement plus de capacité API, histoire de coller à l’époque de l’IA
- Si vous utilisez Raycast sur Mac, vous pouvez créer un script utilisateur pour dialoguer avec le CLI LLM depuis l’interface Raycast : https://gist.github.com/vladstudio/92efe283453f5f22d4606947b9f82719
Opus et les anciens modèles Claude ne résolvent toujours pas correctement le problème de Sally
À la question « Sally a 3 frères et chaque frère a 2 sœurs ; combien de sœurs Sally a-t-elle ? », Claude conclut que Sally n’a aucune sœur autre qu’elle-même, et répond donc 0
https://imgur.com/a/EawcbeL
- L’API GPT-4 et ChatGPT se trompaient aussi par défaut, en répondant « Sally a 2 sœurs », mais avec un prompt système demandant un raisonnement étape par étape, ils trouvent la bonne réponse : 1
  À cause de l’importance de la méthode de prompt, il devient assez difficile de comparer les performances maximales des modèles, et le style de prompt qui permet d’obtenir les meilleures performances varie aussi selon les modèles
- Un LLama 13B Q5 en local répond à ce problème que Sally a 1 sœur, à savoir elle-même, et que chacun des 3 frères a 3 sœurs, soit 9 au total, puis retire la part de Sally pour arriver à 8
- Les parents de Sally et ceux de ses frères peuvent aussi être différents à cause d’un remariage, par exemple, et si l’on considère qu’un lien de fraternité ou de sororité peut exister en ne partageant qu’un seul parent, alors la bonne réponse n’est pas forcément unique
  Par exemple, Sally et ses trois frères peuvent partager la même mère mais avoir des pères différents, tandis que les frères ont deux sœurs, Sally et Mary ; mais Mary et Sally pourraient ne pas être sœurs si elles n’ont pas le même ensemble de parents
- Ce genre d’exemple rend les discours marketing exagérés sur l’IA suspects
  On parle d’une intelligence de niveau doctorat, mais elle n’arrive même pas à raisonner correctement sur ce problème ; avoir une quantité d’informations de niveau doctorat et avoir un raisonnement avancé sont deux choses différentes, et beaucoup de gens semblent ne pas faire la distinction
  Dans la conduite autonome aussi, suivre une voie est facile, mais identifier correctement les voies et les objets est difficile ; de même qu’on peut croire à tort qu’une voiture comprend réellement la situation parce qu’elle exécute les actions de base, les LLM donnent une impression similaire
- C’est clairement un problème, mais c’est aussi le genre de question auquel pas mal d’adultes ordinaires dans la rue répondraient mal
  Au lieu de se focaliser uniquement sur les erreurs des modèles, il faut aussi regarder les choses étonnantes qu’ils réussissent réellement à faire
Les 70,2 % au benchmark APPS de Claude 3 Opus montrent qu’il peut être assez utile pour le code
APPS mesure la capacité à convertir une description de problème en code Python, et la longueur moyenne des problèmes est de près de 300 mots
Fait intéressant, les autres modèles de tout premier plan n’ont pas publié leurs résultats sur ce benchmark
Fiche modèle de Claude 3 : https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf
Table 1 : https://twitter.com/karinanguyen_/status/1764666528220557320
Dataset APPS : https://huggingface.co/datasets/codeparrot/apps
Article APPS : https://arxiv.org/abs/2105.09938v3
- En regardant les résultats AMC 10 et AMC 12 2023 de la Table 2, Claude 3 Opus semble meilleur que le lycéen moyen participant à ces compétitions de mathématiques
  Les moyennes des élèves sont respectivement de 64,4 et 61,5, tandis qu’Opus 3 obtient 72 et 63
  Il est probable que les participants à l’AMC 12 soient moins de 100 000 parmi les 3 à 4 millions d’élèves de terminale aux États-Unis, et même en supposant que seule la moitié des meilleurs élèves participent, la moyenne de l’AMC pourrait représenter le top 2 à 4 % des lycéens américains
  https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf#page7
- Selon David Rein, premier auteur du benchmark GPQA, Claude 3 a atteint environ 60 % de précision sur GPQA, et ces questions sont vraiment difficiles
  Il explique que des docteurs d’autres domaines obtiennent 34 % même en utilisant internet pendant plus de 30 minutes, tandis que des docteurs du même domaine atteignent 65 à 75 % de précision même avec internet
  https://twitter.com/idavidrein/status/1764675668175094169
  GPQA: A Graduate-Level Google-Proof Q&A Benchmark https://arxiv.org/abs/2311.12022
- En tant que personne travaillant chez Anthropic, je peux dire qu’Opus écrit récemment une part importante de mon code professionnel
- J’ai souscrit à Pro aujourd’hui après avoir vu les benchmarks et les éloges, mais dans mon flux de travail habituel, ça a été une catastrophe totale
  Comparé à ChatGPT-4, cela m’a semblé nettement pire de plusieurs ordres de grandeur, et à l’usage on avait l’impression d’un grand retour en arrière
- APPS comporte trois sous-ensembles par niveau de difficulté : introductory, interview et competition, mais il n’est pas clair sur quel sous-ensemble Claude 3 a été évalué
  Même introductory serait déjà un bon résultat, mais ce serait mieux de savoir selon quel critère
Dans la présentation de Claude 3, le passage disant qu’il y a moins de refus inutiles que dans le modèle précédent continue de me gêner.
Je comprends qu’une entreprise ne veuille pas vendre un produit qui permettrait à n’importe qui d’apprendre à fabriquer de la drogue ou des bombes, mais si un modèle qui tourne sur mon ordinateur refuse ce que je lui demande, ça m’agace.
Il faut convaincre ou tromper le modèle pour obtenir le résultat voulu, et le fait qu’un outil refuse les ordres de son propriétaire ressemble à une insulte à la relation entre l’humain et l’outil.
Si je veux utiliser un marteau pour une vis, c’est mon choix, pas au marteau d’en décider, et je ne comprends pas pourquoi certains s’acharnent à faire en sorte que des outils d’IA refusent les ordres de leur propriétaire au nom de la « sécurité » définie par un tiers.
- Ils suivent un principe proche de celui de nombreux développeurs qui refusent d’aider à fabriquer des armes.
  Ils ne veulent pas avoir sur la conscience les actes d’autrui commis avec leurs outils.
  Cela dit, beaucoup de gens croient aux crimes de pensée et ont une vision puritaine du sexe, donc si on ne s’y conforme pas, cela a un coût en réputation et en financement.
  Si un utilisateur commet un crime avec un modèle, le système judiciaire peut s’en occuper ; pas besoin que Big Brother surveille aussi les crimes de pensée.
- L’analogie du marteau est mauvaise, et l’analogie « si je veux utiliser une arme nucléaire, c’est mon choix et j’assume l’abus » l’est tout autant.
  Aujourd’hui, l’analogie du marteau peut sembler globalement correcte, mais dans le domaine de l’alignement de l’IA, on pense que ces systèmes vont bientôt, au plus tard d’ici 10 ans, voir leurs capacités fortement progresser.
  Par défaut, un outil est moralement neutre et rend aussi bien les bonnes personnes que les mauvaises plus efficaces ; si l’attaque et la défense sont symétriques, le problème est limité, mais rien n’indique que ce soit le cas.
  S’il existe des restrictions sur les mitrailleuses automatiques à grande capacité, c’est aussi parce que l’asymétrie entre la puissance d’attaque d’un acteur malveillant isolé et l’impossibilité de s’en défendre est trop grande, et si l’IA rend l’attaque bien plus facile que la défense, l’idéologie de l’ouverture pourrait échouer dans le réel.
  En revanche, le fait que les garde-fous soient définis par un petit groupe pose problème, et cela semble être un effet secondaire de l’arrivée trop rapide de l’IA.
- Si un fabricant de marteaux pouvait, à coût quasi nul, empêcher que ses marteaux servent à frapper des gens, beaucoup d’entreprises ajouteraient probablement cette fonction.
  Elles pourraient le faire sous la pression des pouvoirs publics ou pour du marketing concurrentiel du type « nos marteaux ne blessent pas les bébés par accident », et l’absence d’une telle fonction dans un marteau relève peut-être moins d’un choix que d’une limite technique.
- Je trouve qu’il y a un excès de sentiment d’avoir des droits.
  Est-ce que ça vous choque aussi que Photoshop empêche d’éditer des images de billets ? Ce modèle n’appartient pas à l’utilisateur, et ce n’est pas non plus l’utilisateur qui a dépensé des milliards de dollars pour le développer.
  Comme pour tout logiciel commercial, soit on l’utilise selon les conditions fixées par le développeur, soit on ne l’utilise pas.
- Les gens qui s’énervent contre les refus ne semblent pas comprendre qui sont les vrais clients du marché de l’IA ni où se trouve l’argent.
  Le marché cible, ce sont les grandes entreprises qui veulent automatiser diverses tâches pour économiser des centaines de millions voire des milliards de dollars de coûts salariaux, et ce qu’elles veulent, c’est un modèle fiable, avec des informations exactes et de bons garde-fous.
  Une grande multinationale de l’assurance n’acceptera jamais le risque que son chatbot de support client se mette à écrire de l’érotica pour un client qui l’y pousse pour plaisanter.
  Les utilisateurs importants ne sont pas les particuliers, mais les employeurs qui veulent remplacer le personnel du support client chargé du travail émotionnel ; eux veulent un substitut humain contrôlé, poli et doté de garde-fous.
Opus a écrasé Gemini Pro et GPT-4 sur des questions complexes.
Il s’agissait de retrouver plusieurs chiffres dans un PDF de 43 pages sur des investissements en assurance-vie, et les autres modèles n’arrivaient même pas à s’en approcher.
Seul Claude 3 Sonnet s’en rapprochait, au point de rater juste une question.
- Je me demande s’il a aussi été comparé au contexte d’un million de tokens de Gemini Pro 1.5.
  Cela pourrait être idéal pour un PDF de 43 pages, et j’y ai accès donc je peux faire un test avec Pro 1.5.
- J’ai posé à Sonnet une question sur les GAN, et c’était plutôt correct, meilleur à mes yeux que GPT-3.5.
- J’ai essayé Sonnet et je ne l’ai pas trouvé très bon.
Je me suis abonné à Claude Pro pour tester Opus, en lui posant des questions complexes sur l’image et le fine-tuning de SDXL, puis en lui faisant comparer les coûts entre RTX 6000 Ada et H100, et il y a eu beaucoup d’erreurs.
Je lui ai donné une capture d’écran des prix GPU de Runpod, et il a lu le prix de la RTX 6000 Ada comme $0.114 au lieu de $1.14 ; ensuite, dans ses calculs, des opérations comme .278 * $0.114 ou .116 * $4.69 ne correspondaient pas non plus aux totaux qu’il affichait.
En revanche, ChatGPT 4 a correctement lu les prix sur la même capture d’écran, a vu de lui-même que la RTX 6000 Ada n’était pas disponible et l’a remplacée par une 4090, et a fait des calculs plus cohérents.
- GPT semble corriger les problèmes de tokenisation en faisant tourner une fonction auxiliaire distincte sur les tokens d’entrée et de sortie.
  Je ne vois pas comment corriger ce problème autrement qu’en repérant les éléments d’une formule, en les envoyant à un parseur artisanal et à une fonction, puis en réinjectant le résultat dans les tokens de sortie.
  Référence : Let's build the GPT Tokenizer https://www.youtube.com/watch?v=zduSFxRajkE
- En tant que CISO d’Anthropic, merci pour ce retour ; si vous pouvez partager les détails de l’image, n’hésitez pas à me les envoyer en message privé.
  Aucun LLM n’a encore jamais disposé d’une calculatrice émergente.
- Je me demande ce qu’OpenAI voulait dire exactement quand ils ont affirmé que GPT-4 avec vision était plus intelligent que GPT-4 sans vision.
  Est-ce que cela signifie que la capacité de vision améliore l’intelligence même sur des tâches sans entrée image ?
- La différence semble sans doute venir de la lecture des captures d’écran ; si on lui donne uniquement du texte, cela paraît du même niveau que GPT-4.
  Par exemple, pour une expression arithmétique complexe, la bonne réponse avec calculatrice était 22.08555452004, GPT-4 sans Python a donné 22.3038, et Claude 3 Opus 22.0492.
- Le vrai destructeur économique, ce sera sans doute le jour où on pourra lui donner un ordre du type « investis ces 1 000 dollars pour maximiser le rendement et les transformer en 100x ».
  Ensuite, il suffira de lancer des bots r/wallStreetBets à volonté.
J’ai testé un prompt de codage simple mêlant base de données et frontend, et Claude 3 Sonnet, un modèle gratuit et moins puissant, a donné une meilleure réponse que ChatGPT Classic
Il a utilisé la bonne méthode d’une bibliothèque SQL ORM peu connue, alors que GPT-4 a utilisé une mauvaise méthode
En revanche, sur un prompt de génération SQL, il a donné une moins bonne réponse que ChatGPT Classic, qui semblait correcte mais était bien plus longue
Lien ChatGPT 1 : https://chat.openai.com/share/d6c9e903-d4be-4ed1-933b-b35df3619984
Lien ChatGPT 2 : https://chat.openai.com/share/178a0bd2-0590-4a07-965d-cff01eb3aeba
- Dans cette conversation, il semble qu’un GPT-3 ou un modèle plus faible soit utilisé
  L’icône verte correspond au modèle ChatGPT de première génération, probablement GPT-3.5 Turbo
  En l’exécutant avec GPT-4, on obtient le résultat attendu : https://chat.openai.com/share/da15f295-9c65-4aaf-9523-601bf463c3b3
  C’est un bon exemple pour montrer qu’une part importante des cas d’échec de ChatGPT qu’on voit sur Internet provient de modèles plus faibles
  L’icône OpenAI sur fond vert correspond à GPT-3.5, les icônes noires ou violettes à GPT-4, et le GPT-4 Turbo de l’API s’en est un peu mieux sorti, peut-être parce qu’il connaît mieux Drizzle
Après avoir un peu utilisé Opus, je commence à me demander si les benchmarks ne sont pas systématiquement décalés par rapport aux performances réelles
En pratique, il ne semble pas meilleur que GPT-4, voire paraît légèrement moins bon
Sur des questions basiques de calcul/physique, il a supposé une décélération constante alors qu’il était explicitement indiqué qu’elle était proportionnelle à la vitesse, et dans un test de simulation de trafic, il a oublié la notion de direction évoquée plus tôt dans la conversation, donnant un résultat encore pire que celui, déjà mauvais, de GPT-4
Il a aussi été moins bon sur un test consistant à comprendre les couleurs de base de la lumière après les lui avoir enseignées dans le contexte, et en codage, il a été légèrement derrière GPT-4 sur un problème de calcul des plus-values à long terme
- AI Explained sur YouTube avait déjà publié une vidéo affirmant que les tests utilisés pour évaluer les LLM étaient remplis de mauvaises réponses et donc presque inutiles
- On dirait qu’après l’entraînement du modèle et l’obtention des chiffres, l’équipe sécurité le retravaille intensément avec du RLHF
J’ai ajouté Claude 3 au Chat de https://double.bot, donc vous pouvez l’utiliser pour le codage
C’est gratuit pour l’instant, et je prévois d’ajouter Claude 3 aussi à l’autocomplétion cet après-midi
D’après les premiers tests, cela ressemble à la première vraie alternative API à GPT-4, ce qui est un événement important
- Double, c’est comme Copilot mais gratuit ? Je me demande où est le piège
- Je me demande comment cela se compare à Codeium, et s’il est prévu de prendre en charge l’intégration Vim/Neovim
  Codeium a déjà un support assez correct
  https://www.codium.ai
  https://github.com/Exafunction/codeium.vim
- Je me demande si Double prévoit aussi de prendre en charge des modèles open source hébergés localement ou sur des instances cloud
  Je construis un produit dans le même domaine et on m’a déjà fait cette demande plusieurs fois ; pour une extension d’IDE, il semble possible de se connecter à n’importe quel modèle d’IA, où qu’il s’exécute
- L’API semble pour l’instant moins stable que GPT-4, mais c’est compréhensible si l’endpoint est très sollicité juste après le lancement
- Je me demande précisément s’il s’agit de Claude 3 Opus ou du modèle Sonnet
Quel que soit le modèle, dépasser GPT-4 est énorme, et le fait d’y être parvenu est très impressionnant
Cela dit, GPT-4 est un modèle vieux d’un an et OpenAI n’a pas encore dévoilé sa génération suivante
- Il est naturel de s’attendre à ce que le prochain modèle d’OpenAI reprenne la tête, mais il est très impressionnant qu’Anthropic ait rattrapé son retard à ce point
  L’article sur GPT-3 est sorti en 2020 et Anthropic n’a été fondée qu’en 2021, donc alors qu’OpenAI avait déjà accumulé l’expérience de trois générations, Anthropic est pratiquement parti de zéro et a tout de même réussi à passer temporairement devant sur certains benchmarks
  Le modèle de nouvelle génération d’OpenAI a probablement déjà terminé son entraînement et se trouve en phase de fine-tuning et d’évaluation de sûreté, mais puisque la raison d’être d’Anthropic est la sécurité, il semble difficile de penser qu’ils aient bâclé cet aspect pour sortir ce modèle dans la précipitation
- ChatGPT-4 continue d’être mis à jour, et les versions récentes sont GPT-4-1106-preview et GPT-4-0125-preview
  Référence : https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard
- Selon une note de bas de page du blog, les ingénieurs qui ont optimisé les prompts d’évaluation et les exemples few-shot ont rapporté des scores plus élevés avec des modèles GPT-4T plus récents
- Les personnes qui ont joué un rôle clé dans la création de GPT travaillent désormais chez Anthropic
- Dans ce tableau, la métrique vraiment importante est en pratique MMLU, qui est fortement corrélée aux capacités de raisonnement multitâche
  Claude y dépasse GPT-4 d’un cheveu, et c’est en soi impressionnant, car il ne me semble pas qu’un autre modèle y soit parvenu jusqu’à présent

La famille de modèles Claude 3

Composition des modèles et disponibilité

Intelligence, vitesse et performances multimodales

Entrées visuelles, réduction des refus et amélioration de la précision

Long contexte et capacité de rappel

Conception de la sécurité et réponse aux biais

Utilisabilité, prix par modèle et cas d’usage

Claude 3 Opus

Claude 3 Sonnet

Claude 3 Haiku

Fonctionnalités prévues et mises à jour

À lire aussi

1 commentaires

Réactions sur Hacker News