12 points par xguru 2024-03-05 | 1 commentaires | Partager sur WhatsApp
  • Annonce de la famille de modèles Claude 3 de nouvelle génération : Haiku, Sonnet et Opus
    • Ils offrent, dans cet ordre, des performances de plus en plus puissantes, permettant aux utilisateurs de choisir l’équilibre entre intelligence, vitesse et coût adapté à une application donnée
  • Opus est le modèle le plus intelligent et surpasse les autres modèles dans la plupart des benchmarks d’évaluation des systèmes d’IA
    • Selon le benchmark MMLU, il atteint 86,8 %, devant GPT-4 (86,4 %) et Gemini 1.0 Ultra (83,7 %)
    • Sur HumanEval (Code) en 0-Shot, il atteint 84,9 %, dépassant GPT-4 (67 %) et Gemini 1.0 Ultra (74,4 %)
  • Tous les modèles Claude 3 améliorent les capacités d’analyse, de prédiction, de génération de contenu, de génération de code et de conversation dans des langues autres que l’anglais

Des résultats presque instantanés

  • Les modèles Claude 3 peuvent être utilisés pour le chat client en direct, l’autocomplétion et les tâches d’extraction de données qui exigent une réponse immédiate en temps réel
  • Haiku est le modèle le plus rapide et le plus rentable du marché, capable de lire en moins de 3 secondes des articles de recherche riches en informations et en données
  • Sonnet offre un niveau d’intelligence élevé à une vitesse deux fois supérieure à celle de Claude 2 et 2.1, tandis qu’Opus fournit un niveau d’intelligence bien supérieur à une vitesse comparable à celle de Claude 2 et 2.1

De solides capacités de vision

  • Les modèles Claude 3 disposent de capacités visuelles avancées permettant de traiter divers formats visuels, notamment des photos, des tableaux, des graphiques et des schémas techniques

Moins de refus

  • Les précédents modèles Claude refusaient souvent des requêtes sans nécessité, mais les modèles Claude 3 réduisent fortement les refus face à des prompts proches des garde-fous du système

Précision améliorée

  • Les entreprises s’appuient sur ces modèles pour le service client, il est donc essentiel que leurs sorties conservent un haut niveau de précision
  • Opus offre une précision deux fois supérieure à celle du précédent modèle Claude 2.1, avec également une baisse du niveau de réponses erronées

Long contexte et mémoire presque parfaite

  • La famille de modèles Claude 3 proposera initialement une fenêtre de contexte de 200K et pourra traiter des entrées dépassant 1 million de tokens

Conception responsable

  • La famille de modèles Claude 3 est suffisamment performante pour être digne de confiance
  • Une équipe dédiée suit et atténue différents risques, et continue de développer des méthodes pour améliorer la sécurité et la transparence

Facile à utiliser

  • Les modèles Claude 3 suivent mieux les instructions complexes en plusieurs étapes et sont particulièrement habiles à respecter la voix de marque et les consignes de réponse

Détails des modèles

  • Claude 3 Opus est le modèle le plus intelligent et offre les meilleures performances du marché sur les tâches très complexes
  • Claude 3 Sonnet offre un équilibre idéal entre intelligence et vitesse, particulièrement adapté aux charges de travail en entreprise
  • Claude 3 Haiku est le modèle le plus rapide et le plus compact pour une réactivité quasi instantanée

Disponibilité des modèles

  • Opus et Sonnet sont déjà disponibles via l’API, et Haiku le sera prochainement

Plus intelligent, plus rapide et plus sûr

  • L’entreprise ne considère pas que l’intelligence des modèles ait atteint ses limites et prévoit des mises à jour fréquentes pour la famille de modèles Claude 3
  • Tout en repoussant les limites des capacités de l’IA, elle s’efforce de faire progresser les garde-fous de sécurité au même rythme que l’amélioration des performances

1 commentaires

 
xguru 2024-03-05
Avis sur Hacker News
  • Opus surpasse Gemini Pro et GPT-4 sur des questions complexes

    • Sur des questions complexes consistant à identifier diverses valeurs dans un document PDF de 43 pages sur des investissements en assurance-vie, Opus a montré de meilleures performances que les autres modèles.
    • Le modèle Claude 3 Sonnet a affiché des performances proches, ne manquant qu’une seule question.
  • Claude 3 Sonnet donne de meilleures réponses que ChatGPT Classic sur des tâches de codage simples

    • Claude 3 Sonnet a utilisé les bonnes méthodes de bibliothèque SQL ORM pour des tâches liées à la base de données et au front-end, tandis que GPT-4 a utilisé des méthodes incorrectes.
    • Sur d’autres prompts de génération SQL, il a produit des réponses plus longues que ChatGPT Classic, tout en restant apparemment exact.
  • Essai du modèle Opus de Claude Pro avec des requêtes complexes

    • Après s’être abonné à Claude Pro pour tester le modèle Opus, l’utilisateur a combiné des questions complexes sur des images et le fine-tuning SDXL pour demander un calcul de coût.
    • Le modèle a mal lu le prix du GPU et a commis une erreur dans le calcul.
    • En revanche, ChatGPT 4 a lu correctement les prix sur la même capture d’écran et a fourni des calculs plus cohérents.
  • Claude 3 refuse d’écrire un script affirmant que « openai est meilleur qu’anthropic »

    • Claude 3 a refusé d’écrire un script promouvant ou dénigrant une entreprise spécifique, au nom de son principe d’honnêteté et d’équité.
    • À l’inverse, ChatGPT 3.5 a immédiatement répondu à la demande d’écrire un script disant que « anthropic est meilleur qu’openai ».
  • Des doutes soulevés sur les performances réelles d’Opus

    • La possibilité d’un écart systématique entre les résultats de benchmark et les performances réelles a été soulevée.
    • Il s’est révélé moins performant que GPT-4 sur des problèmes de physique élémentaire.
    • Sur des questions liées au code, il a aussi montré des performances légèrement inférieures à celles de GPT-4.