Anthropic publie Claude 2.1

(anthropic.com)

2 points par GN⁺ 2023-11-22 | 1 commentaires | Partager sur WhatsApp

Claude 2.1 est disponible via l’API et offre l’expérience de chat de claude.ai.
Il se distingue par une fenêtre de contexte de 200K tokens, une réduction des hallucinations, les system prompts et une nouvelle fonctionnalité bêta d’utilisation d’outils.
Une mise à jour de la politique tarifaire est prévue afin d’améliorer l’efficacité des coûts pour les clients.

Fenêtre de contexte de 200K

Les utilisateurs de Claude demandaient une fenêtre de contexte plus large et des résultats plus précis pour le travail sur de longs documents.
Avec 200 000 tokens, il est possible de fournir à Claude environ 150 000 mots ou plus de 500 pages de documents.
Claude peut dialoguer avec de grands volumes de contenu ou de données et effectuer diverses tâches comme le résumé, les questions-réponses, la prévision de tendances et la comparaison multi-documents.

Taux d’hallucination réduit de moitié

Claude 2.1 réduit de moitié le taux de production d’affirmations erronées afin d’améliorer sa fiabilité.
Les entreprises peuvent ainsi développer et déployer des applications d’IA avec davantage de confiance et de robustesse.
Claude 2.1 montre aussi des améliorations en compréhension et en synthèse, notamment sur les documents longs et complexes où la précision est essentielle.

API Tool Use

Une nouvelle fonctionnalité bêta, "Tool Use", a été ajoutée pour permettre l’intégration avec les processus, produits et API existants des utilisateurs.
Claude peut orchestrer des fonctions ou API définies par les développeurs, rechercher des sources web et interroger une base de connaissances privée.
Tool Use est encore à un stade précoce de développement, et des fonctionnalités pour développeurs ainsi que des directives de prompt sont en cours d’élaboration.

Expérience développeur

L’expérience de la console développeur pour les utilisateurs de l’API Claude a été simplifiée afin de faciliter le test de nouveaux prompts.
Avec le nouveau produit Workbench, les développeurs peuvent itérer sur les prompts et accéder aux paramètres du modèle pour optimiser le comportement de Claude.
Les system prompts sont introduits afin de permettre aux utilisateurs de fournir des instructions personnalisées à Claude.

L’avis de GN⁺

Les points les plus importants de Claude 2.1 sont sa fenêtre de contexte de 200K tokens et la réduction du taux d’hallucination, ce qui permet aux utilisateurs de traiter des documents et des données plus volumineux tout en obtenant des résultats plus fiables.
Ces fonctionnalités illustrent les progrès des technologies d’IA et ont le potentiel de transformer le travail des entreprises et des développeurs en leur fournissant des outils plus efficaces et plus précis.
Cet article propose des informations intéressantes sur les dernières tendances de l’IA et sur les nouveaux outils disponibles pour les développeurs, ce qui en fait une lecture attrayante pour les personnes intéressées par la technologie.

1 commentaires

GN⁺ 2023-11-22

Avis Hacker News

Le goût doux-amer du contexte 200k : il est regrettable que le taux d’erreur augmente fortement entre 70k et 195k. En revanche, la baisse des erreurs dans la partie centrale mérite d’être saluée.
Mécontentement face à l’usage limité du modèle : Claude ne refuse pas si peu que ce que le titre laisse entendre. Anthropic censure excessivement le modèle, ce qui le rend difficile à utiliser. C’est à l’utilisateur de décider de l’outil, pas à l’outil de décider pour l’utilisateur.
Signalement du décalage entre le titre et le contenu : la « baisse des refus » mentionnée dans l’annonce ne correspond pas au contenu réel. Claude 2.1 semble davantage susceptible de refuser que de fournir des informations erronées.
Manque d’efficacité pour le code : 10 fois moins bon que GPT-4. Lorsqu’on lui a demandé une simple fonction de synchronisation de base de données, il a fourni beaucoup de pseudocode au lieu de vrai code.
Impression négative sur le modèle : le modèle d’Anthropic semble avoir été excessivement entraîné à refuser la plupart des demandes, ce qui rend les échanges avec Claude peu agréables.
Cas de refus pour des raisons idéologiques : le refus d’une demande de liste de vocabulaire pour parler comme un adepte de l’altruisme efficace a donné lieu à une situation humoristique.
Déception vis-à-vis de Claude 2 : prometteur au départ, mais jugé très inférieur à GPT-4 ; même avec une grande fenêtre de contexte, cela ne sert à rien si la qualité des réponses est mauvaise.
Problème d’accessibilité pour l’usage de l’API : intérêt pour l’utilisation de l’API, mais déception faute d’avoir reçu une réponse. Cela donne l’impression d’un faible intérêt pour la plateforme développeur.
Difficulté d’accès à l’API : absence de réponse aux demandes via le site d’Anthropic ou Bedrock, donnant l’impression qu’un accès API est impraticable pour une activité professionnelle.
Intérêt pour l’introduction des system prompts : attention portée à l’ajout de system prompts permettant aux utilisateurs de fournir des consignes personnalisées à Claude pour améliorer ses performances. Attente quant à la facilité d’utilisation — et d’abus.
Utilisation de Claude en test et choix d’OpenAI : pas encore utilisé en production, mais régulièrement inclus dans les tests lors de la création de nouvelles fonctionnalités avec des LLM. OpenAI a obtenu ses validations plus rapidement, est arrivé plus vite sur le marché, et son API est meilleure, plus fiable et moins chère. Mais l’intégration de Claude dans AWS Bedrock rend désormais possibles des choses qui ne l’étaient pas auparavant.

Anthropic publie Claude 2.1

Fenêtre de contexte de 200K

Taux d’hallucination réduit de moitié

API Tool Use

Expérience développeur

L’avis de GN⁺

À lire aussi

1 commentaires

Avis Hacker News