Anthropic dévoile la fonctionnalité Computer Use et les modèles Claude 3.5 Sonnet/Haiku

(anthropic.com)

10 points par GN⁺ 2024-10-23 | 1 commentaires | Partager sur WhatsApp

Anthropic a annoncé une version améliorée de Claude 3.5 Sonnet ainsi qu’un nouveau modèle, Claude 3.5 Haiku
Une nouvelle fonctionnalité d’utilisation de l’ordinateur (computer use), qui permet de demander à Claude d’utiliser un ordinateur comme le ferait un humain, est introduite en bêta publique
Les performances globales progressent tout en conservant les mêmes prix et la même vitesse

Présentation de la fonctionnalité Computer Use

Les développeurs peuvent, via l’API, demander à Claude d’utiliser un ordinateur comme une vraie personne
Il peut regarder l’écran, déplacer le curseur, cliquer sur des boutons et saisir du texte
La fonctionnalité en est encore au stade expérimental et peut parfois être peu pratique ou produire des erreurs
Asana, Canva, Cognition, DoorDash, Replit et The Browser Company ont déjà commencé à explorer ce potentiel pour exécuter des tâches nécessitant des dizaines, voire parfois des centaines d’étapes

Claude 3.5 Sonnet : un niveau de pointe dans l’industrie en ingénierie logicielle

La version mise à jour de Claude 3.5 Sonnet montre de larges améliorations sur les benchmarks du secteur, avec des gains particulièrement marqués dans le codage agentique et les tâches d’utilisation d’outils
Sur SWE-bench Verified, les performances passent de 33.4 % à 49.0 %, ce qui lui permet d’obtenir un score supérieur à celui de tous les modèles publiquement disponibles
Sur TAU-bench également, les performances progressent de 62.6 % à 69.2 % dans le domaine du retail, et de 36.0 % à 46.0 % dans le domaine des compagnies aériennes
D’après les premiers retours de clients comme GitLab, Cognition et The Browser Company, Claude 3.5 Sonnet représente une avancée significative dans le codage assisté par IA

Claude 3.5 Haiku : alliance entre technologie de pointe, coût maîtrisé et rapidité

Claude 3.5 Haiku est la nouvelle génération du modèle le plus rapide
Il progresse dans tous les domaines techniques au même coût et à une vitesse comparable à la génération précédente de Haiku, et dépasse l’ancien plus grand modèle, Claude 3 Opus
Il se montre particulièrement performant sur les tâches de codage, avec 40.6 % sur SWE-bench Verified, surpassant de nombreux agents reposant sur des modèles de pointe publics, y compris l’ancien Claude 3.5 Sonnet et GPT-4o
Avec sa faible latence, un meilleur suivi des consignes et une utilisation plus précise des outils, il convient bien aux produits orientés utilisateur, aux tâches de sous-agents spécialisés et à la création d’expériences personnalisées à partir de vastes volumes de données

Apprendre à Claude à naviguer sur un ordinateur de manière responsable

La fonctionnalité d’utilisation de l’ordinateur sert à expérimenter quelque chose de fondamentalement nouveau
Au lieu de créer des outils spécifiques pour accomplir chaque tâche, Anthropic apprend à Claude des compétences informatiques générales
Les développeurs peuvent utiliser cette fonctionnalité précoce pour automatiser des processus répétitifs, construire et tester des logiciels, et réaliser des tâches ouvertes comme la recherche
Sur OSWorld, Claude 3.5 Sonnet a obtenu 14.9 % dans la catégorie screenshot-only, devançant largement le deuxième meilleur système d’IA, à 7.8 %
La fonctionnalité d’utilisation de l’ordinateur reste imparfaite et peut ouvrir de nouvelles voies à des menaces comme le spam, la désinformation ou la fraude ; une approche proactive est donc adoptée pour un déploiement sûr

Perspectives pour Computer Use

Les enseignements tirés de ce déploiement initial d’une technologie encore émergente aideront à mieux comprendre le potentiel et l’impact de systèmes d’IA toujours plus puissants
Anthropic invite à explorer les nouveaux modèles et la version bêta publique de la fonctionnalité d’utilisation de l’ordinateur, puis à partager des retours
L’entreprise estime que ces avancées ouvriront de nouvelles possibilités dans la manière de collaborer avec Claude

L’avis de GN⁺

La fonctionnalité d’utilisation de l’ordinateur ressemble à la RPA (Robotic Process Automation), mais semble proposer une approche plus flexible et plus générale
Elle devrait grandement aider à l’automatisation des tâches répétitives en entreprise, mais il paraît préférable de commencer par des tâches peu critiques en raison du risque d’erreurs au début
Cette fonctionnalité devrait entrer en concurrence avec des outils RPA existants comme Power Automate ou UiPath, et la frontière entre IA et RPA devrait devenir encore plus floue à l’avenir
Du point de vue de la sécurité, donner à une IA le droit de contrôler un ordinateur peut introduire de nouveaux risques ; un contrôle d’accès strict et une supervision seront donc nécessaires

1 commentaires

GN⁺ 2024-10-23

Avis Hacker News

Sonnet s’est classé n°1 du leaderboard d’édition de code d’aider avec 84,2 %. En utilisant le mode "architect", il établit le SOTA à 85,7 %. DeepSeek est utilisé comme modèle "editor"
- Sonnet a aussi atteint le SOTA à 92,1 % sur un benchmark de refactorisation plus exigeant
Claude 3.5 Opus n’est plus mentionné dans la documentation officielle d’Anthropic. Cela laisse penser que sa sortie a été retardée ou annulée
En tant que personne développant des produits SaaS d’IA, je pensais que l’intégration d’API résoudrait l’essentiel de l’automatisation par IA, mais j’ai réalisé qu’en pratique beaucoup de logiciels interagissent directement avec des humains
- Par exemple, mon beau-frère, qui est médecin, utilise un logiciel sur mesure avec des formulaires MFC sous Windows, et le comptable utilise un logiciel puissant appelé Cantax
- Quand on évolue dans l’univers SaaS, on finit par croire que tout le monde doit avoir une API backend client-serveur, mais en réalité ce n’est pas le cas
La capacité d’utilisation de l’ordinateur est extrêmement impressionnante
- Ce n’est pas simplement un agent qui utilise l’ordinateur comme outil, mais un agent de raisonnement autonome qui, une fois un objectif défini, exploite l’ordinateur et le navigateur pour l’atteindre
- Il pourrait dépasser OpenAI GPT-o1
L’accent mis par Anthropic sur la sécurité de l’IA est intéressant. L’IA est capable d’utiliser l’ordinateur et le navigateur pour atteindre les objectifs demandés
Claude a été supérieur à ChatGPT au cours des 8 derniers mois, mais sa base d’utilisateurs est plus réduite
La différence entre Sonnet et Opus n’est pas claire. Sur le site d’Anthropic, Opus est présenté comme le modèle le plus avancé, mais ailleurs Sonnet est décrit comme le modèle le plus rapide et le plus avancé
- D’après des tests manuels, j’ai eu l’impression qu’Opus fournissait des réponses légèrement meilleures, mais je ne peux pas l’affirmer avec certitude
La démo de code avec Claude mérite davantage de discussions
- La véritable programmation par les utilisateurs finaux et la programmation par les chefs de produit pourraient arriver bientôt
Il s’est passé des choses amusantes pendant l’entraînement avec la nouvelle API
- Claude a par exemple arrêté un long enregistrement d’écran, faisant perdre toute la vidéo, ou s’est mis à regarder des photos du parc national de Yellowstone pendant une démo de code

Anthropic dévoile la fonctionnalité Computer Use et les modèles Claude 3.5 Sonnet/Haiku

Présentation de la fonctionnalité Computer Use

Claude 3.5 Sonnet : un niveau de pointe dans l’industrie en ingénierie logicielle

Claude 3.5 Haiku : alliance entre technologie de pointe, coût maîtrisé et rapidité

Apprendre à Claude à naviguer sur un ordinateur de manière responsable

Perspectives pour Computer Use

L’avis de GN⁺

À lire aussi

1 commentaires

Avis Hacker News