- Anthropic a annoncé une version améliorée de Claude 3.5 Sonnet ainsi qu’un nouveau modèle, Claude 3.5 Haiku
- Une nouvelle fonctionnalité d’utilisation de l’ordinateur (
computer use), qui permet de demander à Claude d’utiliser un ordinateur comme le ferait un humain, est introduite en bêta publique
- Les performances globales progressent tout en conservant les mêmes prix et la même vitesse
Présentation de la fonctionnalité Computer Use
- Les développeurs peuvent, via l’API, demander à Claude d’utiliser un ordinateur comme une vraie personne
- Il peut regarder l’écran, déplacer le curseur, cliquer sur des boutons et saisir du texte
- La fonctionnalité en est encore au stade expérimental et peut parfois être peu pratique ou produire des erreurs
- Asana, Canva, Cognition, DoorDash, Replit et The Browser Company ont déjà commencé à explorer ce potentiel pour exécuter des tâches nécessitant des dizaines, voire parfois des centaines d’étapes
Claude 3.5 Sonnet : un niveau de pointe dans l’industrie en ingénierie logicielle
- La version mise à jour de Claude 3.5 Sonnet montre de larges améliorations sur les benchmarks du secteur, avec des gains particulièrement marqués dans le codage agentique et les tâches d’utilisation d’outils
- Sur SWE-bench Verified, les performances passent de 33.4 % à 49.0 %, ce qui lui permet d’obtenir un score supérieur à celui de tous les modèles publiquement disponibles
- Sur TAU-bench également, les performances progressent de 62.6 % à 69.2 % dans le domaine du retail, et de 36.0 % à 46.0 % dans le domaine des compagnies aériennes
- D’après les premiers retours de clients comme GitLab, Cognition et The Browser Company, Claude 3.5 Sonnet représente une avancée significative dans le codage assisté par IA
Claude 3.5 Haiku : alliance entre technologie de pointe, coût maîtrisé et rapidité
- Claude 3.5 Haiku est la nouvelle génération du modèle le plus rapide
- Il progresse dans tous les domaines techniques au même coût et à une vitesse comparable à la génération précédente de Haiku, et dépasse l’ancien plus grand modèle, Claude 3 Opus
- Il se montre particulièrement performant sur les tâches de codage, avec 40.6 % sur SWE-bench Verified, surpassant de nombreux agents reposant sur des modèles de pointe publics, y compris l’ancien Claude 3.5 Sonnet et GPT-4o
- Avec sa faible latence, un meilleur suivi des consignes et une utilisation plus précise des outils, il convient bien aux produits orientés utilisateur, aux tâches de sous-agents spécialisés et à la création d’expériences personnalisées à partir de vastes volumes de données
Apprendre à Claude à naviguer sur un ordinateur de manière responsable
- La fonctionnalité d’utilisation de l’ordinateur sert à expérimenter quelque chose de fondamentalement nouveau
- Au lieu de créer des outils spécifiques pour accomplir chaque tâche, Anthropic apprend à Claude des compétences informatiques générales
- Les développeurs peuvent utiliser cette fonctionnalité précoce pour automatiser des processus répétitifs, construire et tester des logiciels, et réaliser des tâches ouvertes comme la recherche
- Sur OSWorld, Claude 3.5 Sonnet a obtenu 14.9 % dans la catégorie screenshot-only, devançant largement le deuxième meilleur système d’IA, à 7.8 %
- La fonctionnalité d’utilisation de l’ordinateur reste imparfaite et peut ouvrir de nouvelles voies à des menaces comme le spam, la désinformation ou la fraude ; une approche proactive est donc adoptée pour un déploiement sûr
Perspectives pour Computer Use
- Les enseignements tirés de ce déploiement initial d’une technologie encore émergente aideront à mieux comprendre le potentiel et l’impact de systèmes d’IA toujours plus puissants
- Anthropic invite à explorer les nouveaux modèles et la version bêta publique de la fonctionnalité d’utilisation de l’ordinateur, puis à partager des retours
- L’entreprise estime que ces avancées ouvriront de nouvelles possibilités dans la manière de collaborer avec Claude
L’avis de GN⁺
- La fonctionnalité d’utilisation de l’ordinateur ressemble à la RPA (Robotic Process Automation), mais semble proposer une approche plus flexible et plus générale
- Elle devrait grandement aider à l’automatisation des tâches répétitives en entreprise, mais il paraît préférable de commencer par des tâches peu critiques en raison du risque d’erreurs au début
- Cette fonctionnalité devrait entrer en concurrence avec des outils RPA existants comme Power Automate ou UiPath, et la frontière entre IA et RPA devrait devenir encore plus floue à l’avenir
- Du point de vue de la sécurité, donner à une IA le droit de contrôler un ordinateur peut introduire de nouveaux risques ; un contrôle d’accès strict et une supervision seront donc nécessaires
1 commentaires
Avis Hacker News