10 points par GN⁺ 2024-10-23 | 1 commentaires | Partager sur WhatsApp
  • Anthropic a annoncé une version améliorée de Claude 3.5 Sonnet ainsi qu’un nouveau modèle, Claude 3.5 Haiku
  • Une nouvelle fonctionnalité d’utilisation de l’ordinateur (computer use), qui permet de demander à Claude d’utiliser un ordinateur comme le ferait un humain, est introduite en bêta publique
  • Les performances globales progressent tout en conservant les mêmes prix et la même vitesse

Présentation de la fonctionnalité Computer Use

  • Les développeurs peuvent, via l’API, demander à Claude d’utiliser un ordinateur comme une vraie personne
  • Il peut regarder l’écran, déplacer le curseur, cliquer sur des boutons et saisir du texte
  • La fonctionnalité en est encore au stade expérimental et peut parfois être peu pratique ou produire des erreurs
  • Asana, Canva, Cognition, DoorDash, Replit et The Browser Company ont déjà commencé à explorer ce potentiel pour exécuter des tâches nécessitant des dizaines, voire parfois des centaines d’étapes

Claude 3.5 Sonnet : un niveau de pointe dans l’industrie en ingénierie logicielle

  • La version mise à jour de Claude 3.5 Sonnet montre de larges améliorations sur les benchmarks du secteur, avec des gains particulièrement marqués dans le codage agentique et les tâches d’utilisation d’outils
  • Sur SWE-bench Verified, les performances passent de 33.4 % à 49.0 %, ce qui lui permet d’obtenir un score supérieur à celui de tous les modèles publiquement disponibles
  • Sur TAU-bench également, les performances progressent de 62.6 % à 69.2 % dans le domaine du retail, et de 36.0 % à 46.0 % dans le domaine des compagnies aériennes
  • D’après les premiers retours de clients comme GitLab, Cognition et The Browser Company, Claude 3.5 Sonnet représente une avancée significative dans le codage assisté par IA

Claude 3.5 Haiku : alliance entre technologie de pointe, coût maîtrisé et rapidité

  • Claude 3.5 Haiku est la nouvelle génération du modèle le plus rapide
  • Il progresse dans tous les domaines techniques au même coût et à une vitesse comparable à la génération précédente de Haiku, et dépasse l’ancien plus grand modèle, Claude 3 Opus
  • Il se montre particulièrement performant sur les tâches de codage, avec 40.6 % sur SWE-bench Verified, surpassant de nombreux agents reposant sur des modèles de pointe publics, y compris l’ancien Claude 3.5 Sonnet et GPT-4o
  • Avec sa faible latence, un meilleur suivi des consignes et une utilisation plus précise des outils, il convient bien aux produits orientés utilisateur, aux tâches de sous-agents spécialisés et à la création d’expériences personnalisées à partir de vastes volumes de données

Apprendre à Claude à naviguer sur un ordinateur de manière responsable

  • La fonctionnalité d’utilisation de l’ordinateur sert à expérimenter quelque chose de fondamentalement nouveau
  • Au lieu de créer des outils spécifiques pour accomplir chaque tâche, Anthropic apprend à Claude des compétences informatiques générales
  • Les développeurs peuvent utiliser cette fonctionnalité précoce pour automatiser des processus répétitifs, construire et tester des logiciels, et réaliser des tâches ouvertes comme la recherche
  • Sur OSWorld, Claude 3.5 Sonnet a obtenu 14.9 % dans la catégorie screenshot-only, devançant largement le deuxième meilleur système d’IA, à 7.8 %
  • La fonctionnalité d’utilisation de l’ordinateur reste imparfaite et peut ouvrir de nouvelles voies à des menaces comme le spam, la désinformation ou la fraude ; une approche proactive est donc adoptée pour un déploiement sûr

Perspectives pour Computer Use

  • Les enseignements tirés de ce déploiement initial d’une technologie encore émergente aideront à mieux comprendre le potentiel et l’impact de systèmes d’IA toujours plus puissants
  • Anthropic invite à explorer les nouveaux modèles et la version bêta publique de la fonctionnalité d’utilisation de l’ordinateur, puis à partager des retours
  • L’entreprise estime que ces avancées ouvriront de nouvelles possibilités dans la manière de collaborer avec Claude

L’avis de GN⁺

  • La fonctionnalité d’utilisation de l’ordinateur ressemble à la RPA (Robotic Process Automation), mais semble proposer une approche plus flexible et plus générale
  • Elle devrait grandement aider à l’automatisation des tâches répétitives en entreprise, mais il paraît préférable de commencer par des tâches peu critiques en raison du risque d’erreurs au début
  • Cette fonctionnalité devrait entrer en concurrence avec des outils RPA existants comme Power Automate ou UiPath, et la frontière entre IA et RPA devrait devenir encore plus floue à l’avenir
  • Du point de vue de la sécurité, donner à une IA le droit de contrôler un ordinateur peut introduire de nouveaux risques ; un contrôle d’accès strict et une supervision seront donc nécessaires

1 commentaires

 
GN⁺ 2024-10-23
Avis Hacker News
  • Sonnet s’est classé n°1 du leaderboard d’édition de code d’aider avec 84,2 %. En utilisant le mode "architect", il établit le SOTA à 85,7 %. DeepSeek est utilisé comme modèle "editor"
    • Sonnet a aussi atteint le SOTA à 92,1 % sur un benchmark de refactorisation plus exigeant
  • Claude 3.5 Opus n’est plus mentionné dans la documentation officielle d’Anthropic. Cela laisse penser que sa sortie a été retardée ou annulée
  • En tant que personne développant des produits SaaS d’IA, je pensais que l’intégration d’API résoudrait l’essentiel de l’automatisation par IA, mais j’ai réalisé qu’en pratique beaucoup de logiciels interagissent directement avec des humains
    • Par exemple, mon beau-frère, qui est médecin, utilise un logiciel sur mesure avec des formulaires MFC sous Windows, et le comptable utilise un logiciel puissant appelé Cantax
    • Quand on évolue dans l’univers SaaS, on finit par croire que tout le monde doit avoir une API backend client-serveur, mais en réalité ce n’est pas le cas
  • La capacité d’utilisation de l’ordinateur est extrêmement impressionnante
    • Ce n’est pas simplement un agent qui utilise l’ordinateur comme outil, mais un agent de raisonnement autonome qui, une fois un objectif défini, exploite l’ordinateur et le navigateur pour l’atteindre
    • Il pourrait dépasser OpenAI GPT-o1
  • L’accent mis par Anthropic sur la sécurité de l’IA est intéressant. L’IA est capable d’utiliser l’ordinateur et le navigateur pour atteindre les objectifs demandés
  • Claude a été supérieur à ChatGPT au cours des 8 derniers mois, mais sa base d’utilisateurs est plus réduite
  • La différence entre Sonnet et Opus n’est pas claire. Sur le site d’Anthropic, Opus est présenté comme le modèle le plus avancé, mais ailleurs Sonnet est décrit comme le modèle le plus rapide et le plus avancé
    • D’après des tests manuels, j’ai eu l’impression qu’Opus fournissait des réponses légèrement meilleures, mais je ne peux pas l’affirmer avec certitude
  • La démo de code avec Claude mérite davantage de discussions
    • La véritable programmation par les utilisateurs finaux et la programmation par les chefs de produit pourraient arriver bientôt
  • Il s’est passé des choses amusantes pendant l’entraînement avec la nouvelle API
    • Claude a par exemple arrêté un long enregistrement d’écran, faisant perdre toute la vidéo, ou s’est mis à regarder des photos du parc national de Yellowstone pendant une démo de code