1 points par GN⁺ 2025-02-25 | 2 commentaires | Partager sur WhatsApp

Annonce

  • Claude 3.7 Sonnet et Claude Code ont été annoncés. Claude 3.7 Sonnet est le premier modèle de raisonnement hybride du marché, offrant des réponses rapides et une réflexion étape par étape. Les utilisateurs de l’API peuvent ajuster finement le temps de réflexion du modèle.
  • Claude 3.7 Sonnet affiche des performances particulièrement solides en programmation et en développement web frontend. Claude Code est un outil en ligne de commande qui permet de déléguer directement des tâches d’ingénierie depuis le terminal, proposé sous la forme d’un aperçu de recherche limité.
  • Claude 3.7 Sonnet est disponible sur tous les forfaits Claude ainsi que via l’API Anthropic, Amazon Bedrock et Vertex AI de Google Cloud. Le mode de réflexion étendue est disponible sur toutes les plateformes, à l’exception de l’offre gratuite de Claude.

Claude 3.7 Sonnet : un raisonnement de pointe pragmatique

  • Claude 3.7 Sonnet a été conçu selon une philosophie différente de celle des modèles de raisonnement existants. De la même manière que les humains utilisent un seul cerveau à la fois pour répondre rapidement et pour réfléchir en profondeur, Anthropic estime que le raisonnement doit être une capacité intégrée.
  • Claude 3.7 Sonnet réunit en un seul modèle un LLM généraliste et un modèle de raisonnement, ce qui permet aux utilisateurs de choisir entre une réponse standard et une réflexion approfondie. En mode de réflexion étendue, les performances progressent en mathématiques, en physique, en programmation et dans d’autres domaines.
  • Lorsqu’ils utilisent Claude 3.7 Sonnet via l’API, les utilisateurs peuvent ajuster le budget alloué à la réflexion. Cela permet de régler la vitesse et la qualité de la réponse.
  • Claude 3.7 Sonnet se concentre davantage sur les cas d’usage métier réels que sur les problèmes de mathématiques et d’informatique. Lors des premiers tests, il a montré d’excellents résultats en programmation.

Claude Code

  • Claude Code est un outil qui aide les développeurs à rechercher du code, modifier des fichiers, exécuter des tests, puis commit et push du code sur GitHub.
  • Claude Code est particulièrement utile pour le test-driven development, le débogage de problèmes complexes et les refactorings à grande échelle. Lors des premiers tests, il a permis de réduire fortement le temps de développement.
  • L’objectif de Claude Code est de comprendre comment les développeurs utilisent Claude afin d’en tenir compte dans les futures améliorations du modèle.

Travailler avec des bases de code avec Claude

  • L’expérience de programmation sur Claude.ai a été améliorée. L’intégration GitHub est désormais disponible sur tous les forfaits Claude, permettant aux développeurs de connecter directement leurs dépôts à Claude.
  • Grâce à sa compréhension approfondie des projets personnels, professionnels et open source, Claude 3.7 Sonnet devient un partenaire puissant pour corriger des bugs, développer des fonctionnalités et rédiger de la documentation.

Construire de manière responsable

  • Claude 3.7 Sonnet a fait l’objet de tests et d’évaluations approfondis, en collaboration avec des experts externes, afin de garantir la sécurité, la sûreté et la fiabilité.
  • Une system card détaillant les nouveaux résultats en matière de sécurité est fournie. Elle inclut des évaluations de politique de mise à l’échelle responsable que d’autres laboratoires d’IA et chercheurs peuvent appliquer.

Vers l’avenir

  • Claude 3.7 Sonnet et Claude Code constituent une étape importante vers des systèmes d’IA capables d’augmenter les capacités humaines. Ils étendent les accomplissements humains grâce à un raisonnement approfondi, un travail autonome et une collaboration efficace.
  • Anthropic se dit impatient de voir comment ces nouvelles fonctionnalités seront explorées et utilisées pour créer, et accueille les retours afin de poursuivre les améliorations.

2 commentaires

 
GN⁺ 2025-02-25
Commentaires sur Hacker News
  • Claude 3.7 Sonnet a obtenu 60,4 % sur le classement multilingue d’Aider

    • Il a obtenu un score élevé même sans mode réflexion et a dépassé le score de Sonnet 3.5
    • Aider 0.75.0 prend en charge 3.7 Sonnet
    • La prise en charge du mode réflexion ainsi que les résultats de benchmark devraient arriver bientôt
  • Boris, de l’équipe Claude Code, va répondre aux questions sur le produit

  • Le benchmark LLM de Kagi a été mis à jour avec Sonnet 3.7 en mode généraliste et en mode réflexion

    • Il est évalué comme le deuxième LLM généraliste le plus puissant après Gemini 2.0 pro
    • En mode réflexion, il est d’un niveau comparable à o1-mini et o3-mini
    • Il offre globalement une qualité et une vitesse élevées au même prix
    • Il devrait être activé dans Kagi Assistant dans les 24 heures
  • Il existe une fonctionnalité amusante permettant d’analyser les profils HN

    • Elle est utilisée pour tester l’humour du nouveau modèle
  • OpenAI se concentre sur la manière dont les entreprises utilisent réellement les LLM

    • L’objectif est le « modèle le plus intelligent », mais en pratique ils sont surtout utilisés pour l’aide à l’apprentissage, la transformation de données et l’écriture de code
    • L’équilibre entre « intelligence » et « utilité pratique » est important
  • Il est logique qu’Anthropic se concentre sur le code

    • Je me demande ce que donnera un concurrent de Devin
  • Cursor a été mis à jour vers la dernière version et "claude-3.7-sonnet" a été ajouté à la liste des modèles

    • "claude-3.7-sonnet-thinking" fonctionne aussi
    • Une fonction de contrôle du temps de réflexion devrait être ajoutée bientôt
  • La première interaction avec Claude 3.7 Sonnet a été très impressionnante

    • Il a aidé à résoudre un problème avec une fonction Pages de CloudFlare
    • Claude 3.7 a identifié précisément le problème et proposé une solution
  • Claude a réécrit la moitié d’un mémoire de licence en 30 secondes

    • Gemini Flash 2 a échoué
  • o1 pro a montré des performances étonnantes à plusieurs reprises

    • Il a aidé à relire du code MCU complexe
    • o1 pro a compris du code utilisant SPI et a signalé le problème
    • Le mode réflexion de Claude 3.7 n’a pas été très utile
    • o1 pro a aidé à résoudre un problème de VPN IPsec
    • L’utilisation se fait en comparant ChatGPT et Claude
 
riskatcher 2025-02-25

L’écart de prix est trop important pour comparer avec Flash 2.. C’est pile un niveau intermédiaire entre o1pro et o3-mini