18 points par humblebee 2025-02-25 | 5 commentaires | Partager sur WhatsApp

Anthropic a lancé Claude 3.7 Sonnet, son modèle le plus intelligent à ce jour. Il s'agit du premier modèle de raisonnement hybride du marché, capable de fournir à la fois des réponses immédiates et un processus de réflexion étape par étape visible par l'utilisateur.

Principales caractéristiques :

  • nette amélioration des performances en programmation et en développement web front-end
  • introduction du nouvel outil en ligne de commande Claude Code - il permet aux développeurs de confier directement à Claude des tâches d'ingénierie depuis le terminal
  • disponible sur toutes les offres Claude (Free, Pro, Team, Enterprise), ainsi que via l'API Anthropic, AWS Bedrock et Google Cloud Vertex AI
  • le mode de réflexion étendu est disponible sur toutes les plateformes sauf l'offre gratuite
  • tarif identique au modèle précédent : 3 $ par million de tokens en entrée, 15 $ par million de tokens en sortie (tokens de réflexion inclus)

Améliorations des performances :

  • meilleures performances obtenues sur SWE-bench Verified et TAU-bench
  • les premiers tests menés par Cursor, Cognition, Vercel, Replit et Canva ont démontré d'excellentes capacités sur la gestion de bases de code complexes, l'usage avancé d'outils, la planification et la modification de code, ainsi que les mises à jour full-stack
  • génération de code de niveau production et réduction des erreurs
  • amélioration en mathématiques, en physique et dans l'exécution des instructions

Claude Code :

  • permet de rechercher et lire du code, modifier des fichiers, écrire et exécuter des tests, commit et push du code sur GitHub, et utiliser des outils en ligne de commande
  • particulièrement utile pour le test-driven development, le débogage de problèmes complexes et les refactorings à grande échelle
  • réduit fortement le temps de développement en réalisant d'un seul coup des tâches qui prennent généralement plus de 45 minutes
  • actuellement proposé en aperçu de recherche limité

Intégration GitHub :

  • l'intégration GitHub est désormais disponible sur toutes les offres Claude
  • repose sur une compréhension plus approfondie des projets personnels, professionnels et open source
  • joue un rôle de partenaire puissant pour la correction de bugs, le développement de fonctionnalités et la rédaction de documentation
  • fournit une assistance sur l'ensemble des projets GitHub importants de l'utilisateur

Côté sécurité, les refus inutiles ont diminué de 45 % par rapport au modèle précédent, avec une capacité accrue à distinguer plus finement les requêtes nuisibles des requêtes inoffensives.

5 commentaires

 
yeorinhieut 2025-02-25

Il a aussi été ajouté à Perplexity.
Mais on dirait que le mode de raisonnement n’est pas encore utilisable..

 
bearmett 2025-02-25

J’ai installé et testé Claude Code, et je lui ai demandé un aperçu de deux projets comme dans la vidéo.

Total cost: $0.1151
Total cost: $0.0855

Donc ça consomme environ 0,2 dollar..?

Si l’exemple de la vidéo est une tâche qui prend plus de 45 minutes, ça aurait sans doute été une tâche assez coûteuse.

 
riskatcher 2025-02-25

C’est extrêmement cher, le rapport qualité-prix n’y est pas. En usage réel, j’ai plutôt l’impression que o3-mini est préférable, mais pour du codage, il semble être le meilleur dans son genre puisqu’il faut une phase de raisonnement courte et résoudre la question des tokens intermédiaires. Le prix aussi…

 
humblebee 2025-02-25

Mode de réflexion étendu (Thinking Mode - Extended)

  • Fonction permettant au modèle de réfléchir plus en profondeur par auto-réflexion avant de répondre
  • Amélioration des performances sur diverses tâches comme les mathématiques, la physique, l’exécution d’instructions et le code
  • Les utilisateurs de l’API peuvent contrôler le temps de réflexion du modèle jusqu’à 128K tokens
  • Offre la flexibilité d’ajuster l’équilibre entre la vitesse (le coût) et la qualité des réponses
  • Comme les humains qui gèrent à la fois les réactions rapides et la réflexion approfondie avec un même cerveau, le modèle propose deux modes au sein d’un seul modèle, sans modèle séparé

Il semble qu’Anthropic ait choisi une approche différente des modèles de raisonnement distincts comme o1 d’OpenAI ou R1 de DeepSeek. Il semble que les deux modes soient intégrés dans un modèle unique.

En plus, quand on demande directement au modèle la date de cutoff de ses données d’entraînement, il répond que c’est fin octobre 2024~!