Anthropic lance Claude 3.7 Sonnet
(anthropic.com)Anthropic a lancé Claude 3.7 Sonnet, son modèle le plus intelligent à ce jour. Il s'agit du premier modèle de raisonnement hybride du marché, capable de fournir à la fois des réponses immédiates et un processus de réflexion étape par étape visible par l'utilisateur.
Principales caractéristiques :
- nette amélioration des performances en programmation et en développement web front-end
- introduction du nouvel outil en ligne de commande
Claude Code- il permet aux développeurs de confier directement à Claude des tâches d'ingénierie depuis le terminal - disponible sur toutes les offres Claude (Free, Pro, Team, Enterprise), ainsi que via l'API Anthropic, AWS Bedrock et Google Cloud Vertex AI
- le mode de réflexion étendu est disponible sur toutes les plateformes sauf l'offre gratuite
- tarif identique au modèle précédent : 3 $ par million de tokens en entrée, 15 $ par million de tokens en sortie (tokens de réflexion inclus)
Améliorations des performances :
- meilleures performances obtenues sur SWE-bench Verified et TAU-bench
- les premiers tests menés par Cursor, Cognition, Vercel, Replit et Canva ont démontré d'excellentes capacités sur la gestion de bases de code complexes, l'usage avancé d'outils, la planification et la modification de code, ainsi que les mises à jour full-stack
- génération de code de niveau production et réduction des erreurs
- amélioration en mathématiques, en physique et dans l'exécution des instructions
Claude Code :
- permet de rechercher et lire du code, modifier des fichiers, écrire et exécuter des tests, commit et push du code sur GitHub, et utiliser des outils en ligne de commande
- particulièrement utile pour le test-driven development, le débogage de problèmes complexes et les refactorings à grande échelle
- réduit fortement le temps de développement en réalisant d'un seul coup des tâches qui prennent généralement plus de 45 minutes
- actuellement proposé en aperçu de recherche limité
Intégration GitHub :
- l'intégration GitHub est désormais disponible sur toutes les offres Claude
- repose sur une compréhension plus approfondie des projets personnels, professionnels et open source
- joue un rôle de partenaire puissant pour la correction de bugs, le développement de fonctionnalités et la rédaction de documentation
- fournit une assistance sur l'ensemble des projets GitHub importants de l'utilisateur
Côté sécurité, les refus inutiles ont diminué de 45 % par rapport au modèle précédent, avec une capacité accrue à distinguer plus finement les requêtes nuisibles des requêtes inoffensives.
5 commentaires
Dario Amodei, CEO d’Anthropic : le modèle DeepSeek n’est pas si impressionnant
Il a aussi été ajouté à Perplexity.
Mais on dirait que le mode de raisonnement n’est pas encore utilisable..
J’ai installé et testé Claude Code, et je lui ai demandé un aperçu de deux projets comme dans la vidéo.
Total cost: $0.1151
Total cost: $0.0855
Donc ça consomme environ 0,2 dollar..?
Si l’exemple de la vidéo est une tâche qui prend plus de 45 minutes, ça aurait sans doute été une tâche assez coûteuse.
C’est extrêmement cher, le rapport qualité-prix n’y est pas. En usage réel, j’ai plutôt l’impression que o3-mini est préférable, mais pour du codage, il semble être le meilleur dans son genre puisqu’il faut une phase de raisonnement courte et résoudre la question des tokens intermédiaires. Le prix aussi…
Mode de réflexion étendu (Thinking Mode - Extended)
Il semble qu’Anthropic ait choisi une approche différente des modèles de raisonnement distincts comme o1 d’OpenAI ou R1 de DeepSeek. Il semble que les deux modes soient intégrés dans un modèle unique.
En plus, quand on demande directement au modèle la date de cutoff de ses données d’entraînement, il répond que c’est fin octobre 2024~!