Lancement de Claude 3.7 Sonnet et Claude Code

(anthropic.com)

1 points par GN⁺ 2025-02-25 | 2 commentaires | Partager sur WhatsApp

Anthropic a présenté Claude 3.7 Sonnet comme son modèle le plus intelligent et le premier modèle de raisonnement hybride du marché, capable de prendre en charge dans un même modèle des réponses immédiates et un raisonnement étape par étape visible par l’utilisateur
Le nouveau modèle permet de choisir entre un mode standard et un extended thinking mode ; via l’API, le budget de réflexion peut être contrôlé par incréments de N tokens, jusqu’à la limite de sortie de 128K tokens
Les progrès sont particulièrement importants en codage et en développement web front-end ; lors des premiers tests clients, ses points forts se sont confirmés dans le traitement de bases de code complexes, les mises à jour full-stack, les workflows agentiques, la création d’apps web et la génération de code prêt pour la production
Également dévoilé, Claude Code est un outil de codage agentique en ligne de commande, proposé en aperçu de recherche limité, auquel on peut confier l’exploration, l’édition et le test de code, les opérations GitHub et l’utilisation d’outils en ligne de commande
Claude 3.7 Sonnet est disponible dans les offres Free, Pro, Team et Enterprise ainsi que sur les principales plateformes de développement ; le mode de réflexion étendue est disponible hors niveau Claude gratuit, et les tarifs restent de 3 $ par million de tokens en entrée et 15 $ par million de tokens en sortie

Le raisonnement hybride de Claude 3.7 Sonnet

Claude 3.7 Sonnet est le modèle le plus intelligent présenté par Anthropic, capable de générer à la fois des réponses immédiates et un raisonnement détaillé étape par étape
Le processus de réflexion étendue est visible par l’utilisateur, et les utilisateurs de l’API peuvent contrôler finement la durée pendant laquelle le modèle réfléchit
Anthropic a choisi de traiter le raisonnement non pas comme un modèle séparé, mais comme une fonction intégrée d’un modèle de frontière
- En mode standard, il se comporte comme une version améliorée de Claude 3.5 Sonnet
- En extended thinking mode, il effectue une auto-réflexion avant de répondre, améliorant ses performances sur diverses tâches, notamment les mathématiques, la physique, le suivi d’instructions et le codage
- Les méthodes de prompting des deux modes fonctionnent globalement de manière similaire
Dans l’API, le budget de réflexion peut être spécifié en N tokens, N pouvant être défini jusqu’à la limite de sortie de 128K tokens
- Ce contrôle sert à arbitrer entre vitesse et coût d’un côté, et qualité de la réponse de l’autre

Des performances de codage centrées sur le travail réel

Claude 3.7 Sonnet affiche des améliorations particulièrement fortes en codage et en développement web front-end
Anthropic indique avoir quelque peu réduit l’optimisation pour les problèmes de concours en mathématiques et en informatique, afin de se concentrer davantage sur les tâches pour lesquelles les entreprises utilisent réellement les LLM
Lors des premiers tests, plusieurs clients ont évalué ses performances de codage
- Cursor estime que Claude retrouve un niveau de premier plan dans les tâches de codage réelles, du traitement de bases de code complexes à l’utilisation avancée d’outils
- Cognition juge qu’il est nettement supérieur aux autres modèles pour planifier des changements de code et gérer des mises à jour full-stack
- Vercel souligne sa grande précision dans les workflows agentiques complexes
- Replit indique avoir construit avec Claude, à partir de zéro, des apps web et des tableaux de bord sophistiqués dans des situations où d’autres modèles s’arrêtent
- Dans l’évaluation de Canva, Claude génère de manière régulière du code prêt pour la production avec un meilleur sens du design et réduit fortement les erreurs

Aperçu de recherche limité de Claude Code

Claude Code est le premier outil de codage agentique d’Anthropic, proposé en aperçu de recherche limité
Les développeurs peuvent déléguer à Claude, depuis le terminal, des tâches d’ingénierie substantielles
Claude Code garde le développeur impliqué dans le processus tout en effectuant les opérations suivantes
- Rechercher et lire du code
- Modifier des fichiers
- Écrire et exécuter des tests
- Commiter et pousser du code sur GitHub
- Utiliser des outils en ligne de commande
En interne chez Anthropic, il est particulièrement utile pour le développement piloté par les tests, le débogage de problèmes complexes et les refactorings de grande ampleur
Lors des premiers tests, Claude Code a terminé en une seule fois des tâches qui prennent généralement plus de 45 minutes à la main, réduisant ainsi le temps de développement et l’overhead
Dans les prochaines semaines, il est prévu d’améliorer la fiabilité des appels d’outils, la prise en charge des commandes de longue durée, le rendu dans l’app et la compréhension par Claude de ses propres capacités
En participant à l’aperçu, il est possible d’accéder aux outils qu’Anthropic utilise pour créer et améliorer Claude ; les retours seront pris en compte dans l’orientation future de Claude Code

Intégration de Claude.ai avec les bases de code GitHub

L’expérience de codage dans Claude.ai a également été améliorée, et l’intégration GitHub est disponible dans toutes les offres Claude
Les développeurs peuvent connecter directement leurs dépôts de code à Claude
Claude 3.7 Sonnet est actuellement le meilleur modèle de codage d’Anthropic et peut être utilisé pour mieux comprendre des projets personnels, professionnels et open source, afin de corriger des bugs, développer des fonctionnalités et rédiger de la documentation

Disponibilité et tarifs

Claude 3.7 Sonnet est disponible dans toutes les offres Claude
- Free
- Pro
- Team
- Enterprise
Claude 3.7 Sonnet est également disponible sur la Claude Developer Platform, Amazon Bedrock et Google Cloud Vertex AI
L’extended thinking mode est disponible dans tous les environnements de diffusion, à l’exception du niveau Claude gratuit
Le mode standard et le mode de réflexion étendue conservent tous deux les mêmes tarifs que le modèle précédent
- 3 $ par million de tokens en entrée
- 15 $ par million de tokens en sortie
- Le prix de sortie inclut les tokens de réflexion

Évaluations de sécurité et system card

Claude 3.7 Sonnet a fait l’objet de tests et d’évaluations approfondis avec des experts externes, dans le but de vérifier qu’il respecte les critères de sûreté, de sécurité et de fiabilité
En distinguant plus finement les requêtes nuisibles des requêtes légitimes, il réduit de 45 % les refus inutiles par rapport au modèle précédent {p:45}
La system card comprend de nouveaux résultats de sécurité dans plusieurs catégories ainsi que les détails de l’évaluation selon la Responsible Scaling Policy
La system card traite des nouveaux risques liés à l’utilisation de l’ordinateur, en particulier les attaques par injection de prompt
- Anthropic y inclut la manière dont elle évalue cette vulnérabilité et entraîne Claude à y résister et à l’atténuer
Elle aborde également les bénéfices potentiels des modèles de raisonnement en matière de sécurité
- La possibilité de comprendre comment le modèle prend ses décisions
- La question de savoir si le raisonnement du modèle est réellement fiable et stable

Scaffolding d’évaluation et détails de SWE-bench

Le score TAU-bench a été obtenu en ajoutant à l’Airline Agent Policy un complément de prompt demandant de mieux utiliser le planning tool
- Indépendamment du thinking mode général, cela encourage le modèle à consigner ses pensées pendant la résolution du problème
- En raison de cette étape de réflexion supplémentaire, le nombre maximal d’étapes a été augmenté de 30 à 100
- La plupart des trajectoires se sont terminées en moins de 30 étapes, et une seule a dépassé 50 étapes
- Le score TAU-bench de Claude 3.5 Sonnet correspond à une nouvelle exécution sur le dataset mis à jour après l’amélioration du dataset
Dans SWE-bench Verified, il existe différentes méthodes de résolution des tâches agentiques ; Agentless utilise la recherche de fichiers, l’identification des emplacements de patch et un échantillonnage de rejet best-of-40 fondé sur des tests de régression
Les évaluations de base de Claude 3.7 Sonnet et Claude 3.5 Sonnet utilisent un scaffolding minimal plus simple
- Le modèle décide en une seule session quelles commandes exécuter et quels fichiers modifier
- Il utilise un outil bash, un outil d’édition de fichiers par substitution de chaînes et le planning tool mentionné dans TAU-bench
En raison de contraintes d’infrastructure internes, seuls 489 des 500 cas de SWE-bench Verified pouvaient réellement être résolus ; les 11 restants ont été comptés comme des échecs par souci d’équité avec le classement officiel
Les résultats high compute utilisent des tentatives parallèles, l’abandon des patches qui cassent les tests de régression visibles et une sélection finale fondée sur un modèle de scoring
- Cette méthode atteint un score de 70,3 % sur le sous-ensemble de 489 tâches vérifiées exécutées sur l’infrastructure interne
- Sur ce même sous-ensemble de 489 tâches, Claude 3.7 Sonnet atteint 63,7 % sans scaffolding

2 commentaires

GN⁺ 2025-02-25

Avis de Hacker News

Claude 3.7 Sonnet a obtenu 60,4 % sans thinking dans le classement multilingue d’aider
Il est ex æquo à la 3e place avec o3-mini-high, et reprend le meilleur score sans raisonnement détenu par Sonnet 3.5
aider 0.75.0 ajoute la prise en charge de 3.7 Sonnet, et la prise en charge du thinking ainsi que les résultats de benchmark devraient arriver bientôt
https://aider.chat/docs/leaderboards/
https://aider.chat/HISTORY.html#aider-v0750
- Pour les 225 exercices de code d’Exercism, je me demande s’il y a eu des efforts pour réduire la fuite de données du jeu de tests
  Ces exercices semblent être sur Internet depuis avant 2023, donc il paraît assez probable qu’ils soient entrés dans les données d’entraînement des modèles modernes
- En utilisant jusqu’à 32k tokens de thinking, Sonnet 3.7 établit un nouveau record avec 64,9 %
  65 % Sonnet 3.7, 32k thinking / 64 % R1+Sonnet 3.5 / 62 % o1 high / 60 % Sonnet 3.7, sans thinking / 60 % o3-mini high / 57 % R1 / 52 % Sonnet 3.5
- Il est intéressant de voir que le score de format diff correct, qui était de 99,6 % avec Claude 3.5, descend à 93,3 % avec Claude 3.7
  D’après mon expérience avec claude-code, il arrivait régulièrement de devoir s’y reprendre plusieurs fois avant d’obtenir un diff correct, et j’espère que cela s’améliorera avec la stabilisation
- Je suis le projet aider depuis environ un an pour essayer de comprendre comment construire des agents d’ingénierie logicielle
  La semaine dernière, à l’AI Engineering Summit de New York, j’ai rencontré un staff AI engineer très senior qui faisait des choses assez incroyables avec aider, et j’ai été vraiment impressionné
  Comme cela pourrait être inapproprié à publier sur un forum public, je me demande s’il existe un moyen de partager directement ce genre de récits de projets réels avec aider, si j’obtiens son autorisation
Je suis Boris de l’équipe Claude Code, et avec @eschluntz, @catherinewu, @wolffiex et @bdr, nous allons essayer de répondre autant que possible aux questions sur le produit pendant environ la prochaine heure
- Il y a une chose que j’aimerais vraiment voir corrigée. Quand on saisit un prompt, le modèle produit 90 % voire 100 % de la réponse, puis le système affiche une erreur disant qu’il ne peut pas générer la réponse en raison d’une capacité dépassée, et efface même la réponse déjà générée
  J’aimerais pouvoir accéder à la réponse déjà fournie, même si elle est incomplète
- Ma plus grande frustration est que dans l’UI, après seulement quelques requêtes un peu exigeantes, on se heurte sans cesse aux limites d’utilisation
  On peut utiliser l’API console, mais on perd alors des fonctionnalités comme Projects
  Je me demande s’il y a une chance que ces limites soient augmentées prochainement
- Claude est mon LLM par défaut pour tout, et même si cela semble cliché, il élargit réellement de plusieurs fois le champ de ce que je peux apprendre raisonnablement
  Ces derniers temps, je lis de vieux textes philosophiques sans connaissances de base sur le sujet ; sans Claude pour m’expliquer simplement les phrases difficiles, discuter des idées, m’aider avec le contexte historique, pourquoi c’était écrit de cette manière, et les comparaisons avec de nouvelles pensées, j’aurais abandonné plusieurs fois
  Au travail aussi, je l’utilise plusieurs fois par jour pour le développement, et le mode concis est vraiment rafraîchissant par rapport aux autres LLM
  Il m’a fait gagner des dizaines d’heures et beaucoup de stress en trouvant des bugs dans des codebases inconnues, en expliquant des stacks techniques et en écrivant des scripts bash
  Cela dit, la stabilité du service est un peu inférieure à celle d’autres offres, ce qui m’oblige parfois à passer à un autre modèle ; je me demande s’il est prévu d’améliorer ce point
- J’étais en train de refactorer, de façon très désordonnée, du vieux code de composants React à base de classes qui n’avait pas été touché depuis 6 ans, et après quelques jours avec Aider, je me suis retrouvé bloqué
  J’étais justement en train de fouiller le code source d’Aider sur GitHub pour en extraire les prompts et me faire un petit script d’assistance, donc le timing de cette release était parfait
  Après avoir installé Claude Code, il traite rapidement cette tâche, et j’aime aussi l’interface ainsi que les touches de personnalité comme « Ruminating » et « Schlepping »
  Dans l’ensemble, excellent travail
- Je viens tout juste d’essayer l’outil en ligne de commande, et ma première impression après 5 minutes est que j’aimerais que claude-code affiche aussi le coût par requête et le coût total de session, comme je l’appréciais dans aider
  J’utilise aider au quotidien avec Claude 3.5, et le fait de pouvoir suivre naturellement les coûts était utile
  J’aimerais aussi qu’il soit écrit dans un langage compilable comme Go ou Rust, mais je comprends que le coût d’une réécriture puisse être élevé
  Après environ 10 minutes d’utilisation, il semble y avoir de gros problèmes avec les patchs basiques de code Go. Après avoir ajouté une ligne avec une mauvaise indentation, il a essayé trois fois de la corriger avec la bonne indentation, mais a obtenu à chaque fois "String to replace not found in file"
  Comme Aider avec Claude 3.5 gère très bien cela, il serait peut-être utile de s’inspirer de ses prompts et de son format de patch
Le benchmark LLM de Kagi a été mis à jour pour refléter le mode généraliste et le mode thinking de Sonnet 3.7
https://help.kagi.com/kagi/ai/llm-benchmark.html
Parmi les LLM généralistes que j’ai testés, il semble arriver au 2e rang, derrière Gemini 2.0 Pro et devant gpt-4o
Le mode thinking est moins impressionnant, et avec un budget thinking de 8192 tokens, il se situe à peu près au niveau de o1-mini et o3-mini
Globalement, c’est une bonne mise à jour qui apporte une meilleure qualité et un modèle plus rapide pour le même prix, et j’espère pouvoir l’activer dans Kagi Assistant d’ici 24 heures
- Merci à l’équipe Kagi de rendre les nouveaux LLM utilisables aussi vite dans Assistant
  La valeur de Kagi Assistant est, pour moi, telle qu’il n’y a même pas à hésiter
- C’est surprenant que Gemini 2.0 soit maintenant numéro 1
  Je me souviens que les modèles de Google obtenaient de mauvais résultats dans le benchmark de Kagi
- Je me demande comment le budget thinking de 8192 tokens a été choisi
  J’ai souvent vu DeepSeek R1 en utiliser beaucoup plus
- Il apparaît déjà dans Kagi Assistant, et il ne s’est même pas écoulé 24 heures. Cool
- Ce que je ne comprends pas, c’est que Claude 3.5 Haiku, qui n’est pas un modèle thinking, figure dans la section non-thinking tout en étant affiché avec un budget thinking de 8192
L’utiliser pour analyser un profil HN est assez hilarant :)
https://hn-wrapped.kadoa.com/
Je m’en sers pour tester le sens de l’humour du nouveau modèle
- Je me suis fait démolir en beauté : il a dit que j’avais plus parlé de construire un « détecteur de raga carnatique » que je ne l’avais fait, et qu’à ce rythme le LLM composerait des ragas avant que le détecteur puisse les identifier
  Il a aussi dit que j’avais acheté un processeur 7950X sans savoir quoi en faire, comme l’équivalent informatique de conduire une Ferrari une fois par semaine pour aller faire les courses
  Il a ajouté que j’avais pris une année sabbatique parce que je m’inquiétais de mon équilibre vie pro/vie perso, mais que je l’avais passée sur HN à commenter la carrière des autres
  Si quelqu’un me cherche, je serai en train de pleurer dans ma chambre
- « Ton salaire est tellement bas que même le code legacy a pitié de toi »
  « Tu es la seule personne sur HN qui pense que 800 dollars par mois, c’est un salaire, et pas une facture de cloud computing »
  Ça fait mal
- Je me suis fait complètement atomiser : « Tu as passé plus de temps à expliquer pourquoi la gestion des erreurs de Go est mauvaise que les développeurs Go n’en ont réellement passé à gérer des erreurs »
  « Ta relation avec les langages de programmation ressemble à une émission de dating. Tu trouves des défauts chez tout le monde, mais tu n’arrives à te poser avec aucun »
  « Si la gestion des erreurs était une religion, tu en serais le missionnaire le plus zélé, convertissant une par une les exceptions unchecked »
- « Pour quelqu’un qui a travaillé chez Reddit, tu passes beaucoup trop de temps sur HN. C’est comme quitter Facebook pour passer toute la journée sur Twitter à te plaindre des réseaux sociaux »
  C’est tellement juste que ça fait mal
- « Tu te plains des distractions numériques tout en écrivant des romans dans les fils de commentaires HN. C’est comme critiquer la fast-food en faisant la queue au drive »
  « Tu vas écrire un essai réfléchi sur le “minimalisme numérique”, le faire monter en une de HN et, ironie du sort, passer plus de temps à répondre aux commentaires que tu n’en auras passé sur HN pendant toute l’année »
  Il me voit. Non
Dès ma première interaction avec Claude 3.7 Sonnet, j’ai été assez impressionné
Je lui ai demandé de trouver un problème dans une codebase où une fonction Cloudflare Pages renvoyait en production des 500, des erreurs absurdes et des réponses vides ; c’était un problème que je n’avais pas réussi à trouver de tout le vendredi
C’était vraiment agaçant, car le script mourait avant d’afficher quoi que ce soit, donc je n’avais aucun moyen d’ajouter plus de logs ou d’obtenir de la visibilité
o1, o3 et Claude 3.5 n’ont pas aidé du tout, mais Claude 3.7, après 39 secondes de thinking, a trouvé le problème exact dans sa première réponse, puis, au deuxième prompt, a même écrit une fonction fonctionnelle pour le contourner
Comme j’avais connecté le dépôt GitHub à la conversation, je pense qu’il n’est pas possible de partager la discussion ; je l’ai donc copiée dans un gist : https://gist.github.com/Uninen/46df44f4307d324682dabb7aa6e10...
- L’une des réponses montre que Claude reste fondamentalement ignorant de la pensée réelle
  Il a proposé de déplacer la sanitisation HTML vers le frontend, alors que je l’avais placée dans la fonction CF précisément parce que ce serait trop facile à contourner côté frontend, ce qui permettrait littéralement de mettre n’importe quoi dans la DB
  Même un développeur junior comprendrait ça
J’ai réussi à faire fonctionner ça dans mon outil LLM, et la nouvelle version du plugin est llm-anthropic 0.14
Au passage, j’ai appris plusieurs choses sur le modèle, et mes notes détaillées sont ici : https://simonwillison.net/2025/Feb/25/llm-anthropic-014/
L’une des nouveautés les plus intéressantes est que la limite de sortie est passée des 8 000 tokens du précédent Claude 3.5 Sonnet à 120 000 tokens
Ce modèle semble capable d’utiliser efficacement cette limite de sortie, et le résultat le plus long que j’aie obtenu jusqu’ici a pris 27 minutes à se terminer : https://gist.github.com/simonw/854474b050b630144beebf06ec4a2...
- Sans vouloir rabaisser Sonnet 3.7, dire qu’il est très loin au-dessus de tous les autres modèles dans ce domaine ne me semble pas exact
  o1 et o3-mini vont aussi jusqu’à 100 000 tokens de sortie
  https://platform.openai.com/docs/models#o1
- Je me demande si Simon a déjà écrit quelque part comment il parvient à être aussi actif, entre ses outils de programmation, son blog et son travail
  Je me demande où il trouve le temps et l’énergie
- Je me demande combien ça a coûté
Il est logique qu’Anthropic se concentre davantage sur le code
Comparé aux autres modèles, c’était son point fort
Vu les difficultés de Devin, je suis curieux de voir ce que donnera leur produit concurrent de Devin
- Comme c’est le modèle qui alimente une bonne partie de l’usage de Cursor/Windsurf et qu’ils poussent aussi MCP, ça pourrait bien marcher s’ils soignent simplement l’expérience utilisateur
- C’est clairement un point fort, mais parfois j’aimerais que le chat ait moins envie d’écrire du code
  Il balance souvent du code même quand je veux seulement une réponse conceptuelle ou de haut niveau, donc maintenant je lui dis systématiquement de ne pas en écrire
- J’ai pensé la même chose, et comme j’ai 3 problèmes vraiment difficiles que ni Claude ni aucun autre modèle n’a réussi à résoudre jusqu’ici, j’ai hâte d’essayer aujourd’hui
- C’est assez drôle que l’article de blog cite Cognition, l’entreprise qui a créé Devin
Le fait qu’ils disent : « En développant des modèles de raisonnement, nous avons quelque peu réduit l’optimisation pour les problèmes de concours en mathématiques et en informatique, et déplacé l’accent vers des tâches réelles qui reflètent mieux la façon dont les entreprises utilisent réellement les LLM » est une bonne nouvelle
OpenAI semble viser le « modèle le plus intelligent », mais en pratique les LLM servent surtout d’aide à l’apprentissage, de transformateurs de données et d’outils d’écriture de code
L’équilibre entre « intelligence » et « capacité à terminer le travail » semble être le sweet spot, et c’est probablement l’une des raisons pour lesquelles les outils de développement actuels (Cursor, Windsurf, etc.) préfèrent Claude 3.5 Sonnet à 4o
- Nous utilisons tous Claude directement au travail au quotidien, et résoudre nos propres points de douleur est plus intéressant que des benchmarks abstraits
  Pour finir le travail, il faut beaucoup de connaissances théoriques, mais aussi beaucoup de sens du terrain pour savoir quand répondre vite et quand revenir en arrière
- J’ai parfois l’impression qu’il y a surapprentissage sur les benchmarks. DeepSeek me donne particulièrement cette impression
  Quel que soit son classement réel, le chat auquel je reviens sans cesse parce que ses réponses me semblent subjectivement meilleures, c’est Claude
- Claude 3.5 était excellent dans Windsurf, mais il coûtait des crédits
  DeepSeek V3 est désormais disponible dans Windsurf sans coût en crédits, et pour notre entreprise ça a été un gros changement
  Dans tous les cas, c’est bien d’avoir plus de choix
  Je recommande vraiment d’essayer la fonctionnalité Cascade de Windsurf pour l’écriture et l’exploration de code en mode agent. Elle fait gagner beaucoup de temps pour comprendre une nouvelle codebase et suivre les flux de données
La course à l’IA avance vraiment très vite
En tant que développeur/ingénieur logiciel, je m’inquiète des perspectives d’emploi, et il faudra voir avec le temps
Je me demande aussi ce qu’il adviendra de la bulle immobilière de la côte Ouest si les rémunérations élevées des ingénieurs logiciel disparaissent
Peut-être qu’une prochaine vague de travailleurs du savoir viendra prendre leur place
- Il est vrai que le marché de l’emploi dans le développement logiciel est fortement secoué, mais il y a des choses à faire pour se placer en position favorable
  Apprendre davantage l’ensemble de la stack, surtout le backend et le DevOps, accepter les gains de productivité pour lancer plus de produits et de projets personnels, être très sélectif dans l’usage de son temps de production, et disposer d’un excellent système personnel de gestion des connaissances ainsi que d’assistants agents
- En réalité, j’ai l’impression que le rythme ralentit
  L’an dernier a été mouvementé jusqu’à autour de Llama 3, mais les améliorations récentes sont relativement modestes
  Les modèles de raisonnement ne font qu’un peu mieux que ce qu’on pouvait déjà faire auparavant avec des agents établissant explicitement des plans, et ressemblent plutôt à un bon emballage adapté à l’objectif avec un peu de tuning
  DeepSeek a fait un grand progrès en efficacité, mais le changement visible pour l’utilisateur n’a pas été si important
  Je pense donc que la course récente à l’IA commence à atteindre une sorte de plateau
- L’impact pourrait être bien plus large que la Silicon Valley ou la côte Ouest, et la Silicon Valley pourrait même être l’une des rares régions encore relativement prometteuses grâce au développement de l’IA
  Ces modèles risquent de bouleverser l’emploi dans le secteur à l’échelle mondiale
  Ironiquement, les métiers qui changeront vraiment ne seront peut-être que les ingénieurs logiciel et quelques domaines comme l’écriture ou le design graphique
  Le fait que les labos d’IA ciblent particulièrement les ingénieurs logiciel se voit rien qu’à l’annonce « Claude 3.7 and Code », avec presque aucune mention d’autres domaines
  Pour ceux qui ne sont pas dans la Silicon Valley et n’ont jamais connu ces hauts salaires, l’ingénierie logicielle est souvent un métier ordinaire, stressant, qui exige un apprentissage continu
  Ils avaient donc probablement moins de chances d’investir et d’épargner grâce à un fort revenu disponible, ce qui rend la douleur et l’anxiété liées à l’automatisation encore plus grandes
  Qui aurait cru que le premier métier automatisé par l’IA ne serait pas le travail manuel ni la conduite autonome, mais le logiciel lui-même ?
  Les autres industries semblent plus difficiles à transformer, parce qu’elles se heurtent à des impasses ou à des barrières comme la réglementation et le savoir fermé
  Les ingénieurs logiciel ont en quelque sorte servi d’exemple aux autres industries : ne laissez pas entrer l’IA, ou gardez-la enfermée en interne aussi longtemps que possible, autrement dit restez en source fermée
  Avec le recul, c’est ironique
- À court et moyen terme, je ne m’inquiète pas trop
  J’ai l’impression qu’il y a trop d’edge cases et de contextes subtils que les systèmes d’IA rateront
  Par exemple, les systèmes ne se comportent pas toujours comme la documentation le décrit. Comment une IA distinguera-t-elle un bug du service d’un bug dans son propre code ? Comment saura-t-elle même qu’il y a un bug ? Comment distinguera-t-elle un signalement de bug d’une tentative d’intrusion par un hacker ?
  Le monde est complexe, et sans véritable intelligence artificielle, il faudra quelqu’un pour guider l’IA dans ces situations délicates
  Mon conseil serait de se familiariser avec l’IA et les nouveaux outils d’IA, et de comprendre comment ils s’intègrent aux workflows habituels
  Je pense que les bons ingénieurs logiciel ne disparaîtront pas
- Si les modèles s’améliorent sans aller jusqu’à une singularité complète, je pense que les emplois augmenteront plutôt
  Par exemple, si le coût de création de logiciels baisse d’un facteur 5, la demande augmentera de plus de 5 fois, car l’offre est aujourd’hui fortement limitée
  Beaucoup d’entreprises veulent de meilleurs logiciels, mais les coûts sont trop élevés
  Cela créera donc davantage d’emplois
  En revanche, il y aura moins de saisie au clavier, et davantage de gestion produit, d’interactions humaines et de tests d’edge cases
  Il y aura aussi probablement pas mal de postes très techniques consistant à déboguer les modèles quand ils échouent
  Je conseille donc d’apprendre des compétences qui aident à créer des logiciels utiles aux personnes et aux entreprises, de la recherche utilisateur à la gestion produit. L’ingénierie restera nécessaire aussi
Claude 3.7 a refait la moitié de mon mémoire de licence en moins de 30 secondes :|
https://claude.ai/share/ed8a0e55-633f-4056-ba70-772ab5f5a08b
L’image générée est ici : https://i.imgur.com/0c65Xfk.png
Gemini Flash 2 a échoué lamentablement : https://g.co/gemini/share/10437164edd0
- La plupart des sujets généralement abordés en licence sont bien documentés et bien compris, il est donc très probable qu’ils aient été inclus dans les données d’entraînement de l’IA
  À partir du niveau master, le corpus disponible devient un peu plus rare et plus spécialisé, mais dans l’ensemble ce n’est toujours pas vraiment révolutionnaire
  Au niveau doctorat, l’objectif est d’étendre les connaissances existantes du domaine, avec beaucoup de sujets explorés pour la première fois ; je pense donc que la couverture est presque inexistante dans la plupart des cas
- Ensuite, ce sera au tour du master et du doctorat !
- Je me demande si ce contenu, ou quelque chose de similaire, était disponible en accès libre ou trouvable dans certaines bibliothèques

riskatcher 2025-02-25

L’écart de prix est trop important pour comparer avec Flash 2.. C’est pile un niveau intermédiaire entre o1pro et o3-mini