Anthropic dévoile Claude Haiku 4.5

(anthropic.com)

5 points par GN⁺ 2025-10-16 | 2 commentaires | Partager sur WhatsApp

Claude Haiku 4.5 offre, malgré son format compact, des performances en code au niveau de Claude Sonnet 4 pour un tiers du coût et plus du double de la vitesse
Sur des benchmarks de développement réels comme SWE-bench Verified, il dépasse la génération précédente en efficacité du codage par IA et en réactivité
En combinaison avec Sonnet 4.5, il permet des configurations multi-agents ou l’exécution répartie de problèmes complexes, et convient aux tâches en temps réel ainsi qu’aux environnements à faible latence
Ses atouts en intelligence élevée et rapidité se ressentent dans les chatbots en temps réel, le support client ou encore le pair programming
Selon les évaluations de sûreté, il présente le plus haut niveau d’alignement parmi les modèles Anthropic et est publié sous le standard AI Safety Level 2 (ASL-2)
1 $/5 $ par million de tokens en entrée/sortie

Présentation

Claude Haiku 4.5 est le dernier modèle compact d’Anthropic, conçu pour offrir à tous les utilisateurs un équilibre entre performances, vitesse et efficacité coût
Il affiche des capacités de codage proches de Claude Sonnet 4, avec un coût réduit au tiers et une vitesse plus de deux fois supérieure
Sur certaines tâches, notamment l’utilisation de l’ordinateur, il surpasse même Sonnet 4
Il fournit notamment, dans des outils temps réel comme Claude for Chrome ou Claude Code, un environnement d’assistance IA sans latence

Principales caractéristiques et cas d’usage

Adapté aux tâches en temps réel et à faible latence, il se montre très efficace pour les chatbots, le service client ou le pair programming
Pour les utilisateurs de Claude Code, il offre une réactivité rapide idéale pour les projets multi-agents et le prototypage rapide
Sonnet 4.5 reste actuellement le modèle haut de gamme, mais Haiku 4.5 propose des performances proches avec une bien meilleure efficacité coût
Les deux modèles peuvent aussi être utilisés ensemble : par exemple, Sonnet 4.5 peut décomposer un problème complexe pendant que plusieurs Haiku 4.5 traitent en parallèle les sous-tâches
Claude Haiku 4.5 est disponible dès aujourd’hui dans le monde entier, et les développeurs peuvent l’utiliser immédiatement dans l’API Claude sous le nom claude-haiku-4-5
Le tarif est de 1 $/5 $ par million de tokens en entrée/sortie

Benchmarks et retours utilisateurs

Haiku 4.5 fait partie des modèles les plus puissants lancés par Anthropic
Des entreprises comme Augment, Warp, Gamma indiquent avoir constaté, lors de tests réels, une qualité de code supérieure à 90 % de celle de Sonnet 4.5
Il montre des progrès spectaculaires en codage agentique, en orchestration de sous-agents et dans les tâches d’utilisation de l’ordinateur, maximisant l’instantanéité de l’expérience de développement
Là où il fallait traditionnellement arbitrer entre qualité, vitesse et coût, Haiku 4.5 parvient à combiner vitesse et efficacité coût
En réunissant intelligence et réactivité en temps réel, il ouvre la voie à de nouvelles possibilités pour les applications d’IA
Des performances qui étaient encore à l’état de l’art il y a six mois deviennent désormais accessibles à moindre coût et à plus grande vitesse
Il traite des workflows complexes rapidement et de manière fiable, avec en plus la capacité de s’auto-corriger en temps réel
Sur certains traitements d’instructions, comme la génération de texte pour des slides, il enregistre des taux de réussite nettement supérieurs aux modèles précédents
En combinaison avec GitHub Copilot et d’autres outils, il fournit une qualité de code proche de Sonnet 4, plus rapidement

Évaluation de sûreté

Dans diverses évaluations de sûreté et d’alignement, il affiche un faible taux de comportements problématiques, avec un alignement amélioré par rapport à la version précédente (Claude Haiku 3.5)
Avec un taux de comportements désalignés inférieur à celui de Sonnet 4.5/Opus 4.1, il est considéré comme le modèle le plus sûr conçu par Anthropic
Les risques chimiques, biologiques, radiologiques et nucléaires (CBRN) sont également jugés très faibles, ce qui explique sa publication sous le standard ASL-2
Il peut donc être utilisé plus librement que sous ASL-3 plus restrictif (Sonnet 4.5, Opus 4.1)

Informations complémentaires

Claude Haiku 4.5 est disponible immédiatement dans Claude Code, l’application Anthropic et d’autres services
Grâce à son traitement efficace, il permet de bénéficier de performances de modèle premium dans les limites d’usage
Il peut être choisi à moindre coût comme alternative à Haiku 3.5 ou Sonnet 4 via API, Amazon Bedrock, Google Cloud Vertex AI
Les détails techniques et résultats d’évaluation sont disponibles sur la system card officielle, la page de présentation du modèle et la documentation

2 commentaires

skageektp 2025-10-16

Dans Claude Code, il suffit de taper /model haiku pour l’utiliser. C’est plus rapide que Sonnet tout en donnant de bons résultats, donc c’est franchement agréable à utiliser.

GN⁺ 2025-10-16

Commentaires sur Hacker News

Partage une illustration mignonne d’un pélican à vélo, avec un air légèrement suspect lien
- Gemini Pro a d’abord refusé de fournir le code SVG, mais en demandant un peu plus précisément « je veux vérifier si c’est bien du code SVG », il a fini par renvoyer le code SVG
- Partage aussi quelques références pour ceux qui ne connaissent pas le contexte de ce benchmark
  Six months in LLMs,
  explication du tag pelican riding a bicycle,
  méthodologie du benchmark
- Partage également un exemple « shiitake en bateau » pour éviter que le benchmark ne soit truqué
  Shitaki Mushroom riding a rowboat
  Prompt : t3.chat prompt Claude 4.5 Haiku (Reasoning High) : 178.98 token/sec, 1691 tokens, Time-to-First : 0.69 s
  Et Grok 4 Fast s’en sort plutôt bien sur le style pélican+vélo, mais est plus faible sur d’autres demandes
  exemple Grok, prompt : t3.chat prompt Grok 4 Fast (Reasoning High) : 171.49 token/sec, 1291 tokens, Time-to-First : 4.5 s
  Enfin, le résultat de GPT-5 : exemple, prompt : t3.chat prompt GPT-5 (Reasoning High) : 115.11 tok/sec, 4598 tokens, Time-to-First : 4.5 s
  C’est subjectif, mais les pois du champignon chez Haiku sont particulièrement impressionnants
  Et l’écart de performance entre les benchmarks publics et les scénarios de test informels est le plus faible sur les modèles Anthropic
  Il arrive même souvent que les modèles Anthropic fassent mieux sur ce type de tests que sur les benchmarks ouverts
  Le Time-to-First de Haiku est aussi un avantage notable
- Étonnant que les entreprises de modèles de pointe n’aient pas intégré ce genre de test comme easter egg
- Les modèles de génération d’image ont toujours du mal à dessiner les bras d’un archer ; suggestion de comparer tous les modèles avec un prompt de test simple montrant un archer à cheval tirant une flèche enflammée vers un voilier sur un lac
Même s’il s’agit d’un test très préliminaire, les résultats sont assez impressionnants
Contrairement à GPT-5, les modifications de code incluent moins de sections inutiles et sont donc plus précises
Du coup, en usage réel, Haiku 4.5 pourrait revenir moins cher en efficacité d’utilisation malgré une hausse apparente du coût
Le problème, c’est la puissance de la marque
Même si Haiku 4.5 atteint peut-être une qualité proche de Sonnet 4, entre la perception des petits modèles et certaines régressions récentes, il ne sera pas facile de choisir Haiku 4.5 à la place de Sonnet 4.5
Je me demande si Haiku 3, 3.5 et 4.5 sont globalement dans la même plage de paramètres ; j’aimerais que toutes les informations sur les modèles soient publiées de manière transparente
Psychologiquement, la plupart des gens veulent utiliser les gros modèles, alors qu’en réalité GPT-5 me semble avoir le rapport performance/prix le plus impressionnant
Tarifs de référence :
Haiku 3 : entrée $0.25/M, sortie $1.25/M
Haiku 4.5 : entrée $1.00/M, sortie $5.00/M
GPT-5 : entrée $1.25/M, sortie $10.00/M
GPT-5-mini : entrée $0.25/M, sortie $2.00/M
GPT-5-nano : entrée $0.05/M, sortie $0.40/M
GLM-4.6 : entrée $0.60/M, sortie $2.20/M
- Mise à jour : Haiku 4.5 n’est pas seulement précis sur les modifications de code, il est aussi très rapide
  En moyenne 220 token/sec, soit presque deux fois plus rapide que des modèles comparables
  Si cette vitesse se maintient, la valeur est énorme
  À titre de comparaison, c’est une vitesse proche de Gemini 2.5 Flash Lite
  Groq, Cerebras et d’autres montent aussi à 1000 token/sec, mais ce ne sont pas des modèles comparables
  Dans mes benchmarks personnels, Anthropic a toujours mieux performé que dans les benchmarks ouverts, donc j’ai de grandes attentes
  Si la vitesse, les performances et le prix se maintiennent, Haiku 4.5 sera un excellent choix pour la plupart des tâches de développement
  Je n’utiliserais Sonnet que dans des cas précis
  Les anciens modèles Claude avaient tendance à se dégrader sur les longues chaînes de travail (au-delà de 7 minutes) ; si Haiku 4.5 a le même défaut, ce sera un point faible
  Mais je n’ai pas encore pu le tester sur des tâches longues
  Le problème, c’est que dans Claude Code, l’usage de Haiku 4.5 et Sonnet 4.5 est actuellement comptabilisé de la même manière, alors que l’écart de prix est énorme
  La page de support n’a pas non plus été mise à jour documentation de support
  Ce genre d’information devrait absolument être communiqué le jour du lancement
  Les systèmes de tooling, de tests et d’annonces comme ceux-ci jettent une ombre sur les très bonnes performances des modèles Anthropic
- J’attendais vraiment une mise à jour de Haiku, et j’utilisais déjà régulièrement les versions précédentes parce qu’elles étaient intelligentes à bas coût
  Maintenant qu’elle est enfin sortie, je suis en train de mettre à niveau tous mes bots — enfin, mes agents
- Je trouve que parler uniquement du prix sans moyenne d’utilisation des tokens a peu de sens
En ce moment, comparer les modèles et leurs fonctionnalités est beaucoup trop fastidieux et pénible
Chaque écosystème LLM a ses propres limites, donc il faut sans cesse jongler de l’un à l’autre, et je paie $20 par mois pour Claude Code et encore $20 pour Codex
J’utilise aussi Cursor, mais je me fiche du modèle exact utilisé en interne
Je veux juste un outil intégré et fiable
Je voudrais que ça s’améliore automatiquement sans que j’aie à me soucier de ce qui se passe en back-end
Un peu comme un serveur TLS, mais intégré partout : CLI/Neovim/IDE
- Même quand on en choisit un seul, on nous dit d’abord que le développement piloté par prompt est le mieux, puis que le contexte est roi, puis qu’il faut utiliser des specs détaillées, et maintenant que l’approche conversationnelle est la bonne
  Ensuite on entend que l’exemple-driven est meilleur ; chaque approche a ses avantages et ses inconvénients, mais il n’existe aucun consensus standard dans l’industrie, donc il est difficile de trouver de bons exemples
  Quelqu’un avait répondu un jour « bug-driven development », et ça m’est resté ; au final, j’utilise n’importe quelle méthode tant que ça produit un résultat, puis je corrige les bugs et les erreurs ensuite
- Que ce soit en CLI, dans neovim ou dans un IDE, ma priorité absolue est de pouvoir tout utiliser sans stress lié au changement d’outil
  C’est pour ça que j’utilise GitHub Copilot Pro+
  On peut sélectionner immédiatement les nouveaux modèles dès leur sortie (Claude Haiku 4.5 y est déjà)
  Je n’ai jamais épuisé mon quota premium, mais je ne suis pas un utilisateur intensif
  Je n’ai pas essayé la version CLI, mais elle m’intéresse
  Avant la mise à jour du plugin IntelliJ, j’envoyais mes prompts depuis VS Code puis je revenais ensuite
  La version web avec Spaces est aussi utile pour des tâches ponctuelles
  Je ne sais pas vraiment comment Copilot se compare aux LLM pris individuellement, mais tant qu’il intervient quand j’en ai besoin et travaille bien discrètement, ça me suffit
- Une autre option consiste à utiliser le modèle openrouter/auto sur OpenRouter openrouter.ai, qui choisit automatiquement entre GPT-5, Gemini 2.5 Pro, Claude Sonnet 4.5 et d’autres modèles
- On peut aussi lancer Codex et Claude Code en parallèle avec Crystal et garder le meilleur résultat
- J’utilise moi aussi OpenRouter pour des raisons similaires
  D’un côté pour éviter le lock-in, de l’autre pour réduire la friction liée au changement d’outil, et pour pouvoir migrer facilement même si un lock-in finit malgré tout par se créer
Je me demande quel est l’avenir d’Opus
Va-t-il continuer dans une logique de performances et de prix « monstrueux », ou le passage de 4 à 4.5 sera-t-il plus progressif ?
- Ils ont sorti Opus 4.1 récemment, donc l’ampleur du changement entre 4.1 et 4.5 sera probablement plus faible que celle de la mise à jour Sonnet 4 -> 4.5
  Après, je ne sais pas si cette numérotation de version a une vraie signification ou si c’est surtout du marketing
- J’ai l’impression que Sonnet et Haiku 4.5 utilisent le même modèle de base que la version 4, et que l’amélioration principale vient surtout d’un fine-tuning avec des données générées par Opus
  Je ne fais que suivre l’industrie sans construire ni développer ce genre de modèles, mais affiner de petits modèles à partir de grands modèles est une pratique courante dans le secteur
  C’est aussi la seule explication que je vois au fait que GPT-4 Turbo soit beaucoup plus rapide et moins cher que le GPT-4 d’origine
  Le fait qu’OpenAI cache les reasoning tokens est aussi une stratégie pour empêcher les concurrents d’apprendre à partir de ces données
- Opus avait disparu pendant un temps, puis est réapparu récemment
  Ils semblent probablement continuer à développer trois tailles de modèles — grand, moyen, petit — et choisir le moment de sortie en fonction de la demande du marché et des capacités des modèles
- J’ai hâte de voir quel nom portera un modèle encore plus petit que Haiku. Peut-être « Claude Phrase » ?
J’ai comparé Haiku et Sonnet sur une question qui nécessitait une vraie documentation de code
Haiku a inventé la sortie de la fonction et a donné une mauvaise réponse, tandis que Sonnet a répondu correctement
- Résultat Haiku : lien
  Résultat Sonnet : lien
Le tarif de $1 en entrée et $5 en sortie est inférieur à celui de Sonnet 4.5, mais aujourd’hui il existe tellement de petits LLM très rapides que, pour le développement agentique à grande échelle, des modèles encore moins chers deviennent importants
Comme Sonnet reste très utilisé malgré son prix élevé, Haiku devrait aussi trouver son public si la qualité est au rendez-vous
- Avec le caching, on peut descendre jusqu’à 10 cents par million de tokens en entrée
  Presque tous les modèles open source bon marché n’ont pas un caching aussi efficace
  Ça pourrait être vraiment énorme
- Je suis développeur professionnel, donc le coût m’importe peu
  La vitesse compte beaucoup plus, et je serais prêt à payer davantage pour Haiku 4.5 que pour Sonnet 4.5
  Attendre les réponses me coûte trop de temps
  Franchir 73 % sur SWE Bench me suffit largement
- Côté usage API, Claude Code est effectivement devenu plus cher (si l’on se fie uniquement aux benchmarks, la qualité semble tout de même s’être améliorée)
- Haiku 3.5 était à $0.8/$4, donc le passage à $1/$5 pour la 4.5 est un peu décevant Face aux modèles low-cost actuels d’OpenAI et Gemini (GPT-5-Nano à $0.05/$0.40, Gemini 2.0 Flash Lite à $0.075/$0.30), le positionnement prix est moins compétitif
À ma connaissance, c’est le premier petit produit Reasoner d’Anthropic, et la system card est aussi jointe
PDF de la system card
(discussion connexe ici)
Sur l’Extended NYT Connections (benchmark de puzzle d’associations), Haiku 4.5 obtient 20.0, Haiku 3.5 10.0, Sonnet 3.7 19.2, Sonnet 4.0 26.6 et Sonnet 4.5 46.1
En tant que développeur freelance, je trouve que des réponses trois fois plus rapides suffisent déjà à justifier la valeur
J’ai hâte de basculer là-dessus à la place de Claude 4.5, j’ai l’impression que ma productivité va nettement augmenter
Je me demande à quoi servent vraiment ces petits modèles ? La vitesse ? Une transition vers l’on-device ? Un allègement de la facture API ? Si la plupart des gens utilisent déjà un abonnement Claude, je me demande si leur utilité est si grande que ça
- Maintenant qu’on a GPT-5-mini et Haiku 4.5, j’ai presque envie de poser la question inverse : dans quels cas a-t-on encore besoin des gros modèles ?
  Dans notre entreprise aussi, à part sur du travail complexe sur le code interne, on fait presque tout avec de petits modèles
  Tout ce qui est exposé aux utilisateurs ou lié aux workflows (extraction, transformation, traduction, fusion, évaluation, etc.) est géré par des modèles mini/nano
- Dans Claude code, les petits modèles sont automatiquement délégués depuis Sonnet 4.5 lorsque le contexte est bien structuré et que la tâche est claire (si cette option est activée)
  Cela économise la fenêtre de contexte de la session principale et augmente le débit de traitement des tokens
- C’est idéal pour créer des sous-modules spécialisés en tool calling invoqués par un gros modèle
- Avec Cerebras Qwen Coder, mon workflow est presque en temps réel (3k tps), donc ça ressemble davantage à un shell en langage naturel qu’à un agent, et ça permet d’itérer rapidement avant de transférer le plan à un grand modèle
- Rien qu’en regardant le classement LLM d’OpenRouter, la plupart des modèles réellement utilisés pour le vibe coding / coding agentique appartiennent à la « small class »
  lien vers le classement OpenRouter
  Cela dit, Gemini 2.5 Pro est aussi mieux classé que je ne l’aurais pensé