- Claude Haiku 4.5 offre, malgré son format compact, des performances en code au niveau de Claude Sonnet 4 pour un tiers du coût et plus du double de la vitesse
- Sur des benchmarks de développement réels comme SWE-bench Verified, il dépasse la génération précédente en efficacité du codage par IA et en réactivité
- En combinaison avec Sonnet 4.5, il permet des configurations multi-agents ou l’exécution répartie de problèmes complexes, et convient aux tâches en temps réel ainsi qu’aux environnements à faible latence
- Ses atouts en intelligence élevée et rapidité se ressentent dans les chatbots en temps réel, le support client ou encore le pair programming
- Selon les évaluations de sûreté, il présente le plus haut niveau d’alignement parmi les modèles Anthropic et est publié sous le standard AI Safety Level 2 (ASL-2)
- 1 $/5 $ par million de tokens en entrée/sortie
Présentation
- Claude Haiku 4.5 est le dernier modèle compact d’Anthropic, conçu pour offrir à tous les utilisateurs un équilibre entre performances, vitesse et efficacité coût
- Il affiche des capacités de codage proches de Claude Sonnet 4, avec un coût réduit au tiers et une vitesse plus de deux fois supérieure
- Sur certaines tâches, notamment l’utilisation de l’ordinateur, il surpasse même Sonnet 4
- Il fournit notamment, dans des outils temps réel comme Claude for Chrome ou Claude Code, un environnement d’assistance IA sans latence
Principales caractéristiques et cas d’usage
- Adapté aux tâches en temps réel et à faible latence, il se montre très efficace pour les chatbots, le service client ou le pair programming
- Pour les utilisateurs de Claude Code, il offre une réactivité rapide idéale pour les projets multi-agents et le prototypage rapide
- Sonnet 4.5 reste actuellement le modèle haut de gamme, mais Haiku 4.5 propose des performances proches avec une bien meilleure efficacité coût
- Les deux modèles peuvent aussi être utilisés ensemble : par exemple, Sonnet 4.5 peut décomposer un problème complexe pendant que plusieurs Haiku 4.5 traitent en parallèle les sous-tâches
- Claude Haiku 4.5 est disponible dès aujourd’hui dans le monde entier, et les développeurs peuvent l’utiliser immédiatement dans l’API Claude sous le nom
claude-haiku-4-5
- Le tarif est de 1 $/5 $ par million de tokens en entrée/sortie
Benchmarks et retours utilisateurs
- Haiku 4.5 fait partie des modèles les plus puissants lancés par Anthropic
- Des entreprises comme Augment, Warp, Gamma indiquent avoir constaté, lors de tests réels, une qualité de code supérieure à 90 % de celle de Sonnet 4.5
- Il montre des progrès spectaculaires en codage agentique, en orchestration de sous-agents et dans les tâches d’utilisation de l’ordinateur, maximisant l’instantanéité de l’expérience de développement
- Là où il fallait traditionnellement arbitrer entre qualité, vitesse et coût, Haiku 4.5 parvient à combiner vitesse et efficacité coût
- En réunissant intelligence et réactivité en temps réel, il ouvre la voie à de nouvelles possibilités pour les applications d’IA
- Des performances qui étaient encore à l’état de l’art il y a six mois deviennent désormais accessibles à moindre coût et à plus grande vitesse
- Il traite des workflows complexes rapidement et de manière fiable, avec en plus la capacité de s’auto-corriger en temps réel
- Sur certains traitements d’instructions, comme la génération de texte pour des slides, il enregistre des taux de réussite nettement supérieurs aux modèles précédents
- En combinaison avec GitHub Copilot et d’autres outils, il fournit une qualité de code proche de Sonnet 4, plus rapidement
Évaluation de sûreté
- Dans diverses évaluations de sûreté et d’alignement, il affiche un faible taux de comportements problématiques, avec un alignement amélioré par rapport à la version précédente (Claude Haiku 3.5)
- Avec un taux de comportements désalignés inférieur à celui de Sonnet 4.5/Opus 4.1, il est considéré comme le modèle le plus sûr conçu par Anthropic
- Les risques chimiques, biologiques, radiologiques et nucléaires (CBRN) sont également jugés très faibles, ce qui explique sa publication sous le standard ASL-2
- Il peut donc être utilisé plus librement que sous ASL-3 plus restrictif (Sonnet 4.5, Opus 4.1)
Informations complémentaires
- Claude Haiku 4.5 est disponible immédiatement dans Claude Code, l’application Anthropic et d’autres services
- Grâce à son traitement efficace, il permet de bénéficier de performances de modèle premium dans les limites d’usage
- Il peut être choisi à moindre coût comme alternative à Haiku 3.5 ou Sonnet 4 via API, Amazon Bedrock, Google Cloud Vertex AI
- Les détails techniques et résultats d’évaluation sont disponibles sur la system card officielle, la page de présentation du modèle et la documentation
2 commentaires
Dans Claude Code, il suffit de taper
/model haikupour l’utiliser. C’est plus rapide que Sonnet tout en donnant de bons résultats, donc c’est franchement agréable à utiliser.Commentaires sur Hacker News
Partage une illustration mignonne d’un pélican à vélo, avec un air légèrement suspect lien
Six months in LLMs,
explication du tag pelican riding a bicycle,
méthodologie du benchmark
Shitaki Mushroom riding a rowboat
Prompt : t3.chat prompt Claude 4.5 Haiku (Reasoning High) : 178.98 token/sec, 1691 tokens, Time-to-First : 0.69 s
Et Grok 4 Fast s’en sort plutôt bien sur le style pélican+vélo, mais est plus faible sur d’autres demandes
exemple Grok, prompt : t3.chat prompt Grok 4 Fast (Reasoning High) : 171.49 token/sec, 1291 tokens, Time-to-First : 4.5 s
Enfin, le résultat de GPT-5 : exemple, prompt : t3.chat prompt GPT-5 (Reasoning High) : 115.11 tok/sec, 4598 tokens, Time-to-First : 4.5 s
C’est subjectif, mais les pois du champignon chez Haiku sont particulièrement impressionnants
Et l’écart de performance entre les benchmarks publics et les scénarios de test informels est le plus faible sur les modèles Anthropic
Il arrive même souvent que les modèles Anthropic fassent mieux sur ce type de tests que sur les benchmarks ouverts
Le Time-to-First de Haiku est aussi un avantage notable
Même s’il s’agit d’un test très préliminaire, les résultats sont assez impressionnants
Contrairement à GPT-5, les modifications de code incluent moins de sections inutiles et sont donc plus précises
Du coup, en usage réel, Haiku 4.5 pourrait revenir moins cher en efficacité d’utilisation malgré une hausse apparente du coût
Le problème, c’est la puissance de la marque
Même si Haiku 4.5 atteint peut-être une qualité proche de Sonnet 4, entre la perception des petits modèles et certaines régressions récentes, il ne sera pas facile de choisir Haiku 4.5 à la place de Sonnet 4.5
Je me demande si Haiku 3, 3.5 et 4.5 sont globalement dans la même plage de paramètres ; j’aimerais que toutes les informations sur les modèles soient publiées de manière transparente
Psychologiquement, la plupart des gens veulent utiliser les gros modèles, alors qu’en réalité GPT-5 me semble avoir le rapport performance/prix le plus impressionnant
Tarifs de référence :
Haiku 3 : entrée $0.25/M, sortie $1.25/M
Haiku 4.5 : entrée $1.00/M, sortie $5.00/M
GPT-5 : entrée $1.25/M, sortie $10.00/M
GPT-5-mini : entrée $0.25/M, sortie $2.00/M
GPT-5-nano : entrée $0.05/M, sortie $0.40/M
GLM-4.6 : entrée $0.60/M, sortie $2.20/M
En moyenne 220 token/sec, soit presque deux fois plus rapide que des modèles comparables
Si cette vitesse se maintient, la valeur est énorme
À titre de comparaison, c’est une vitesse proche de Gemini 2.5 Flash Lite
Groq, Cerebras et d’autres montent aussi à 1000 token/sec, mais ce ne sont pas des modèles comparables
Dans mes benchmarks personnels, Anthropic a toujours mieux performé que dans les benchmarks ouverts, donc j’ai de grandes attentes
Si la vitesse, les performances et le prix se maintiennent, Haiku 4.5 sera un excellent choix pour la plupart des tâches de développement
Je n’utiliserais Sonnet que dans des cas précis
Les anciens modèles Claude avaient tendance à se dégrader sur les longues chaînes de travail (au-delà de 7 minutes) ; si Haiku 4.5 a le même défaut, ce sera un point faible
Mais je n’ai pas encore pu le tester sur des tâches longues
Le problème, c’est que dans Claude Code, l’usage de Haiku 4.5 et Sonnet 4.5 est actuellement comptabilisé de la même manière, alors que l’écart de prix est énorme
La page de support n’a pas non plus été mise à jour documentation de support
Ce genre d’information devrait absolument être communiqué le jour du lancement
Les systèmes de tooling, de tests et d’annonces comme ceux-ci jettent une ombre sur les très bonnes performances des modèles Anthropic
Maintenant qu’elle est enfin sortie, je suis en train de mettre à niveau tous mes bots — enfin, mes agents
En ce moment, comparer les modèles et leurs fonctionnalités est beaucoup trop fastidieux et pénible
Chaque écosystème LLM a ses propres limites, donc il faut sans cesse jongler de l’un à l’autre, et je paie $20 par mois pour Claude Code et encore $20 pour Codex
J’utilise aussi Cursor, mais je me fiche du modèle exact utilisé en interne
Je veux juste un outil intégré et fiable
Je voudrais que ça s’améliore automatiquement sans que j’aie à me soucier de ce qui se passe en back-end
Un peu comme un serveur TLS, mais intégré partout : CLI/Neovim/IDE
Ensuite on entend que l’exemple-driven est meilleur ; chaque approche a ses avantages et ses inconvénients, mais il n’existe aucun consensus standard dans l’industrie, donc il est difficile de trouver de bons exemples
Quelqu’un avait répondu un jour « bug-driven development », et ça m’est resté ; au final, j’utilise n’importe quelle méthode tant que ça produit un résultat, puis je corrige les bugs et les erreurs ensuite
C’est pour ça que j’utilise GitHub Copilot Pro+
On peut sélectionner immédiatement les nouveaux modèles dès leur sortie (Claude Haiku 4.5 y est déjà)
Je n’ai jamais épuisé mon quota premium, mais je ne suis pas un utilisateur intensif
Je n’ai pas essayé la version CLI, mais elle m’intéresse
Avant la mise à jour du plugin IntelliJ, j’envoyais mes prompts depuis VS Code puis je revenais ensuite
La version web avec
Spacesest aussi utile pour des tâches ponctuellesJe ne sais pas vraiment comment Copilot se compare aux LLM pris individuellement, mais tant qu’il intervient quand j’en ai besoin et travaille bien discrètement, ça me suffit
D’un côté pour éviter le lock-in, de l’autre pour réduire la friction liée au changement d’outil, et pour pouvoir migrer facilement même si un lock-in finit malgré tout par se créer
Je me demande quel est l’avenir d’Opus
Va-t-il continuer dans une logique de performances et de prix « monstrueux », ou le passage de 4 à 4.5 sera-t-il plus progressif ?
Après, je ne sais pas si cette numérotation de version a une vraie signification ou si c’est surtout du marketing
Je ne fais que suivre l’industrie sans construire ni développer ce genre de modèles, mais affiner de petits modèles à partir de grands modèles est une pratique courante dans le secteur
C’est aussi la seule explication que je vois au fait que GPT-4 Turbo soit beaucoup plus rapide et moins cher que le GPT-4 d’origine
Le fait qu’OpenAI cache les reasoning tokens est aussi une stratégie pour empêcher les concurrents d’apprendre à partir de ces données
Ils semblent probablement continuer à développer trois tailles de modèles — grand, moyen, petit — et choisir le moment de sortie en fonction de la demande du marché et des capacités des modèles
J’ai comparé Haiku et Sonnet sur une question qui nécessitait une vraie documentation de code
Haiku a inventé la sortie de la fonction et a donné une mauvaise réponse, tandis que Sonnet a répondu correctement
Résultat Sonnet : lien
Le tarif de $1 en entrée et $5 en sortie est inférieur à celui de Sonnet 4.5, mais aujourd’hui il existe tellement de petits LLM très rapides que, pour le développement agentique à grande échelle, des modèles encore moins chers deviennent importants
Comme Sonnet reste très utilisé malgré son prix élevé, Haiku devrait aussi trouver son public si la qualité est au rendez-vous
Presque tous les modèles open source bon marché n’ont pas un caching aussi efficace
Ça pourrait être vraiment énorme
La vitesse compte beaucoup plus, et je serais prêt à payer davantage pour Haiku 4.5 que pour Sonnet 4.5
Attendre les réponses me coûte trop de temps
Franchir 73 % sur SWE Bench me suffit largement
À ma connaissance, c’est le premier petit produit Reasoner d’Anthropic, et la system card est aussi jointe
PDF de la system card
(discussion connexe ici)
Sur l’Extended NYT Connections (benchmark de puzzle d’associations), Haiku 4.5 obtient 20.0, Haiku 3.5 10.0, Sonnet 3.7 19.2, Sonnet 4.0 26.6 et Sonnet 4.5 46.1
En tant que développeur freelance, je trouve que des réponses trois fois plus rapides suffisent déjà à justifier la valeur
J’ai hâte de basculer là-dessus à la place de Claude 4.5, j’ai l’impression que ma productivité va nettement augmenter
Je me demande à quoi servent vraiment ces petits modèles ? La vitesse ? Une transition vers l’on-device ? Un allègement de la facture API ? Si la plupart des gens utilisent déjà un abonnement Claude, je me demande si leur utilité est si grande que ça
Dans notre entreprise aussi, à part sur du travail complexe sur le code interne, on fait presque tout avec de petits modèles
Tout ce qui est exposé aux utilisateurs ou lié aux workflows (extraction, transformation, traduction, fusion, évaluation, etc.) est géré par des modèles mini/nano
Cela économise la fenêtre de contexte de la session principale et augmente le débit de traitement des tokens
lien vers le classement OpenRouter
Cela dit, Gemini 2.5 Pro est aussi mieux classé que je ne l’aurais pensé