- Cerebras dévoile le modèle d’IA Qwen3-235B, offrant des performances d’inférence instantanée avec une génération de 1 500 tokens par seconde
- Productivité et génération de code jusqu’à 30 fois plus rapides, pour un coût 10 fois inférieur à celui des modèles fermés existants
- Prise en charge d’un contexte de 131K, permettant le traitement de grandes bases de code et de documents complexes
- En partenariat avec Cline, extension de l’expérience de génération de code en temps réel dans Microsoft VS Code
- Avec ce lancement, une alternative à OpenAI et Anthropic basée sur l’open source propose de hautes performances à un coût raisonnable
Qwen3-235B : lancement du modèle d’inférence IA ultra-rapide de Cerebras et principales avancées
Le modèle d’inférence IA le plus rapide au monde dévoilé sur Cerebras Inference Cloud
- Cerebras Systems a officiellement lancé Qwen3-235B le 8 juillet 2025, en présentant un nouveau modèle d’inférence IA avec prise en charge complète jusqu’à 131K de contexte
- Ce modèle combine des capacités d’IA de niveau frontier et des performances d’inférence ultra-rapides pour un coût équivalant à un dixième de celui des alternatives fermées, proposant une transformation de l’adoption de l’IA en entreprise
Une intelligence au niveau des modèles frontier
- Le Qwen3-235B d’Alibaba a démontré, selon l’évaluation indépendante d’Artificial Analysis, des performances comparables sur les benchmarks scientifiques, de code et de connaissances générales face à des modèles de pointe concurrents comme Claude 4 Sonnet, Gemini 2.5 Flash et DeepSeek R1
- Grâce à une architecture Mixture-of-Experts maximisant l’efficacité de calcul, il est proposé à 0,60 dollar par million de tokens d’entrée et 1,20 dollar par million de tokens de sortie, ce qui permet une utilisation à un coût extrêmement bas par rapport aux modèles fermés existants
Vitesse d’inférence : une révolution, des minutes aux secondes
- Les IA d’inférence traditionnelles nécessitent souvent plusieurs minutes, même pour des requêtes courantes
- En s’appuyant sur le Wafer Scale Engine, Qwen3-235B atteint une sortie de 1 500 tokens par seconde, réduisant le temps de réponse de 1 à 2 minutes à 0,6 seconde
- Cela permet une réactivité immédiate pour la génération de code, le raisonnement et les workflows RAG à grande échelle, établissant un nouveau standard de performance IA en temps réel
- D’après les mesures d’Artificial Analysis, il est évalué comme le seul modèle d’IA frontier au monde à générer plus de 1 000 tokens par seconde
Contexte 131K : prise en charge de la génération de code en conditions réelles
- À l’occasion du lancement de Qwen3-235B, Cerebras étend la prise en charge du contexte de 32K à 131K, soit 4 fois plus
- Cela permet d’inférer en une seule fois sur de grandes bases de code et des documents complexes, et augmente fortement la possibilité de développement pour des environnements de production grâce à la génération simultanée de code sur des dizaines de fichiers et des dizaines de milliers de lignes
- Alors que le contexte 32K ne permettait que des tâches simples de génération de code, le contexte 131K prend directement en charge le développement de grandes applications
- Cela permet de répondre directement au marché de la génération de code pour l’entreprise, l’un des segments les plus vastes et à la croissance la plus rapide de l’IA générative
Une intégration renforcée dans VS Code grâce à un partenariat stratégique avec Cline
- Cerebras a conclu un partenariat avec Cline, le plus grand agent de codage pour VS Code avec plus de 1,8 million d’installations
- Tous les utilisateurs de Cline peuvent utiliser directement Qwen3-32B (contexte 64K, gratuit) dans l’éditeur, puis Qwen3-235B (contexte 131K) sera également pris en charge
- Une vitesse de génération de code 10 à 20 fois supérieure à celle de concurrents comme DeepSeek R1 est prévue
- Le CEO de Cline, Saoud Rizwan, a souligné que « grâce au raisonnement en temps réel, les développeurs peuvent explorer le code et les problèmes tout en conservant un flux de travail aligné sur la vitesse de leur pensée »
Une alternative frontier IA 30 fois plus rapide et 10 fois moins chère
- Avec ce lancement, Cerebras offre une nouvelle option aux développeurs qui recherchent une intelligence de modèle open source et une génération de code à un niveau comparable à celui de modèles commerciaux comme OpenAI et Anthropic
- En particulier, l’entreprise est la seule au monde à offrir une vitesse d’inférence instantanée dépassant 1 500 tokens par seconde, avec une productivité 10 fois supérieure à celle des solutions basées sur GPU
- Le coût par token est également inférieur d’au moins 10 fois à celui des concurrents, ce qui permet de fournir une IA ultra-rapide à un coût raisonnable
À propos de Cerebras Systems
- Cerebras Systems réunit une équipe d’experts en architecture informatique, deep learning, recherche et ingénierie, concentrée sur l’innovation des infrastructures de calcul IA à grande échelle
- Son produit phare, le système CS-3, est équipé du plus grand processeur IA commercial au monde (Wafer-Scale Engine-3) et permet de construire de grands supercalculateurs IA grâce à un clustering simple et rapide
- Cerebras Inference offre des vitesses d’inférence révolutionnaires et est utilisé par des instituts de recherche, des entreprises et des gouvernements pour développer des modèles dédiés haute performance et pour l’entraînement open source
- Des solutions sont proposées à la fois sur Cerebras Cloud et en environnement on-premise
1 commentaires
Avis Hacker News
Cette actu est peut-être « ancienne » : elle semble dater du 8 juillet, et a probablement été présentée par confusion avec la sortie de Qwen 3 coder 405B annoncée hier. Les spécifications des deux modèles sont différentes.
Si c’était en quantification fp16 complète, il faudrait 2 To de mémoire pour utiliser l’intégralité du contexte de 131k. Comme une puce Cerebras n’a que 44 Go de SRAM, il faudrait en chaîner 45 en série, et à 3 M$ pièce cela ferait 135 M$ au total. À titre de comparaison, deux DGX B200 permettent d’obtenir 2,8 To pour 1 M$. Donc on parle de 1 M$ contre 135 M$. À moins d’avoir des tâches à très forte valeur ajoutée nécessitant une vitesse d’inférence énorme — hedge funds, marchés financiers, etc. — ce n’est pas efficace. Si un jour on peut faire tourner à très bas coût un modèle du niveau de Claude Opus 4 (ou mieux) avec des dizaines de millions de tokens de contexte et 1 500 tokens/s, j’ose à peine imaginer ce que cela changera. Il faudra sans doute encore plusieurs générations d’évolution matérielle.
J’ai configuré
litellm proxy, connecté le nouvel API Cerebras avec Qwen-235B, puis branché Aider pour faire des tests. Ce n’est pas meilleur que Claude code, mais c’est incroyablement rapide. J’ai aussi essayé de faire tourner Aider avec le prompt fuitée de Claude code, mais ça ne fonctionnait pas comme je le voulais. Le prompt Claude code semble optimisé pour Claude. Cela valait quand même le coup d’essayer, et j’ai l’impression qu’il y a un gros potentiel. Aider crache du texte à une vitesse folle, installe des trucs, fait des appels web, puis se termine. C’est vraiment instantané. Pour reproduire mon environnement, vous pouvez utiliser cette configuration :Exécution :
Puis :
Installer les paquets nécessaires avec
pipou équivalent. Dansprompt.txt, chercher et enregistrer vous-même le prompt fuitée de Claude code.J’attends avec impatience que Qwen 3 coder soit pris en charge par Cerebras. Je fais tourner beaucoup de boucles d’agents, et la vitesse d’exécution produit un effet de compression temporelle énorme. Si un modèle du niveau de Claude 4 Sonnet pouvait tourner à 1 000–1 500 tokens/s, ce serait une vraie révolution. Si vous voulez ressentir ce que cela fait, vous pouvez l’essayer directement sur la page Cerebras Inference, via l’API, ou avec les « Flash Answers » de Mistral / Le Chat (basés sur Cerebras). Faire des itérations de code à 1000 tok/s, c’est magique.
La vitesse est effectivement énorme, mais d’après mon expérience, il est très difficile d’obtenir chez Cerebras des limites de débit ou des quotas de tokens réellement exploitables en production. À cause de cela, nous ne pouvons pas concevoir notre système autour d’eux et utilisons donc un autre fournisseur. J’en ai beaucoup discuté avec leur équipe commerciale, mais on m’a dit que ce n’était pas possible.
Parmi ceux qui ont beaucoup utilisé Claude Code et sonnet-4, est-ce que quelqu’un a fait un test comparatif entre Claude Code et Qwen3-Coder ? Je suis tenté par la vitesse offerte par Cerebras, mais si la qualité du modèle est inférieure, je n’ai aucune intention de migrer.
On parle de « Full 131k » de contexte, mais en réalité c’est le double, 262144, et avec un multiplicateur YaRN ×8 on monterait jusqu’à 2 millions. En fait, Cerebras a aussi une limite théorique de longueur de contexte, mais c’est une limite de l’architecture Transformer : les besoins mémoire augmentent de manière quasi linéaire, et les besoins de calcul au carré. Donc il semble que Cerebras non plus ne puisse pas exploiter 100 % du contexte disponible. Je me demande aussi si les clients peuvent connaître précisément le schéma de quantification utilisé.
La vitesse est vraiment impressionnante. Sujet un peu différent, mais je me demande ce qu’il en est de la censure et des biais nationaux sur des modèles comme Qwen ou Kimi.
Cerebras est l’une des réalisations techniques les plus folles — et les plus géniales — sorties de la Silicon Valley ces dix dernières années. Quand j’ai rencontré Andy il y a 7 ou 8 ans, entre cette puce de la taille d’une assiette et les 6 tonnes de serrage, je me disais que c’était absurde. Mais ils l’ont vraiment construit, et avec le recul on voit à quel point c’était visionnaire.
Je cherche un environnement local de développement Qwen sur Macbook. J’ai essayé la combinaison localforge +
mlx_lm.server; sur la page ils parlent d’un proof-of-concept réussi, mais dans la pratique j’obtiens une erreur « empty response ». Si quelqu’un a eu une expérience similaire, je veux bien des conseils.ollama, j’utilise très bien l’inférence locale de qwen sur un Macbook Pro (32 Go).