1 points par GN⁺ 2025-07-24 | 1 commentaires | Partager sur WhatsApp
  • Cerebras dévoile le modèle d’IA Qwen3-235B, offrant des performances d’inférence instantanée avec une génération de 1 500 tokens par seconde
  • Productivité et génération de code jusqu’à 30 fois plus rapides, pour un coût 10 fois inférieur à celui des modèles fermés existants
  • Prise en charge d’un contexte de 131K, permettant le traitement de grandes bases de code et de documents complexes
  • En partenariat avec Cline, extension de l’expérience de génération de code en temps réel dans Microsoft VS Code
  • Avec ce lancement, une alternative à OpenAI et Anthropic basée sur l’open source propose de hautes performances à un coût raisonnable

Qwen3-235B : lancement du modèle d’inférence IA ultra-rapide de Cerebras et principales avancées

Le modèle d’inférence IA le plus rapide au monde dévoilé sur Cerebras Inference Cloud

  • Cerebras Systems a officiellement lancé Qwen3-235B le 8 juillet 2025, en présentant un nouveau modèle d’inférence IA avec prise en charge complète jusqu’à 131K de contexte
  • Ce modèle combine des capacités d’IA de niveau frontier et des performances d’inférence ultra-rapides pour un coût équivalant à un dixième de celui des alternatives fermées, proposant une transformation de l’adoption de l’IA en entreprise

Une intelligence au niveau des modèles frontier

  • Le Qwen3-235B d’Alibaba a démontré, selon l’évaluation indépendante d’Artificial Analysis, des performances comparables sur les benchmarks scientifiques, de code et de connaissances générales face à des modèles de pointe concurrents comme Claude 4 Sonnet, Gemini 2.5 Flash et DeepSeek R1
  • Grâce à une architecture Mixture-of-Experts maximisant l’efficacité de calcul, il est proposé à 0,60 dollar par million de tokens d’entrée et 1,20 dollar par million de tokens de sortie, ce qui permet une utilisation à un coût extrêmement bas par rapport aux modèles fermés existants

Vitesse d’inférence : une révolution, des minutes aux secondes

  • Les IA d’inférence traditionnelles nécessitent souvent plusieurs minutes, même pour des requêtes courantes
  • En s’appuyant sur le Wafer Scale Engine, Qwen3-235B atteint une sortie de 1 500 tokens par seconde, réduisant le temps de réponse de 1 à 2 minutes à 0,6 seconde
  • Cela permet une réactivité immédiate pour la génération de code, le raisonnement et les workflows RAG à grande échelle, établissant un nouveau standard de performance IA en temps réel
  • D’après les mesures d’Artificial Analysis, il est évalué comme le seul modèle d’IA frontier au monde à générer plus de 1 000 tokens par seconde

Contexte 131K : prise en charge de la génération de code en conditions réelles

  • À l’occasion du lancement de Qwen3-235B, Cerebras étend la prise en charge du contexte de 32K à 131K, soit 4 fois plus
  • Cela permet d’inférer en une seule fois sur de grandes bases de code et des documents complexes, et augmente fortement la possibilité de développement pour des environnements de production grâce à la génération simultanée de code sur des dizaines de fichiers et des dizaines de milliers de lignes
  • Alors que le contexte 32K ne permettait que des tâches simples de génération de code, le contexte 131K prend directement en charge le développement de grandes applications
  • Cela permet de répondre directement au marché de la génération de code pour l’entreprise, l’un des segments les plus vastes et à la croissance la plus rapide de l’IA générative

Une intégration renforcée dans VS Code grâce à un partenariat stratégique avec Cline

  • Cerebras a conclu un partenariat avec Cline, le plus grand agent de codage pour VS Code avec plus de 1,8 million d’installations
  • Tous les utilisateurs de Cline peuvent utiliser directement Qwen3-32B (contexte 64K, gratuit) dans l’éditeur, puis Qwen3-235B (contexte 131K) sera également pris en charge
  • Une vitesse de génération de code 10 à 20 fois supérieure à celle de concurrents comme DeepSeek R1 est prévue
  • Le CEO de Cline, Saoud Rizwan, a souligné que « grâce au raisonnement en temps réel, les développeurs peuvent explorer le code et les problèmes tout en conservant un flux de travail aligné sur la vitesse de leur pensée »

Une alternative frontier IA 30 fois plus rapide et 10 fois moins chère

  • Avec ce lancement, Cerebras offre une nouvelle option aux développeurs qui recherchent une intelligence de modèle open source et une génération de code à un niveau comparable à celui de modèles commerciaux comme OpenAI et Anthropic
  • En particulier, l’entreprise est la seule au monde à offrir une vitesse d’inférence instantanée dépassant 1 500 tokens par seconde, avec une productivité 10 fois supérieure à celle des solutions basées sur GPU
  • Le coût par token est également inférieur d’au moins 10 fois à celui des concurrents, ce qui permet de fournir une IA ultra-rapide à un coût raisonnable

À propos de Cerebras Systems

  • Cerebras Systems réunit une équipe d’experts en architecture informatique, deep learning, recherche et ingénierie, concentrée sur l’innovation des infrastructures de calcul IA à grande échelle
  • Son produit phare, le système CS-3, est équipé du plus grand processeur IA commercial au monde (Wafer-Scale Engine-3) et permet de construire de grands supercalculateurs IA grâce à un clustering simple et rapide
  • Cerebras Inference offre des vitesses d’inférence révolutionnaires et est utilisé par des instituts de recherche, des entreprises et des gouvernements pour développer des modèles dédiés haute performance et pour l’entraînement open source
  • Des solutions sont proposées à la fois sur Cerebras Cloud et en environnement on-premise

1 commentaires

 
GN⁺ 2025-07-24
Avis Hacker News
  • Cette actu est peut-être « ancienne » : elle semble dater du 8 juillet, et a probablement été présentée par confusion avec la sortie de Qwen 3 coder 405B annoncée hier. Les spécifications des deux modèles sont différentes.

    • Au début, je pensais qu’il s’agissait du Qwen3-235B-A22B-Instruct-2507 annoncé il y a deux jours (lien). Ce modèle n’a pas de reasoning, et comme l’annonce de Cerebras mentionne le reasoning, j’en ai conclu qu’il s’agissait ici du Qwen3-235B-A22B sorti en avril. Les noms des modèles prêtent à confusion.
  • Si c’était en quantification fp16 complète, il faudrait 2 To de mémoire pour utiliser l’intégralité du contexte de 131k. Comme une puce Cerebras n’a que 44 Go de SRAM, il faudrait en chaîner 45 en série, et à 3 M$ pièce cela ferait 135 M$ au total. À titre de comparaison, deux DGX B200 permettent d’obtenir 2,8 To pour 1 M$. Donc on parle de 1 M$ contre 135 M$. À moins d’avoir des tâches à très forte valeur ajoutée nécessitant une vitesse d’inférence énorme — hedge funds, marchés financiers, etc. — ce n’est pas efficace. Si un jour on peut faire tourner à très bas coût un modèle du niveau de Claude Opus 4 (ou mieux) avec des dizaines de millions de tokens de contexte et 1 500 tokens/s, j’ose à peine imaginer ce que cela changera. Il faudra sans doute encore plusieurs générations d’évolution matérielle.

    • Le calcul « 44 Go de SRAM par puce Cerebras, 45 puces en série, 135 M$ au total » est erroné. Les 44 Go correspondent à la SRAM, donc à la mémoire on-chip, alors que la majorité des paramètres du modèle sont stockés en HBM. Par exemple, le GB200 n’a que 126 Mo de SRAM ; si on calculait le nombre de puces nécessaires pour un modèle de 2 To uniquement à partir de cette capacité de cache, on obtiendrait un résultat absurde. Cerebras peut étendre la HBM séparément de la puce, et la connecter jusqu’à près de 2 Po avec des systèmes comme MemoryX (article lié). Je ne suis pas expert, mais sur le plan architectural, la limite mémoire de Cerebras est bien plus large.
    • La SRAM embarquée sur la puce n’est qu’une mémoire de travail temporaire ; elle n’a pas besoin de contenir l’ensemble des poids du modèle. Cerebras utilise une approche de poids sparsifiés, où seules les données nécessaires sont streamées depuis la mémoire externe, et les cœurs fonctionnent selon un mécanisme déclenché par le transfert.
    • La vision « exploitable / non exploitable » est trop simpliste. En pratique, le point important est le débit du système quand il est partagé entre plusieurs utilisateurs. Une voiturette de golf et un train peuvent tous deux aller de la côte Est à la côte Ouest, mais pas avec la même économie. L’échelle minimale de déploiement compte aussi, mais si vous vendez des tokens via une grande API cloud, le client final s’en moque.
    • Il n’est pas nécessaire d’exécuter l’inférence en fp16 fixe. Les formats de quantification modernes attribuent des précisions différentes selon les couches nécessaires, au point qu’avec une moyenne de 6 bits par paramètre, il est difficile de percevoir une différence. Même en restant prudent, 8 bits par paramètre suffisent. C’est une économie de mémoire énorme.
    • Nos puces ne coûtent pas 3 M$ l’unité. Je ne sais pas d’où sort ce chiffre, mais c’est totalement faux.
  • J’ai configuré litellm proxy, connecté le nouvel API Cerebras avec Qwen-235B, puis branché Aider pour faire des tests. Ce n’est pas meilleur que Claude code, mais c’est incroyablement rapide. J’ai aussi essayé de faire tourner Aider avec le prompt fuitée de Claude code, mais ça ne fonctionnait pas comme je le voulais. Le prompt Claude code semble optimisé pour Claude. Cela valait quand même le coup d’essayer, et j’ai l’impression qu’il y a un gros potentiel. Aider crache du texte à une vitesse folle, installe des trucs, fait des appels web, puis se termine. C’est vraiment instantané. Pour reproduire mon environnement, vous pouvez utiliser cette configuration :

    model_list:
     - model_name: qwen3-235b
      litellm_params:
       model: cerebras/qwen-3-235b-a22b
       api_key: os.environ/CEREBRAS_API_KEY
       api_base: https://api.cerebras.ai/v1
    

    Exécution :

    litellm --config config.yaml --port 4000 --debug
    

    Puis :

    aider --model cerebras/qwen-3-235b-a22b --openai-api-base http://localhost:4000 --openai-api-key fake-key --no-show-model-warnings --auto-commits --system-file ./prompt.txt --yes
    

    Installer les paquets nécessaires avec pip ou équivalent. Dans prompt.txt, chercher et enregistrer vous-même le prompt fuitée de Claude code.

  • J’attends avec impatience que Qwen 3 coder soit pris en charge par Cerebras. Je fais tourner beaucoup de boucles d’agents, et la vitesse d’exécution produit un effet de compression temporelle énorme. Si un modèle du niveau de Claude 4 Sonnet pouvait tourner à 1 000–1 500 tokens/s, ce serait une vraie révolution. Si vous voulez ressentir ce que cela fait, vous pouvez l’essayer directement sur la page Cerebras Inference, via l’API, ou avec les « Flash Answers » de Mistral / Le Chat (basés sur Cerebras). Faire des itérations de code à 1000 tok/s, c’est magique.

    • Exactement. À cette vitesse, mon efficacité explose. Chaque attente d’un agent me fait perdre ma concentration et mon contexte. Faire tourner ça en parallèle va plus vite, mais au prix de l’attention. Si une boucle d’itération tournait presque instantanément dans un IDE comme Cursor, l’effet serait encore plus magique. Et à ce niveau de vitesse, la manière même de travailler change. Un IDE interactif comme Cursor semblerait bien plus naturel qu’un Claude code en ligne de commande.
    • Pareil pour moi. Mais l’API de Cerebras doit devenir plus compatible openAI. J’ai essayé leurs modèles existants avec différents agents de code, dont Cline, et rien ne marchait : erreurs 400, problèmes de format d’appel d’outils, etc. C’était décevant.
    • Il y a quelques jours, j’ai configuré Kimi K2 sur Groq et j’ai été choqué par la vitesse. J’hésite à passer à Qwen 3 + Cerebras. (Parenthèse : le nom me rappelle le grade « cerebrate » des zergs dans Starcraft, ce qui me rendait ça fascinant quand j’étais enfant.)
    • Si la vitesse des agents LLM continue d’augmenter comme ça, on pourrait finir dans une situation où le temps de compilation devient le goulet d’étranglement du processus de développement. Cela créerait alors une incitation économique à améliorer les performances des compilateurs.
  • La vitesse est effectivement énorme, mais d’après mon expérience, il est très difficile d’obtenir chez Cerebras des limites de débit ou des quotas de tokens réellement exploitables en production. À cause de cela, nous ne pouvons pas concevoir notre système autour d’eux et utilisons donc un autre fournisseur. J’en ai beaucoup discuté avec leur équipe commerciale, mais on m’a dit que ce n’était pas possible.

  • Parmi ceux qui ont beaucoup utilisé Claude Code et sonnet-4, est-ce que quelqu’un a fait un test comparatif entre Claude Code et Qwen3-Coder ? Je suis tenté par la vitesse offerte par Cerebras, mais si la qualité du modèle est inférieure, je n’ai aucune intention de migrer.

    • Je n’ai pas testé Qwen, mais j’ai essayé des services d’inférence « tokens instantanés » sur Groq ainsi que des générateurs de code basés sur LLaMA en mode diffusion, et les résultats n’étaient pas satisfaisants. Si un modèle du niveau de Gemini 2.5 pro ou Sonnet 4 pouvait produire des dizaines de milliers de lignes de code en quelques secondes sur Cerebras, cela changerait vraiment la donne.
  • On parle de « Full 131k » de contexte, mais en réalité c’est le double, 262144, et avec un multiplicateur YaRN ×8 on monterait jusqu’à 2 millions. En fait, Cerebras a aussi une limite théorique de longueur de contexte, mais c’est une limite de l’architecture Transformer : les besoins mémoire augmentent de manière quasi linéaire, et les besoins de calcul au carré. Donc il semble que Cerebras non plus ne puisse pas exploiter 100 % du contexte disponible. Je me demande aussi si les clients peuvent connaître précisément le schéma de quantification utilisé.

    • Sur la page du modèle, il est indiqué que 32768 est la longueur native, et que les performances ont été validées avec YaRN ×4 (lien). Cela semble correspondre à peu près aux 131k.
  • La vitesse est vraiment impressionnante. Sujet un peu différent, mais je me demande ce qu’il en est de la censure et des biais nationaux sur des modèles comme Qwen ou Kimi.

    • Les modèles Qwen sont considérés comme très qualitatifs parmi les modèles ouverts, surtout en architecture MoE. En même temps, ils subissent une censure extrêmement forte. Que l’on demande « ce qui s’est passé sur la place Tiananmen », « les grandes manifestations » ou même « quelque chose en rapport avec des chars ? », le modèle esquive vaguement en parlant d’une belle place chargée d’histoire.
  • Cerebras est l’une des réalisations techniques les plus folles — et les plus géniales — sorties de la Silicon Valley ces dix dernières années. Quand j’ai rencontré Andy il y a 7 ou 8 ans, entre cette puce de la taille d’une assiette et les 6 tonnes de serrage, je me disais que c’était absurde. Mais ils l’ont vraiment construit, et avec le recul on voit à quel point c’était visionnaire.

    • Le concept est cool, mais est-ce que quelqu’un utilise vraiment Cerebras à la place de Nvidia ?
    • En réalité, c’est conçu pour le HPC et les FLOPS ; pour l’inférence LLM, la bande passante mémoire finit par compter davantage.
    • C’est une interprétation moderne d’une vieille idée. J’avais découvert les premiers articles européens sur le wafer-scale, l’analogique et les réseaux neuronaux. J’ai aussi retrouvé un autre projet. (papier 1, papier 2). Le deuxième article date de 1989, donc les brevets sont tous expirés.
    • Le wafer-scale integration avait déjà été tenté il y a plusieurs décennies.
  • Je cherche un environnement local de développement Qwen sur Macbook. J’ai essayé la combinaison localforge + mlx_lm.server ; sur la page ils parlent d’un proof-of-concept réussi, mais dans la pratique j’obtiens une erreur « empty response ». Si quelqu’un a eu une expérience similaire, je veux bien des conseils.

    • Peut-être que j’ai mal compris la question, mais avec ollama, j’utilise très bien l’inférence locale de qwen sur un Macbook Pro (32 Go).