3 points par GN⁺ 2025-09-13 | 1 commentaires | Partager sur WhatsApp
  • Qwen3-Next est une nouvelle architecture de modèle développée pour prendre en charge deux grandes tendances de l’avenir des modèles de grande taille : l’extension de la longueur de contexte et l’augmentation du nombre total de paramètres, avec des fonctionnalités visant à maximiser l’efficacité de l’entraînement et de l’inférence
  • Introduction d’un mécanisme d’attention hybride et d’une structure MoE hautement clairsemée afin d’améliorer les performances dans les configurations à long contexte et à grand nombre de paramètres
  • Accélération de la vitesse d’inférence grâce à une optimisation de la stabilité de l’entraînement et à un mécanisme de prédiction multi-token
  • Le modèle Qwen3-Next-80B-A3B-Base atteint des performances équivalentes ou supérieures à celles de Qwen3-32B tout en réduisant le coût d’entraînement à moins de 10 %
  • Cette sortie apporte à la communauté open source des avancées architecturales de pointe et pose les bases d’améliorations de l’intelligence et de la productivité menant au développement de Qwen3.5

Introduction

  • Partant de la conviction que l’extension de la longueur de contexte et l’augmentation du nombre total de paramètres sont les grandes tendances des futurs grands modèles, une nouvelle architecture appelée Qwen3-Next a été conçue afin d’améliorer l’efficacité de l’entraînement et de l’inférence dans les configurations à long contexte et à grand nombre de paramètres
  • Par rapport à la structure MoE de Qwen3, plusieurs améliorations clés ont été introduites, notamment un mécanisme d’attention hybride, une structure MoE hautement clairsemée, une optimisation de la stabilité de l’entraînement et un mécanisme de prédiction multi-token pour une inférence plus rapide
  • Sur cette base architecturale, le modèle Qwen3-Next-80B-A3B-Base a été entraîné ; il s’agit d’un modèle de 80 milliards de paramètres dont seulement 3 milliards sont activés lors de l’inférence
  • Ce modèle de base atteint des performances équivalentes ou légèrement supérieures à celles du modèle dense Qwen3-32B tout en n’utilisant que moins de 10 % de son coût d’entraînement (temps GPU)
  • Il offre en particulier un débit plus de 10 fois supérieur pour des longueurs de contexte supérieures à 32K tokens, atteignant ainsi une efficacité extrême en entraînement comme en inférence
  • Deux versions post-entraînement basées sur Qwen3-Next-80B-A3B-Base ont été développées et publiées : Qwen3-Next-80B-A3B-Instruct et Qwen3-Next-80B-A3B-Thinking
  • Grâce à l’attention hybride et à l’architecture MoE hautement clairsemée, les problèmes persistants de stabilité et d’efficacité en entraînement par apprentissage par renforcement (RL) ont été résolus, ce qui améliore à la fois la vitesse d’entraînement RL et les performances finales
  • Qwen3-Next-80B-A3B-Instruct affiche des performances équivalentes au modèle flagship Qwen3-235B-A22B-Instruct-2507 et montre un avantage net sur les tâches à contexte ultra-long jusqu’à 256K tokens
  • Qwen3-Next-80B-A3B-Thinking excelle dans les tâches de raisonnement complexe, dépasse des modèles plus coûteux comme Qwen3-30B-A3B-Thinking-2507 et Qwen3-32B-Thinking, surpasse le modèle propriétaire Gemini-2.5-Flash-Thinking sur plusieurs benchmarks et se rapproche des performances du modèle haut de gamme Qwen3-235B-A22B-Thinking-2507
  • Qwen3-Next est déjà disponible sur Hugging Face et ModelScope, et tout le monde peut utiliser le service Qwen3-Next via Alibaba Cloud Model Studio et le NVIDIA API Catalog

Fonctionnalités principales

  • Architecture hybride : Gated DeltaNet + Gated Attention exploite le fait que l’attention linéaire brise la complexité quadratique de l’attention standard et se montre plus efficace sur les longs contextes
    • Il a été observé que l’attention linéaire est rapide mais plus faible en rappel, tandis que l’attention standard est coûteuse et lente ; des expériences systématiques ont confirmé que Gated DeltaNet offre de meilleures capacités d’apprentissage in-context que des approches générales comme Sliding Window Attention ou Mamba2
    • En mélangeant Gated DeltaNet et l’attention standard dans un ratio de 3:1 (75 % des couches utilisent Gated DeltaNet, 25 % conservent l’attention standard), des performances et une efficacité systématiquement supérieures à celles d’une architecture unique ont été obtenues
    • Un mécanisme d’output gating a été adopté dans les couches d’attention standard afin de réduire le problème de faible rang de l’attention, et la dimension par tête d’attention a été augmentée de 128 à 256
    • L’encodage positionnel rotatif n’est appliqué qu’aux premiers 25 % de la dimension positionnelle afin d’améliorer l’extrapolation vers des séquences plus longues
  • MoE ultra-clairsemé : seulement 3,7 % des paramètres activés ; Qwen3-Next adopte une conception MoE très clairsemée qui n’active qu’environ 3B des 80B paramètres totaux à chaque étape d’inférence
    • Les expériences montrent qu’en maintenant fixes les experts activés via un équilibrage global de charge, la perte d’entraînement diminue régulièrement à mesure que le nombre total de paramètres experts augmente
    • Par rapport au MoE de Qwen3 (128 experts au total, 8 routés), Qwen3-Next passe à 512 experts au total et combine 10 experts routés + 1 expert partagé afin de maximiser l’utilisation des ressources sans dégrader les performances
  • Conception favorable à la stabilité de l’entraînement : le mécanisme d’output gating de l’attention élimine des problèmes comme Attention Sink et Massive Activation, garantissant la stabilité numérique de l’ensemble du modèle
    • Un problème de croissance anormalement élevée de certains poids de normalisation de couche a été observé dans le QK-Norm utilisé par Qwen3 ; Qwen3-Next adopte donc Zero-Centered RMSNorm et applique une décroissance des poids aux poids de normalisation pour empêcher une croissance infinie
    • Les paramètres du routeur MoE sont normalisés lors de l’initialisation afin que chaque expert soit sélectionné sans biais au début de l’entraînement, ce qui réduit le bruit dû à l’initialisation aléatoire
    • Cette conception centrée sur la stabilité rend les expériences à petite échelle plus fiables et facilite l’exécution fluide de l’entraînement à grande échelle
  • Prédiction multi-token : Qwen3-Next introduit un mécanisme natif de multi-token prediction (MTP), qui permet non seulement de produire un module MTP à fort taux d’acceptation pour le speculative decoding, mais améliore aussi les performances globales
    • Qwen3-Next optimise tout particulièrement les performances de raisonnement multi-étapes du MTP et améliore encore le taux d’acceptation du speculative decoding en situation réelle grâce à un entraînement multi-étapes qui maintient la cohérence entre entraînement et inférence

Pré-entraînement

  • Efficacité du pré-entraînement et vitesse d’inférence : Qwen3-Next a été entraîné sur un sous-ensemble échantillonné uniformément (15T tokens) du corpus de pré-entraînement de 36T tokens de Qwen3
    • Il utilise moins de 80 % du temps GPU nécessaire à Qwen3-30A-3B et seulement 9,3 % du coût de calcul de Qwen3-32B, tout en obtenant de meilleures performances, ce qui montre une excellente efficacité d’entraînement et un très bon rapport valeur/coût
    • Grâce à son architecture hybride, il excelle aussi en inférence, avec un débit presque 7 fois supérieur à celui de Qwen3-32B à une longueur de contexte de 4K lors de la phase de prefill
    • Il est plus de 10 fois plus rapide au-delà de 32K
    • Lors de la phase de décodage, il affiche un débit presque 4 fois supérieur sur un contexte de 4K et conserve encore un avantage de vitesse de plus de 10 fois au-delà de 32K
  • Performances du modèle de base : Qwen3-Next-80B-A3B-Base n’active qu’un dixième des paramètres non embedding de Qwen3-32B-Base, tout en le surpassant sur la plupart des benchmarks et en dépassant largement Qwen3-30B-A3B, démontrant une efficacité exceptionnelle et de solides performances

Post-entraînement

  • Performances du modèle Instruct : Qwen3-Next-80B-A3B-Instruct surpasse nettement Qwen3-30B-A3B-Instruct-2507 et Qwen3-32B-Non-thinking, et obtient des résultats quasiment au niveau du flagship Qwen3-235B-A22B-Instruct-2507
    • Sur RULER, Qwen3-Next-80B-A3B-Instruct dépasse Qwen3-30B-A3B-Instruct-2507, qui dispose de davantage de couches d’attention, sur toutes les longueurs, et surpasse Qwen3-235B-A22B-Instruct-2507, qui compte davantage de couches au total, dans le contexte 256K, ce qui démontre la force de la conception hybride Gated DeltaNet + Gated Attention pour les tâches à long contexte
  • Performances du modèle Thinking : Qwen3-Next-80B-A3B-Thinking surpasse des modèles plus coûteux comme Qwen3-30B-A3B-Thinking-2507 et Qwen3-32B-Thinking
    • Il dépasse le modèle propriétaire Gemini-2.5-Flash-Thinking sur plusieurs benchmarks et se rapproche du dernier modèle flagship Qwen3-235B-A22B-Thinking-2507 sur les principaux indicateurs

Développer avec Qwen3

  • Hugging Face Transformers : le code de Qwen3-Next a été fusionné dans la branche principale de Hugging Face transformers
    • Des erreurs peuvent survenir avec des versions antérieures
    • Un extrait de code illustrant la génération du modèle à partir d’une entrée donnée est inclus
    • La prédiction multi-token (MTP) n’est pas généralement disponible dans Hugging Face Transformers
    • Les gains d’efficacité ou de débit dépendent fortement de l’implémentation
    • Pour les tâches d’inférence, il est recommandé d’adopter des frameworks d’inférence dédiés comme SGLang et vLLM
    • L’utilisation de flash-linear-attention et causal-conv1d peut apporter une meilleure efficacité selon la configuration d’inférence
    • Voir les liens correspondants pour les instructions détaillées et les prérequis
    • Pour le déploiement, utiliser la dernière version de sglang ou vllm afin de créer un endpoint API compatible OpenAI
  • SGLang est un framework de serving rapide pour les grands modèles de langage et les modèles vision-langage, permettant de lancer un serveur avec un service API compatible OpenAI
    • SGLang prend en charge Qwen3-Next sur la branche principale et peut être installé depuis les sources
    • Une commande est fournie pour créer un endpoint API sur http://localhost:30000/v1 avec une longueur de contexte maximale de 256K tokens en utilisant le parallélisme tensoriel sur 4 GPU
    • La commande recommandée pour le MTP est également fournie avec les autres paramètres inchangés
    • La variable d’environnement SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1 est actuellement requise
    • La longueur de contexte par défaut est de 256K ; si le démarrage du serveur échoue, il est conseillé d’envisager une valeur plus faible comme 32768
  • vLLM est un moteur d’inférence et de serving à haut débit et économe en mémoire pour les LLM, permettant de lancer un serveur avec un service API compatible OpenAI
    • vLLM prend en charge Qwen3-Next sur la branche principale et peut être installé depuis les sources
    • Une commande est fournie pour créer un endpoint API sur http://localhost:8000/v1 avec une longueur de contexte maximale de 256K tokens en utilisant le parallélisme tensoriel sur 4 GPU
    • La commande recommandée pour le MTP est également fournie avec les autres paramètres inchangés
    • La variable d’environnement VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 est actuellement requise
    • La longueur de contexte par défaut est de 256K ; si le démarrage du serveur échoue, il est conseillé d’envisager une valeur plus faible comme 32768
  • Utilisation agentique : Qwen3 excelle dans les capacités d’appel d’outils, et il est recommandé d’utiliser Qwen-Agent pour exploiter au maximum ses capacités d’agent
    • Qwen-Agent encapsule en interne les templates d’appel d’outils et le parseur d’appel d’outils, ce qui réduit fortement la complexité du code
    • Il est possible d’utiliser un fichier de configuration MCP pour définir les outils disponibles, d’utiliser les outils intégrés de Qwen-Agent ou vos propres outils intégrés
  • Traitement de textes ultra-longs : Qwen3-Next prend en charge nativement une longueur de contexte allant jusqu’à 262,144 tokens
    • Pour les conversations dont la longueur totale, entrée et sortie comprises, dépasse largement cette limite, il est recommandé d’utiliser des techniques de mise à l’échelle RoPE comme YaRN pour traiter efficacement les textes longs
    • Les performances du modèle ont été validées avec YaRN jusqu’à une longueur de contexte de 1 million de tokens
    • YaRN est actuellement pris en charge par plusieurs frameworks d’inférence comme transformers, vllm et sglang
    • Deux approches permettent d’activer YaRN dans les frameworks compatibles : modifier les fichiers du modèle ou passer des arguments en ligne de commande
    • Ajouter le champ rope_scaling dans le fichier config.json
    • Pour vllm, utiliser des arguments en ligne de commande
    • Pour sglang, utiliser des arguments en ligne de commande
    • Tous les frameworks open source notables implémentent actuellement un YaRN statique, dans lequel le facteur de mise à l’échelle reste constant quelle que soit la longueur d’entrée, avec un impact potentiel sur les performances sur les textes courts
    • Il est recommandé d’ajouter le réglage rope_scaling uniquement en cas de besoin de traitement de long contexte
    • Il est recommandé d’ajuster factor selon les besoins ; par exemple, si la longueur de contexte habituelle de l’application est de 524,288 tokens, définir factor sur 2.0

Résumé

  • Qwen3-Next représente un saut majeur dans l’architecture des modèles, avec l’introduction d’innovations dans le mécanisme d’attention, notamment l’attention linéaire et les gates d’attention, ainsi qu’une plus grande sparsité dans la conception MoE
  • Qwen3-Next-80B-A3B offre des performances équivalentes au plus grand Qwen3-235B-A22B-2507 en modes thinking et non-thinking, tout en proposant une inférence nettement plus rapide dans les scénarios de long contexte
  • Avec cette sortie, l’objectif est de renforcer la communauté open source grâce à des avancées architecturales de pointe et d’évoluer avec elle

1 commentaires

 
GN⁺ 2025-09-13
Commentaires Hacker News
  • La partie la plus impressionnante de Qwen3-Next, c’est qu’il introduit le MTP (Multi-Token Prediction) après la linear attention sans ajouter de matrice d’un-embedding supplémentaire. Deepseek R1 applique aussi le MTP à la 61e couche, mais ajoute de gros tenseurs embed_tokens et shared_head.head (environ 2 Go en FP8), donc Qwen3-Next gère le MTP avec bien moins de paramètres actifs et économise plusieurs gigaoctets de mémoire. Grâce à cela, la vitesse d’inférence augmente fortement.
    • Je me demande quel avantage concret le MTP apporte réellement à l’étape d’inférence, et si cela concerne seulement l’efficacité du préentraînement.
    • Je me demande quelle est la différence entre le MTP et les têtes Medusa, et si ce modèle prend en charge le speculative decoding de manière « native ». Si on exécute ce modèle dans vllm, bénéficie-t-on déjà directement des avantages du speculative decoding grâce au MTP ?
    • S’il existe une ressource qui explique clairement tous ces termes d’un coup, ce serait utile.
  • Alibaba continue vraiment de sortir des modèles impressionnants. J’ai testé Qwen3-Next-80B-A3B sur Qwen Chat : c’est très rapide, et en qualité cela semble proche de Qwen3-235B-A22B. C’est impressionnant de voir qu’ils ont réussi ce niveau. J’attends aussi de voir les benchmarks arriver sur Artificial analysis. D’après Qwen Chat, les limites de Qwen3-Next sont un context length maximal de 262 144 tokens et une génération de résumé maximale de 32 768 tokens. Par rapport à Qwen3-235B-A22B, cela représente un contexte 2x plus long et un résumé 4x plus long. Ses points forts sont la compréhension de longs contextes et le traitement de tâches complexes. Cela dit, je vais continuer à utiliser Qwen2.5-Turbo. C’est l’un des rares modèles à prendre en charge un contexte de 1M tokens, ce qui correspond mieux à mon usage, où je charge de gros PDF et pose des questions entre différents chapitres.
    • Même quand les modèles frontier annoncent la prise en charge de longs contextes, j’ai l’impression qu’en pratique la précision chute fortement à mesure que la longueur du contexte augmente. Même si un modèle supporte 10M de contexte, la réalité est qu’il ne fonctionne pas correctement si on le remplit au maximum. Je serais curieux d’avoir l’avis des autres.
    • En regardant un peu la model card, Qwen3-Next peut lui aussi être étendu jusqu’à un context length maximal de 1M grâce à YaRN. Selon la formulation officielle, Qwen3-Next prend en charge nativement jusqu’à 262 144 tokens de contexte, et a été validé jusqu’à 1M de tokens via RoPE scaling ou la méthode YaRN lorsque le total des tokens d’entrée + sortie dépasse largement cette limite. Source
    • Les modèles propriétaires d’Alibaba sont eux aussi vraiment performants et restent étonnamment peu connus. On les voit presque jamais dans les benchmarks. Qwen3-coder-plus est bien meilleur que qwen3 open source, et Qwen3 max est aussi au niveau des modèles SOTA.
    • Je serais curieux de savoir comment tu prépares les données PDF avant de les injecter dans Qwen.
  • En demandant via la commande llm à Qwen3-Next-80B-A3B-Thinking de produire « l’ASCII de spongebob », j’obtiens juste une forme très basique. Avec Qwen3-Coder-480B-A35B-Instruct, on obtient un SpongeBob ASCII bien plus abouti. Quand j’ai fait plusieurs essais cette nuit, beaucoup d’ASCII générés par Qwen3-coder étaient inachevés, par exemple sans les jambes, mais ce matin, avec le même prompt, c’est sorti parfaitement du premier coup. Je me suis demandé si l’occupation ou l’état des ressources (serveur, API) pouvait influer sur la qualité des réponses, ou si c’est simplement une question de chance. En réessayant quelques minutes plus tard, ça a de nouveau échoué, donc j’imagine que c’est quelque chose comme 1 chance sur 10, et quasiment jamais avec Qwen3-next.
    • On a l’impression que le SpongeBob ASCII est mémorisé tel quel par le modèle.
    • Je pense qu’il y a eu de la distillation ou un partage de données d’entraînement entre Kimi K2 et Qwen Coder (ou d’autres modèles liés). J’ai testé la plupart des LLM, et seul Kimi K2 a produit exactement le même SpongeBob ASCII que Qwen3-coder. Le SpongeBob ASCII est lui aussi généré de manière exactement identique avec kimi K2.
    • Le test SpongeBob ASCII vient des réseaux sociaux officiels de Qwen ; c’est en pratique une sonde destinée à mesurer une mémorisation injectée (rote memorization). Un grand modèle dense peut mémoriser l’ensemble via sa capacité paramétrique, mais dans l’architecture sparse-MoE de Qwen3, plusieurs sources de bruit s’ajoutent — sélection d’experts, échantillonnage des tokens, etc. — ce qui rend l’alignement minutieux du dessin plus fragile. En plus, de nouvelles structures comme gated-attention et la tête multi-token s’ajoutent, donc un seul mauvais expert routing peut suffire à décaler la mise en page du dessin. Et comme Qwen3-coder a été entraîné spécialement pour cela, la comparaison devient injuste. J’ai aussi comparé les résultats ASCII d’autres modèles de la famille Qwen3 : ils varient beaucoup.
  • Il est étonnant de voir à quel point le MoE a progressé grâce à Qwen. Qwen3-Next dépasse clairement l’ancien modèle dense 72B, et avec un bon offload de la VRAM et du CPU, il peut même tourner plus vite qu’un modèle 14B. Ce niveau d’efficacité est vraiment remarquable.
    • Ce n’est pas grâce à Qwen que les LLM ont progressé : les LLM SOTA sont déjà en MoE depuis GPT-4. C’est dommage que HN soit tellement en retard sur les tendances qu’on se retrouve avec beaucoup de commentaires inutiles sur les sujets IA.
    • Quand on y repense, c’est presque drôle que Meta ait dépensé autant de ressources l’an dernier pour entraîner un modèle dense 405B. Le modèle est énorme, mais en pratique il est moins bon qu’un modèle dix fois plus petit, et il est impossible de l’exécuter à une vitesse réellement exploitable sur du matériel réaliste.
  • J’ai ajouté Qwen3 Next au Brokk Power Ranking open round (benchmark de code). En termes de performances, il est proche de GPT-OSS-20b. Les résultats complets des modèles open source sont disponibles ici.
    • Ce benchmark serait plus utile s’il ajoutait plusieurs langages. Pour l’instant il n’évalue que Java, alors qu’en pratique j’utilise surtout d’autres langages, donc les résultats ne correspondent pas à mon expérience réelle.
    • Je me demande si le Kimi K2 enregistré est la version la plus récente, ou un ancien Kimi k2.
  • Oracle prévoit cette semaine une forte hausse de la demande pour les datacenters, et son action monte. Si l’amélioration d’un facteur 10 de l’efficacité des LLM est réelle, la demande pour Nvidia, Oracle, Coreweave et autres pourrait diminuer.
    • Il faut peut-être penser à des phénomènes économiques comme le paradoxe de Jevons.
    • Indépendamment des prévisions d’Oracle, je ne pense pas qu’une amélioration de l’efficacité entraîne automatiquement une baisse de la demande. Comme avec le paradoxe de Jevons, on peut au contraire se mettre à en consommer davantage.
    • On disait déjà la même chose à propos de deepseek-r1, mais la réalité n’a pas changé. Si on rend les modèles 10x plus efficaces, tout le monde essaiera simplement d’entraîner des modèles 10x plus gros. Les acteurs ne s’arrêteront pas à un moment en se disant « cette taille suffit », tant que le scaling continue d’améliorer les performances.
    • Absolument pas. Le comportement du marché montre qu’on paie toujours volontiers pour la meilleure qualité, et que les prix restent globalement stables. Dès qu’un nouveau modèle sort, les anciens modèles moins bons (et moins chers) sont immédiatement délaissés, et les gens ne veulent plus que de meilleurs modèles au même prix. Cette fois-ci, cela suivra probablement le même schéma.
    • Si la bulle de l’IA éclate et qu’on se retrouve avec un surplus de datacenters et de GPU, je me demande quels moyens il y aurait d’en profiter sur le plan de l’investissement.
  • Si le Gated Delta Network vous intéresse, voir ce papier lien arxiv
    • Pour Gated Attention, on peut consulter le papier ici.
  • Qwen3-Next est assez impressionnant, et je pense que de meilleures architectures porteront les prochaines innovations. J’ai aussi l’impression qu’il n’est pas forcément nécessaire d’avoir plus de 100B de paramètres comme GPT OSS 120B.
    • Clairement, plus il y a de paramètres, mieux c’est. Les modèles avec peu de paramètres hallucinent plus souvent. Cela dit, si le nombre de paramètres actifs est faible mais que le routing est bon, cela peut quand même être acceptable.
    • Les nouvelles architectures sont intéressantes, et c’est surprenant de les voir publiées directement en open. Cela dit, les modèles de la famille Qwen ont tendance à beaucoup surapprendre. Ils excellent souvent sur certaines tâches précises, mais restent limités en généralisation par rapport aux modèles fermés. Je ne sais pas si c’est seulement une question d’échelle, ou si les recettes et méthodes d’entraînement jouent aussi un rôle. Quand on les teste en OOD (out-of-distribution), leur valeur chute rapidement, alors que les modèles fermés gardent encore un avantage.
  • Prédiction : dans les 4 prochaines années, l’IA atteindra un niveau d’environ 15 points de QI au-dessus des modèles SOTA actuels, avec des longueurs de contexte bien plus grandes, tout en devenant un bien générique facilement accessible à tous. À ce moment-là, quand les améliorations liées à l’entraînement sur données synthétiques atteindront leurs limites (après épuisement des « vraies » données), des modèles open source pourront être entraînés à bas coût à partir des sorties des modèles financés par de gros capitaux. Ensuite, le progrès de l’IA stagnera jusqu’à l’apparition d’une méthode d’entraînement de l’intelligence générale par reinforcement learning compétitif (comme pour AlphaGo). Une fois cette approche disponible, il ne sera plus nécessaire d’avoir d’immenses jeux de données d’entraînement, et une véritable AGI pourrait émerger.
    • Je ne comprends pas cette idée selon laquelle on aurait « épuisé les vraies données ». De nouvelles connaissances, des articles scientifiques et des vidéos arrivent chaque jour sur Internet, alors comment les données pourraient-elles être à court ?
    • Si les modèles de pointe actuels sont au niveau d’un QI humain de 120 (je ne sais pas si c’est exact, mais admettons selon ce site), alors on verrait bientôt apparaître en masse des bots hyper engageants au niveau de 135 de QI. Il est difficile d’imaginer ce que cela signifierait concrètement.
  • C’est un modèle 80B, mais en ce moment je m’intéresse surtout aux modèles de 32B ou moins qui tournent confortablement sur un MacBook Pro (M4, 64 Go). J’utilise ollama tous les jours pour filtrer le spam, et gemma3:27b est excellent, tandis que gpt-oss:20b est assez rapide, donc je l’utilise souvent.
    • J’aimerais bien que tu expliques plus en détail comment tu utilises Ollama pour le filtrage du spam.
    • Le modèle fait 80B de paramètres au total, mais seulement environ 3B sont activés pendant l’inférence. Je fais déjà très bien tourner l’ancien Qwen3 30B 2507 sur une carte Nvidia de 8 Go.
    • Comme c’est une architecture MoE, ça devrait très bien tourner.