Tongyi DeepResearch – un modèle MoE 30B open source à la hauteur d’OpenAI DeepResearch

(tongyi-agent.github.io)

10 points par GN⁺ 2025-11-04 | 1 commentaires | Partager sur WhatsApp

Tongyi DeepResearch est le premier agent web entièrement open source à afficher des performances comparables à OpenAI DeepResearch, avec des résultats de tout premier plan sur des benchmarks complexes d’exploration d’information
- Tongyi Lab est l’une des divisions de recherche et développement en IA du groupe Alibaba, centrée sur les grands modèles de langage (LLM), les modèles multimodaux et les technologies d’agents, et à l’origine des modèles QWEN
Mise en place d’un pipeline d’apprentissage de bout en bout intégrant Agentic Continual Pre-training (CPT), Supervised Fine-Tuning (SFT) et Reinforcement Learning (RL)
Renforcement des capacités de raisonnement et de planification à long terme via une génération massive de QA entièrement fondée sur des données synthétiques et le paradigme IterResearch
Prise en charge des modes ReAct et Heavy, pour couvrir du raisonnement simple jusqu’à la recherche complexe en plusieurs étapes, avec des performances stables grâce à l’apprentissage par renforcement basé sur l’algorithme GRPO
Déjà déployé concrètement dans des services internes et externes à Alibaba, comme Gaode Mate et Tongyi FaRui, démontrant l’utilité pratique et la capacité d’extension des agents de recherche IA open source

Du chatbot à l’agent autonome

Tongyi DeepResearch est le premier agent web entièrement open source à atteindre un niveau de performance comparable à OpenAI DeepResearch
- Scores enregistrés : Humanity’s Last Exam(HLE) 32.9, BrowseComp 43.4, BrowseComp-ZH 46.7, xbench-DeepSearch 75
- Surpasse tous les agents Deep Research commerciaux et open source existants
En plus du modèle, l’équipe publie l’ensemble de la méthodologie d’apprentissage basée sur la synthèse de données
- Fournit une infrastructure complète de génération automatisée de données et d’apprentissage par renforcement couvrant Agentic CPT, SFT et RL
Le framework ReAct permet d’exprimer de fortes capacités intrinsèques sans prompt engineering
- En Heavy Mode, il démontre la limite supérieure de ses capacités de planification et de raisonnement complexes

Pré-entraînement continu et post-entraînement fondés sur des données synthétiques

Introduction d’Agentic CPT pour construire un modèle de base orienté agent
- Le système AgentFounder met en œuvre une synthèse de données à grande échelle et une boucle itérative de type data flywheel
Lors des étapes de reconstruction des données et de génération des questions, intégration de documents, données de crawling, graphes de connaissances et historiques d’appels d’outils
- Le tout est restructuré sous forme de mémoire de connaissances open world centrée sur les entités, puis converti en paires (question, réponse) de formats variés
La synthèse d’actions (Action Synthesis) génère des données d’actions de premier niveau et de niveau supérieur
- En modélisant une structure de prise de décision en plusieurs étapes, elle renforce les capacités décisionnelles
Données de post-entraînement (Post-training)
- Mise en place d’un pipeline entièrement automatisé de génération synthétique de QA
  - Une série de travaux comme WebWalker, WebSailor et WebShaper produit des données QA basées sur des graphes et à difficulté contrôlée
- Une base de connaissances en graphe fondée sur des random walks et la fusion avec des données tabulaires permettent d’obtenir une structure d’information réaliste
  - Des « opérations atomiques » comme la fusion d’entités permettent d’ajuster systématiquement la difficulté
- Une formalisation des problèmes basée sur la théorie des ensembles réduit au minimum l’écart entre structure de l’information et structure de raisonnement
  - Amélioration de l’efficacité de la vérification de cohérence des QA
- Un moteur de données automatisé génère des questions de recherche de niveau doctorat
  - En partant de connaissances pluridisciplinaires, il produit des QA difficiles via une boucle d’augmentation itérative de la complexité
- Les frameworks ReAct et IterResearch sont utilisés pour apprendre différents schémas de raisonnement
  - IterResearch reconfigure l’espace de travail à chaque itération afin de renforcer les capacités de planification à long terme

Modes de roll-out

Le modèle prend en charge deux modes d’exécution : ReAct mode et Heavy mode
Native ReAct Mode
- Suit une boucle Thought–Action–Observation et obtient de très bonnes performances sans prompt engineering
  - La longueur de contexte de 128K permet de gérer de nombreux tours d’interaction
- Sa simplicité et sa polyvalence fournissent un critère clair pour évaluer les capacités intrinsèques du modèle
- Conformément au principe de “The Bitter Lesson”, il adopte une méthodologie générale extensible
Heavy Mode
- Réalise des tâches de recherche complexes en plusieurs étapes sur la base du paradigme IterResearch
  - À chaque tour, seuls les résultats clés sont conservés et un nouvel espace de travail est reconstruit
  - Un rapport central est mis à jour en continu pour maintenir un raisonnement de haute qualité
- Le framework Research–Synthesis explore en parallèle les résultats de plusieurs agents de recherche avant de les intégrer
  - Cela permet d’élargir les trajectoires d’exploration dans un contexte limité

Pipeline d’apprentissage d’agent de bout en bout

Mise en place d’une boucle d’apprentissage entièrement intégrée allant de Agentic CPT → SFT → RL
À l’étape de Reinforcement Learning (RL) on-policy, utilisation de l’algorithme Group Relative Policy Optimization (GRPO)
- La stabilité est assurée par une perte de gradient de politique au niveau du token, une stratégie leave-one-out et le filtrage des échantillons négatifs
- Pendant l’entraînement, l’augmentation de la récompense et le maintien d’une forte entropie de politique soutiennent l’exploration
Les données synthétiques offrent une distribution plus cohérente que les données annotées par des humains, comme BrowseComp, ce qui améliore l’efficacité de l’apprentissage
Infrastructure
- Environnement d’apprentissage synthétique : mise en place d’un environnement simulé avec une base Wikipedia hors ligne et un ensemble d’outils personnalisés
- Sandbox d’outils stable : prévention des erreurs d’appel d’outils via cache, retry et API de secours
- Curatelle automatique des données : synthèse et filtrage des données en temps réel selon la dynamique de l’apprentissage pour améliorer stabilité et performances
- Framework on-policy asynchrone : implémentation d’une boucle RL asynchrone pas à pas basée sur rLLM
- Ce processus aboutit à une boucle d’apprentissage d’agent IA auto-évolutive, capable de résoudre des problèmes de manière stable même dans des environnements dynamiques complexes

Cas d’usage concrets

Gaode Mate (agent cartographie et navigation)
- Développement du copilote IA « Xiao Gao » en collaboration avec l’équipe Amap
- Le raisonnement multi-étapes permet de construire des plans complexes, comme des itinéraires de voyage incluant des hébergements acceptant les animaux
Tongyi FaRui (agent de recherche juridique)
- Réalise des recherches multi-étapes de niveau avocat, comme la recherche de jurisprudence, la vérification croisée de textes juridiques et l’intégration d’analyses
- Toutes les conclusions s’appuient sur des sources judiciaires vérifiables et incluent des citations précises

Limites et travaux futurs

La limite de contexte de 128K contraint le traitement des tâches très longues
Nécessité de valider l’extensibilité vers des modèles MoE de taille supérieure à 30B
Projet de recherche sur des roll-outs partiels et l’apprentissage off-policy afin d’améliorer l’efficacité du reinforcement learning

Série de recherches

Publication de 11 articles associés, dont WebWalker, WebDancer, WebSailor, WebShaper et WebWatcher
Publication mensuelle de rapports techniques au cours des 6 derniers mois, avec cette fois six nouveaux rapports publiés simultanément avec le modèle Tongyi DeepResearch‑30B‑A3B
Le développement de la prochaine génération de modèles orientés agent va se poursuivre

1 commentaires

GN⁺ 2025-11-04

Avis Hacker News

Ravi de voir un modèle MoE 30B publié pour le « deep research »
Une architecture où plusieurs agents tournent en parallèle est efficace : des modèles légers s’occupent de l’exploration et de l’extraction, tandis que le modèle 30B gère la planification, le routage des outils et la vérification
La structure spécialisée du MoE convient bien à une IA d’agents distribués, mais il faut une orchestration pour les nouvelles tentatives, le consensus et l’évaluation de recherches web en plusieurs étapes
Je me demande si on va voir exploser le nombre de LLM spécialisés
Si les grands modèles deviennent trop massifs et atteignent les limites du préentraînement, on pourrait voir davantage de modèles conçus par usage
Vu que GPT‑3.5 était bon aux échecs alors que les modèles récents le sont moins, il semble y avoir des arbitrages dans les données d’entraînement
- Pour l’instant, les grands modèles généralistes restent meilleurs sur presque tous les plans
  Affiner un petit modèle pour une tâche précise coûte cher, et le rythme de progression des grands modèles est si rapide qu’on se retrouve vite distancé
  Mais si ce rythme ralentit, l’entraînement de petits modèles pourrait redevenir pertinent
- J’aimerais voir un benchmark des LLM performants aux échecs
  Je me suis souvent dit qu’un modèle 4B~8B très bon sur un framework précis comme SvelteKit serait utile
  Il n’est pas certain que la qualité des grands modèles soit toujours meilleure, et si un petit modèle tourne sur un seul GPU, ce serait bien plus pratique
  J’avais proposé à mon frère l’idée d’un site comparatif de LLM pour les échecs, mais il ne l’a pas encore réalisé
- Je ne suis pas d’accord avec l’idée que GPT‑3.5 était fort aux échecs
  En pratique, je l’ai trouvé sujet à beaucoup de coups hallucinés
- Partage du lien seed‑tars.com/game‑tars
- N’est-ce pas justement le cœur de l’architecture MoE ?
  L’avantage, c’est de pouvoir entraîner et améliorer séparément uniquement les parties nécessaires
Je me demande si ces outils de deep research sont réellement utiles
D’après mon expérience, ils ne dépassent pas le niveau d’un résumé de moteur de recherche et produisent seulement des rapports fades
- J’ai essayé pour la conformité juridique d’un petit site web au Royaume-Uni, et quand on fournit du contexte, ça donne des résultats assez personnalisés
  Ce n’est pas au niveau d’un avocat, mais pour un projet sans budget, c’est d’une grande aide
- Même expérience pour moi
  Ça ressemble davantage à un rapport de conseil qui a l’air qualitatif qu’à quelque chose d’utile pour quelqu’un qui cherche réellement à apprendre
- Les rapports sont fades, mais c’est utile pour explorer les sources
  Pour des questions du type « ce sujet a-t-il déjà été étudié ? », ça aide à trouver des exemples à consulter
- J’utilise souvent ChatGPT, et quand je pose une question, il fait bien le tri des sources pertinentes
  Ça ne remplace pas entièrement une vraie recherche, mais c’est très utile pour organiser les premières informations
- Même un résumé de niveau moteur de recherche peut suffire pour trouver de nouvelles idées ou des unknown unknowns
J’ai publié sur Hugging Face un ancien modèle distillé Qwen3 4B et un jeu de données synthétique
- J’aimerais qu’on crée un Hugging Face Space pour l’essayer directement dans le navigateur
  Qwen3 4B m’a impressionné car il tourne bien même sur mon GPU intégré Intel
  J’avais autrefois imaginé un modèle ultra-économique pour la détection de contenus nocifs, et ce genre de petit LLM pourrait remplir ce rôle
  Ça pourrait aussi servir au routage
- Je l’ai testé avec mon MCP de recherche web, et c’est la première fois que je vois cette qualité de deep research sur un modèle aussi petit
Dans l’ensemble, c’est une série intéressante
Mais la propriété CSS word-break: break-word; rend la lecture vraiment pénible
- J’ai essayé de lire aussi, et on a l’impression que les mots ne s’enchaînent pas
Un dimanche matin, je me demande comment auto-héberger ça en hobby d’ingénieur
J’aimerais essayer de le faire tourner, même lentement, avec une 2080Ti et 128GB de VRAM(?)
Je trouve que les contraintes font partie du plaisir
- Pour obtenir de la VRAM à bas prix, les AMD MI50 sont pas mal
  La version 32GB se trouve entre 150 et 250 dollars sur AliExpress, et avec plusieurs cartes on peut monter à 128GB de VRAM
  Ce n’est pas aussi rapide qu’un GPU récent, mais ça reste largement exploitable
- Si tu veux l’essayer rapidement en local, l’application Ollama est la solution la plus simple
  Installation possible sur ollama.com
  Par contre, avec une 2080Ti et 128GB de VRAM, je suis curieux de savoir comment tu fais
- Moi, je fais tourner les modèles sur un MacBook Pro avec 128GB de mémoire unifiée
  C’est lent, mais ça fonctionne bien hors ligne, et je peux l’utiliser même dans un café
  J’utilise Ollama, donc pour les modèles récents il faut attendre qu’ils soient portés
- Voici ma configuration montée avec un budget limité
  Ryzen 9 9950X, 96GB de RAM, deux RTX 3090, alimentation 1600W
  Je peux faire tourner sans souci un modèle 30B quantifié en FP8
- Il voulait probablement parler de RAM plutôt que de VRAM
  Ce modèle est un MoE 30B, mais avec environ 3B de paramètres actifs, donc similaire à Qwen3 MoE
  Je fais tourner un modèle quantifié en 4bit sur un i5‑6600 vieux de 11 ans et une Radeon 6600 (8GB), et j’obtiens environ 12tps avec un contexte de 16k
  Partage aussi d’un exemple de script d’exécution
Les modèles Tongyi sont aussi disponibles sur OpenRouter, avec une version gratuite
openrouter.ai/alibaba/tongyi-deepresearch-30b-a3b
Blague sur le fait que « Deep research » aurait peut-être été traduit par « Agree »
- En réalité, le nom chinois est 通义千问 (Tongyi Qianwen), qui signifie « connaître toutes les questions »
  La prononciation est la même que 同意 (« être d’accord »), mais le sens est différent
  Voir la page officielle d’Alibaba Qwen
Les poids de ce modèle avaient déjà été publiés il y a un mois
- Tout le monde ne suit pas l’actualité en temps réel, donc même un modèle vieux d’un mois peut encore être utile
- Dans ce cas, je serais curieux de connaître sa comparaison de performances avec d’autres modèles
Le « Deep research » d’OpenAI n’est pas un modèle spécifique, mais plutôt un schéma fonctionnel
Le résultat varie selon le modèle utilisé : GPT‑5, GPT‑4o, o3, etc.
- Aujourd’hui, OpenAI, Perplexity, Google Gemini, Anthropic, Grok et presque tous les autres proposent des schémas de recherche similaires
  Ce sont des tâches longues basées sur la recherche, qui collectent des informations pendant 5 à 10 minutes puis génèrent un rapport avec citations
  Le modèle Tongyi est spécialisé dans ce type de boucle recherche + rédaction de rapport

Tongyi DeepResearch – un modèle MoE 30B open source à la hauteur d’OpenAI DeepResearch

Du chatbot à l’agent autonome

Pré-entraînement continu et post-entraînement fondés sur des données synthétiques

Données de post-entraînement (Post-training)

Modes de roll-out

Native ReAct Mode

Heavy Mode

Pipeline d’apprentissage d’agent de bout en bout

Infrastructure

Cas d’usage concrets

Limites et travaux futurs

Série de recherches

À lire aussi

1 commentaires

Avis Hacker News