- Tongyi DeepResearch est le premier agent web entièrement open source à afficher des performances comparables à OpenAI DeepResearch, avec des résultats de tout premier plan sur des benchmarks complexes d’exploration d’information
- Tongyi Lab est l’une des divisions de recherche et développement en IA du groupe Alibaba, centrée sur les grands modèles de langage (LLM), les modèles multimodaux et les technologies d’agents, et à l’origine des modèles QWEN
- Mise en place d’un pipeline d’apprentissage de bout en bout intégrant Agentic Continual Pre-training (CPT), Supervised Fine-Tuning (SFT) et Reinforcement Learning (RL)
- Renforcement des capacités de raisonnement et de planification à long terme via une génération massive de QA entièrement fondée sur des données synthétiques et le paradigme IterResearch
- Prise en charge des modes ReAct et Heavy, pour couvrir du raisonnement simple jusqu’à la recherche complexe en plusieurs étapes, avec des performances stables grâce à l’apprentissage par renforcement basé sur l’algorithme GRPO
- Déjà déployé concrètement dans des services internes et externes à Alibaba, comme Gaode Mate et Tongyi FaRui, démontrant l’utilité pratique et la capacité d’extension des agents de recherche IA open source
Du chatbot à l’agent autonome
- Tongyi DeepResearch est le premier agent web entièrement open source à atteindre un niveau de performance comparable à OpenAI DeepResearch
- Scores enregistrés : Humanity’s Last Exam(HLE) 32.9, BrowseComp 43.4, BrowseComp-ZH 46.7, xbench-DeepSearch 75
- Surpasse tous les agents Deep Research commerciaux et open source existants
- En plus du modèle, l’équipe publie l’ensemble de la méthodologie d’apprentissage basée sur la synthèse de données
- Fournit une infrastructure complète de génération automatisée de données et d’apprentissage par renforcement couvrant Agentic CPT, SFT et RL
- Le framework ReAct permet d’exprimer de fortes capacités intrinsèques sans prompt engineering
- En Heavy Mode, il démontre la limite supérieure de ses capacités de planification et de raisonnement complexes
Pré-entraînement continu et post-entraînement fondés sur des données synthétiques
- Introduction d’Agentic CPT pour construire un modèle de base orienté agent
- Le système AgentFounder met en œuvre une synthèse de données à grande échelle et une boucle itérative de type data flywheel
- Lors des étapes de reconstruction des données et de génération des questions, intégration de documents, données de crawling, graphes de connaissances et historiques d’appels d’outils
- Le tout est restructuré sous forme de mémoire de connaissances open world centrée sur les entités, puis converti en paires (question, réponse) de formats variés
- La synthèse d’actions (Action Synthesis) génère des données d’actions de premier niveau et de niveau supérieur
- En modélisant une structure de prise de décision en plusieurs étapes, elle renforce les capacités décisionnelles
-
Données de post-entraînement (Post-training)
- Mise en place d’un pipeline entièrement automatisé de génération synthétique de QA
- Une série de travaux comme WebWalker, WebSailor et WebShaper produit des données QA basées sur des graphes et à difficulté contrôlée
- Une base de connaissances en graphe fondée sur des random walks et la fusion avec des données tabulaires permettent d’obtenir une structure d’information réaliste
- Des « opérations atomiques » comme la fusion d’entités permettent d’ajuster systématiquement la difficulté
- Une formalisation des problèmes basée sur la théorie des ensembles réduit au minimum l’écart entre structure de l’information et structure de raisonnement
- Amélioration de l’efficacité de la vérification de cohérence des QA
- Un moteur de données automatisé génère des questions de recherche de niveau doctorat
- En partant de connaissances pluridisciplinaires, il produit des QA difficiles via une boucle d’augmentation itérative de la complexité
- Les frameworks ReAct et IterResearch sont utilisés pour apprendre différents schémas de raisonnement
- IterResearch reconfigure l’espace de travail à chaque itération afin de renforcer les capacités de planification à long terme
Modes de roll-out
- Le modèle prend en charge deux modes d’exécution : ReAct mode et Heavy mode
-
Native ReAct Mode
- Suit une boucle Thought–Action–Observation et obtient de très bonnes performances sans prompt engineering
- La longueur de contexte de 128K permet de gérer de nombreux tours d’interaction
- Sa simplicité et sa polyvalence fournissent un critère clair pour évaluer les capacités intrinsèques du modèle
- Conformément au principe de “The Bitter Lesson”, il adopte une méthodologie générale extensible
-
Heavy Mode
- Réalise des tâches de recherche complexes en plusieurs étapes sur la base du paradigme IterResearch
- À chaque tour, seuls les résultats clés sont conservés et un nouvel espace de travail est reconstruit
- Un rapport central est mis à jour en continu pour maintenir un raisonnement de haute qualité
- Le framework Research–Synthesis explore en parallèle les résultats de plusieurs agents de recherche avant de les intégrer
- Cela permet d’élargir les trajectoires d’exploration dans un contexte limité
Pipeline d’apprentissage d’agent de bout en bout
- Mise en place d’une boucle d’apprentissage entièrement intégrée allant de Agentic CPT → SFT → RL
- À l’étape de Reinforcement Learning (RL) on-policy, utilisation de l’algorithme Group Relative Policy Optimization (GRPO)
- La stabilité est assurée par une perte de gradient de politique au niveau du token, une stratégie leave-one-out et le filtrage des échantillons négatifs
- Pendant l’entraînement, l’augmentation de la récompense et le maintien d’une forte entropie de politique soutiennent l’exploration
- Les données synthétiques offrent une distribution plus cohérente que les données annotées par des humains, comme BrowseComp, ce qui améliore l’efficacité de l’apprentissage
-
Infrastructure
- Environnement d’apprentissage synthétique : mise en place d’un environnement simulé avec une base Wikipedia hors ligne et un ensemble d’outils personnalisés
- Sandbox d’outils stable : prévention des erreurs d’appel d’outils via cache, retry et API de secours
- Curatelle automatique des données : synthèse et filtrage des données en temps réel selon la dynamique de l’apprentissage pour améliorer stabilité et performances
- Framework on-policy asynchrone : implémentation d’une boucle RL asynchrone pas à pas basée sur rLLM
- Ce processus aboutit à une boucle d’apprentissage d’agent IA auto-évolutive, capable de résoudre des problèmes de manière stable même dans des environnements dynamiques complexes
Cas d’usage concrets
- Gaode Mate (agent cartographie et navigation)
- Développement du copilote IA « Xiao Gao » en collaboration avec l’équipe Amap
- Le raisonnement multi-étapes permet de construire des plans complexes, comme des itinéraires de voyage incluant des hébergements acceptant les animaux
- Tongyi FaRui (agent de recherche juridique)
- Réalise des recherches multi-étapes de niveau avocat, comme la recherche de jurisprudence, la vérification croisée de textes juridiques et l’intégration d’analyses
- Toutes les conclusions s’appuient sur des sources judiciaires vérifiables et incluent des citations précises
Limites et travaux futurs
- La limite de contexte de 128K contraint le traitement des tâches très longues
- Nécessité de valider l’extensibilité vers des modèles MoE de taille supérieure à 30B
- Projet de recherche sur des roll-outs partiels et l’apprentissage off-policy afin d’améliorer l’efficacité du reinforcement learning
Série de recherches
- Publication de 11 articles associés, dont WebWalker, WebDancer, WebSailor, WebShaper et WebWatcher
- Publication mensuelle de rapports techniques au cours des 6 derniers mois, avec cette fois six nouveaux rapports publiés simultanément avec le modèle Tongyi DeepResearch‑30B‑A3B
- Le développement de la prochaine génération de modèles orientés agent va se poursuivre
1 commentaires
Avis Hacker News
Une architecture où plusieurs agents tournent en parallèle est efficace : des modèles légers s’occupent de l’exploration et de l’extraction, tandis que le modèle 30B gère la planification, le routage des outils et la vérification
La structure spécialisée du MoE convient bien à une IA d’agents distribués, mais il faut une orchestration pour les nouvelles tentatives, le consensus et l’évaluation de recherches web en plusieurs étapes
Si les grands modèles deviennent trop massifs et atteignent les limites du préentraînement, on pourrait voir davantage de modèles conçus par usage
Vu que GPT‑3.5 était bon aux échecs alors que les modèles récents le sont moins, il semble y avoir des arbitrages dans les données d’entraînement
Affiner un petit modèle pour une tâche précise coûte cher, et le rythme de progression des grands modèles est si rapide qu’on se retrouve vite distancé
Mais si ce rythme ralentit, l’entraînement de petits modèles pourrait redevenir pertinent
Je me suis souvent dit qu’un modèle 4B~8B très bon sur un framework précis comme SvelteKit serait utile
Il n’est pas certain que la qualité des grands modèles soit toujours meilleure, et si un petit modèle tourne sur un seul GPU, ce serait bien plus pratique
J’avais proposé à mon frère l’idée d’un site comparatif de LLM pour les échecs, mais il ne l’a pas encore réalisé
En pratique, je l’ai trouvé sujet à beaucoup de coups hallucinés
L’avantage, c’est de pouvoir entraîner et améliorer séparément uniquement les parties nécessaires
D’après mon expérience, ils ne dépassent pas le niveau d’un résumé de moteur de recherche et produisent seulement des rapports fades
Ce n’est pas au niveau d’un avocat, mais pour un projet sans budget, c’est d’une grande aide
Ça ressemble davantage à un rapport de conseil qui a l’air qualitatif qu’à quelque chose d’utile pour quelqu’un qui cherche réellement à apprendre
Pour des questions du type « ce sujet a-t-il déjà été étudié ? », ça aide à trouver des exemples à consulter
Ça ne remplace pas entièrement une vraie recherche, mais c’est très utile pour organiser les premières informations
Qwen3 4B m’a impressionné car il tourne bien même sur mon GPU intégré Intel
J’avais autrefois imaginé un modèle ultra-économique pour la détection de contenus nocifs, et ce genre de petit LLM pourrait remplir ce rôle
Ça pourrait aussi servir au routage
Mais la propriété CSS
word-break: break-word;rend la lecture vraiment pénibleJ’aimerais essayer de le faire tourner, même lentement, avec une 2080Ti et 128GB de VRAM(?)
Je trouve que les contraintes font partie du plaisir
La version 32GB se trouve entre 150 et 250 dollars sur AliExpress, et avec plusieurs cartes on peut monter à 128GB de VRAM
Ce n’est pas aussi rapide qu’un GPU récent, mais ça reste largement exploitable
Installation possible sur ollama.com
Par contre, avec une 2080Ti et 128GB de VRAM, je suis curieux de savoir comment tu fais
C’est lent, mais ça fonctionne bien hors ligne, et je peux l’utiliser même dans un café
J’utilise Ollama, donc pour les modèles récents il faut attendre qu’ils soient portés
Ryzen 9 9950X, 96GB de RAM, deux RTX 3090, alimentation 1600W
Je peux faire tourner sans souci un modèle 30B quantifié en FP8
Ce modèle est un MoE 30B, mais avec environ 3B de paramètres actifs, donc similaire à Qwen3 MoE
Je fais tourner un modèle quantifié en 4bit sur un i5‑6600 vieux de 11 ans et une Radeon 6600 (8GB), et j’obtiens environ 12tps avec un contexte de 16k
Partage aussi d’un exemple de script d’exécution
openrouter.ai/alibaba/tongyi-deepresearch-30b-a3b
La prononciation est la même que 同意 (« être d’accord »), mais le sens est différent
Voir la page officielle d’Alibaba Qwen
Le résultat varie selon le modèle utilisé : GPT‑5, GPT‑4o, o3, etc.
Ce sont des tâches longues basées sur la recherche, qui collectent des informations pendant 5 à 10 minutes puis génèrent un rapport avec citations
Le modèle Tongyi est spécialisé dans ce type de boucle recherche + rédaction de rapport