Tencent Hunyuan-T1 - le premier très grand modèle basé sur l’architecture Mamba

(llm.hunyuan.tencent.com)

2 points par GN⁺ 2025-03-23 | 1 commentaires | Partager sur WhatsApp

Hunyuan-T1 est un très grand modèle hybride Transformer-Mamba MoE basé sur TurboS
Grâce à un apprentissage post-entraînement à grande échelle, il étend ses capacités de raisonnement en les alignant sur les préférences humaines et améliore ses performances
Les capacités de traitement des textes longs de TurboS résolvent les problèmes de perte de contexte et de dépendance aux informations à longue distance
L’architecture Mamba optimise le traitement des longues séquences, permettant de capturer efficacement les informations de longs textes avec une méthode de calcul efficiente
- Dans les mêmes conditions de déploiement, la vitesse de décodage est doublée
Lors de la phase de post-entraînement du modèle, 96,7 % de la puissance de calcul totale a été consacrée à l’apprentissage par renforcement
- Des jeux de données incluant des problèmes variés en mathématiques, raisonnement logique, sciences, code, etc. ont été collectés afin de renforcer les capacités de raisonnement du modèle
- Les performances du modèle ont été renforcées grâce à un feedback sur les bonnes réponses et aux retours utilisateurs en temps réel
- Adoption d’une approche d’apprentissage par curriculum
  - La difficulté des données est augmentée progressivement tout en étendant la longueur de contexte du modèle
  - Renforcement de la capacité à utiliser les tokens de manière efficace
Stratégie d’apprentissage par renforcement : application de stratégies de réapprentissage des données et de réinitialisation de politique → amélioration de plus de 50 % de la stabilité de l’entraînement
Système de récompense
- Adoption d’un mécanisme d’auto-récompense → le modèle évalue et note lui-même ses sorties
- Mise en place d’un système de récompense complet → renforcement de l’efficacité informationnelle du modèle et du niveau de détail des contenus

Évaluation des performances sur les benchmarks

Excellentes performances sur des indicateurs de raisonnement chinois et anglophones tels que MMLU-pro, CEval, AIME, Zebra Logic
Performances au niveau de DeepSeek R1, voire légèrement supérieures
- Avantage en créativité culturelle, résumé de texte et capacités agentiques
Score de 87,2 à l’évaluation MMLU-PRO → démonstration d’une excellente mémoire et compréhension dans 14 domaines, dont les humanités, les sciences sociales, les sciences et technologies
Score de 69,3 à l’évaluation GPQA-diamond → confirmation de capacités de résolution de problèmes de niveau doctorat en physique, chimie et biologie
Solides performances démontrées en code, mathématiques et raisonnement logique
- Score de 64,9 sur LiveCodeBench → confirmation des capacités de rédaction et de compréhension du code
- 96,2 sur MATH-500 → démonstration de capacités de résolution de problèmes mathématiques proches de DeepSeek R1
Score de 91,9 sur ArenaHard → montre une forte adaptabilité sur diverses tâches d’alignement, de suivi d’instructions et d’utilisation d’outils

1 commentaires

GN⁺ 2025-03-23

Commentaires Hacker News

Les excellentes performances du modèle prouvent pleinement que l’apprentissage par renforcement joue un rôle important dans le processus d’optimisation
- Cela soulève la question suivante : si cet apprentissage par renforcement ne fournit pas de meilleures réponses ailleurs et ne fait que manipuler les benchmarks, comment pourrait-on s’en rendre compte ?
Après avoir un peu utilisé ce modèle, il semble avoir tendance à répondre en chinois à des questions posées en anglais
Leur grand modèle comptait 389b paramètres, alors je me demande quelle est la taille d’un modèle ultra-large
Il y a tellement de modèles qui sortent en ce moment et tant de progrès dans le domaine de l’IA qu’il est difficile de suivre
- Il est difficile de savoir ce qui est réellement révolutionnaire ou important
Il est intéressant de voir qu’un modèle basé sur Mamba fonctionne bien
La romanisation de ce type de noms est toujours déroutante
- Une fois les caractères et les tons retirés, cela devient simplement une suite de lettres sans signification
- "Hunyuan", ou 混元 en chinois, signifie "chaos primordial" ou "unité primordiale"
- Cela aide à mieux les mémoriser à mesure que davantage de produits et services chinois arrivent sur le marché
- C’est similaire à la popularité de la mythologie grecque dans les produits occidentaux (par ex. tous les produits nommés "Apollo")
Je me demande si le fait qu’ils soient connectés à une démo Huggingface laisse entendre qu’ils vont publier les poids
Kobe ?

Tencent Hunyuan-T1 - le premier très grand modèle basé sur l’architecture Mamba

Évaluation des performances sur les benchmarks

À lire aussi

1 commentaires

Commentaires Hacker News