- Hunyuan-T1 est un très grand modèle hybride Transformer-Mamba MoE basé sur TurboS
- Grâce à un apprentissage post-entraînement à grande échelle, il étend ses capacités de raisonnement en les alignant sur les préférences humaines et améliore ses performances
- Les capacités de traitement des textes longs de TurboS résolvent les problèmes de perte de contexte et de dépendance aux informations à longue distance
- L’architecture Mamba optimise le traitement des longues séquences, permettant de capturer efficacement les informations de longs textes avec une méthode de calcul efficiente
- Dans les mêmes conditions de déploiement, la vitesse de décodage est doublée
- Lors de la phase de post-entraînement du modèle, 96,7 % de la puissance de calcul totale a été consacrée à l’apprentissage par renforcement
- Des jeux de données incluant des problèmes variés en mathématiques, raisonnement logique, sciences, code, etc. ont été collectés afin de renforcer les capacités de raisonnement du modèle
- Les performances du modèle ont été renforcées grâce à un feedback sur les bonnes réponses et aux retours utilisateurs en temps réel
- Adoption d’une approche d’apprentissage par curriculum
- La difficulté des données est augmentée progressivement tout en étendant la longueur de contexte du modèle
- Renforcement de la capacité à utiliser les tokens de manière efficace
- Stratégie d’apprentissage par renforcement : application de stratégies de réapprentissage des données et de réinitialisation de politique → amélioration de plus de 50 % de la stabilité de l’entraînement
- Système de récompense
- Adoption d’un mécanisme d’auto-récompense → le modèle évalue et note lui-même ses sorties
- Mise en place d’un système de récompense complet → renforcement de l’efficacité informationnelle du modèle et du niveau de détail des contenus
Évaluation des performances sur les benchmarks
- Excellentes performances sur des indicateurs de raisonnement chinois et anglophones tels que MMLU-pro, CEval, AIME, Zebra Logic
- Performances au niveau de DeepSeek R1, voire légèrement supérieures
- Avantage en créativité culturelle, résumé de texte et capacités agentiques
- Score de 87,2 à l’évaluation MMLU-PRO → démonstration d’une excellente mémoire et compréhension dans 14 domaines, dont les humanités, les sciences sociales, les sciences et technologies
- Score de 69,3 à l’évaluation GPQA-diamond → confirmation de capacités de résolution de problèmes de niveau doctorat en physique, chimie et biologie
- Solides performances démontrées en code, mathématiques et raisonnement logique
- Score de 64,9 sur LiveCodeBench → confirmation des capacités de rédaction et de compréhension du code
- 96,2 sur MATH-500 → démonstration de capacités de résolution de problèmes mathématiques proches de DeepSeek R1
- Score de 91,9 sur ArenaHard → montre une forte adaptabilité sur diverses tâches d’alignement, de suivi d’instructions et d’utilisation d’outils
1 commentaires
Commentaires Hacker News