2 points par GN⁺ 2025-03-23 | 1 commentaires | Partager sur WhatsApp
  • Hunyuan-T1 est un très grand modèle hybride Transformer-Mamba MoE basé sur TurboS
  • Grâce à un apprentissage post-entraînement à grande échelle, il étend ses capacités de raisonnement en les alignant sur les préférences humaines et améliore ses performances
  • Les capacités de traitement des textes longs de TurboS résolvent les problèmes de perte de contexte et de dépendance aux informations à longue distance
  • L’architecture Mamba optimise le traitement des longues séquences, permettant de capturer efficacement les informations de longs textes avec une méthode de calcul efficiente
    • Dans les mêmes conditions de déploiement, la vitesse de décodage est doublée
  • Lors de la phase de post-entraînement du modèle, 96,7 % de la puissance de calcul totale a été consacrée à l’apprentissage par renforcement
    • Des jeux de données incluant des problèmes variés en mathématiques, raisonnement logique, sciences, code, etc. ont été collectés afin de renforcer les capacités de raisonnement du modèle
    • Les performances du modèle ont été renforcées grâce à un feedback sur les bonnes réponses et aux retours utilisateurs en temps réel
    • Adoption d’une approche d’apprentissage par curriculum
      • La difficulté des données est augmentée progressivement tout en étendant la longueur de contexte du modèle
      • Renforcement de la capacité à utiliser les tokens de manière efficace
  • Stratégie d’apprentissage par renforcement : application de stratégies de réapprentissage des données et de réinitialisation de politique → amélioration de plus de 50 % de la stabilité de l’entraînement
  • Système de récompense
    • Adoption d’un mécanisme d’auto-récompense → le modèle évalue et note lui-même ses sorties
    • Mise en place d’un système de récompense complet → renforcement de l’efficacité informationnelle du modèle et du niveau de détail des contenus

Évaluation des performances sur les benchmarks

  • Excellentes performances sur des indicateurs de raisonnement chinois et anglophones tels que MMLU-pro, CEval, AIME, Zebra Logic
  • Performances au niveau de DeepSeek R1, voire légèrement supérieures
    • Avantage en créativité culturelle, résumé de texte et capacités agentiques
  • Score de 87,2 à l’évaluation MMLU-PRO → démonstration d’une excellente mémoire et compréhension dans 14 domaines, dont les humanités, les sciences sociales, les sciences et technologies
  • Score de 69,3 à l’évaluation GPQA-diamond → confirmation de capacités de résolution de problèmes de niveau doctorat en physique, chimie et biologie
  • Solides performances démontrées en code, mathématiques et raisonnement logique
    • Score de 64,9 sur LiveCodeBench → confirmation des capacités de rédaction et de compréhension du code
    • 96,2 sur MATH-500 → démonstration de capacités de résolution de problèmes mathématiques proches de DeepSeek R1
  • Score de 91,9 sur ArenaHard → montre une forte adaptabilité sur diverses tâches d’alignement, de suivi d’instructions et d’utilisation d’outils

1 commentaires

 
GN⁺ 2025-03-23
Commentaires Hacker News
  • Les excellentes performances du modèle prouvent pleinement que l’apprentissage par renforcement joue un rôle important dans le processus d’optimisation
    • Cela soulève la question suivante : si cet apprentissage par renforcement ne fournit pas de meilleures réponses ailleurs et ne fait que manipuler les benchmarks, comment pourrait-on s’en rendre compte ?
  • Après avoir un peu utilisé ce modèle, il semble avoir tendance à répondre en chinois à des questions posées en anglais
  • Leur grand modèle comptait 389b paramètres, alors je me demande quelle est la taille d’un modèle ultra-large
  • Il y a tellement de modèles qui sortent en ce moment et tant de progrès dans le domaine de l’IA qu’il est difficile de suivre
    • Il est difficile de savoir ce qui est réellement révolutionnaire ou important
  • Il est intéressant de voir qu’un modèle basé sur Mamba fonctionne bien
  • La romanisation de ce type de noms est toujours déroutante
    • Une fois les caractères et les tons retirés, cela devient simplement une suite de lettres sans signification
    • "Hunyuan", ou 混元 en chinois, signifie "chaos primordial" ou "unité primordiale"
    • Cela aide à mieux les mémoriser à mesure que davantage de produits et services chinois arrivent sur le marché
    • C’est similaire à la popularité de la mythologie grecque dans les produits occidentaux (par ex. tous les produits nommés "Apollo")
  • Je me demande si le fait qu’ils soient connectés à une démo Huggingface laisse entendre qu’ils vont publier les poids
  • Kobe ?