22 points par xguru 2025-01-17 | 1 commentaires | Partager sur WhatsApp
  • Sky-T1-32B-Preview est un modèle de raisonnement et de code offrant des performances comparables à o1-preview, entraîné pour seulement 450 $ (environ 650 000 wons)
  • Tout le code est publié en open source, ce qui permet à chacun de le reproduire et de l’améliorer
    • Des modèles de raisonnement haute performance comme o1 et Gemini 2.0 peuvent résoudre des tâches complexes, mais leurs détails techniques et leurs poids de modèle restent privés

Open source intégral : progresser ensemble

Méthode de fabrication (Recipes)

Processus de préparation des données

  • Les données ont été générées à l’aide du modèle QwQ-32B-Preview, puis un mélange couvrant plusieurs domaines a été constitué
  • Reconstruction et amélioration du format :
    • Les données QwQ ont été reformatées avec GPT-4o-mini afin d’améliorer l’efficacité d’apprentissage du modèle de raisonnement
    • Ce reformatage a permis de faire passer la précision des données de code de 25 % à plus de 90 %
  • Rejection sampling :
    • Problèmes de mathématiques : suppression des échantillons inexacts par comparaison avec les bonnes réponses
    • Problèmes de code : vérification des réponses en exécutant les tests unitaires du dataset
  • Données finales :
    • Données de code : 5 000 exemples issus des datasets APPs et TACO
    • Données de mathématiques : 10 000 exemples issus de AIME, MATH et Olympiads dans NuminaMATH
    • Autres données : 1 000 problèmes de sciences et d’énigmes

Processus d’entraînement

  • Modèle entraîné : Qwen2.5-32B-Instruct (modèle open source sans capacité de raisonnement)
  • Environnement d’entraînement :
    • Utilisation de 8 GPU H100, avec offloading DeepSpeed Zero-3
    • Temps d’entraînement : 19 heures
    • Coût : environ 450 $ (sur la base de Lambda Cloud)
  • L’entraînement a été réalisé avec Llama-Factory

Évaluation et résumé des résultats

  • Sky-T1-32B-Preview montre les performances suivantes face aux modèles concurrents sur différents benchmarks :
    • Math500 : Sky-T1 atteint 82,4 %, quasiment au même niveau que o1-preview (81,4 %) et nettement devant Qwen-2.5 (76,2 %)
    • AIME2024 : Sky-T1 atteint 43,3 %, au-dessus de o1-preview (40,0 %) et très largement supérieur à Qwen-2.5 (16,7 %)
    • LiveCodeBench (Easy) : Sky-T1 atteint 86,3 %, proche de Qwen-2.5 (84,6 %), avec un écart limité face à o1-preview (92,9 %)
    • LiveCodeBench (Medium) : Sky-T1 atteint 56,8 %, au-dessus de o1-preview (54,9 %) et très nettement devant Qwen-2.5 (40,8 %)
    • LiveCodeBench (Hard) : Sky-T1 atteint 17,9 %, dépassant légèrement o1-preview (16,3 %) et creusant un large écart avec Qwen-2.5 (9,8 %)
    • GPQA-Diamond : Sky-T1 atteint 56,8 %, légèrement devant QwQ (52,5 %), mais en dessous de o1-preview (75,2 %)
  • Sky-T1-32B-Preview affiche de solides performances en mathématiques comme en code, avec un avantage particulier sur les tâches de programmation de difficulté intermédiaire
  • Il se classe également parmi les meilleurs sur les benchmarks mathématiques, démontrant globalement qu’il s’agit d’un modèle à la fois efficace et puissant.

Principales découvertes

  • Importance de la taille du modèle :
    • Les modèles de taille 7B et 14B n’ont montré que des améliorations limitées
    • Le modèle 32B est de loin supérieur en termes de performances et de cohérence des résultats
  • Importance du mélange de données :
    • Un entraînement sur des données d’un seul domaine peut dégrader les performances
    • Un mélange équilibré de données de mathématiques et de code permet d’obtenir d’excellents résultats dans les deux domaines

Plan à venir

  • Se concentrer sur le développement de modèles capables d’offrir de fortes performances de raisonnement tout en conservant une bonne efficacité
  • Étudier des techniques avancées pour améliorer l’efficacité et la précision au moment du test
  • Viser le développement de modèles plus avancés grâce à la collaboration avec la communauté

1 commentaires

 
kimjoin2 2025-01-17

Pourquoi... pourquoi est-ce que je le lis comme SKT-T1 ?