- Sky-T1-32B-Preview est un modèle de raisonnement et de code offrant des performances comparables à o1-preview, entraîné pour seulement 450 $ (environ 650 000 wons)
- Tout le code est publié en open source, ce qui permet à chacun de le reproduire et de l’améliorer
- Des modèles de raisonnement haute performance comme o1 et Gemini 2.0 peuvent résoudre des tâches complexes, mais leurs détails techniques et leurs poids de modèle restent privés
Open source intégral : progresser ensemble
- Sky-T1-32B-Preview rend tous les détails open source :
Méthode de fabrication (Recipes)
Processus de préparation des données
- Les données ont été générées à l’aide du modèle QwQ-32B-Preview, puis un mélange couvrant plusieurs domaines a été constitué
- Reconstruction et amélioration du format :
- Les données QwQ ont été reformatées avec GPT-4o-mini afin d’améliorer l’efficacité d’apprentissage du modèle de raisonnement
- Ce reformatage a permis de faire passer la précision des données de code de 25 % à plus de 90 %
- Rejection sampling :
- Problèmes de mathématiques : suppression des échantillons inexacts par comparaison avec les bonnes réponses
- Problèmes de code : vérification des réponses en exécutant les tests unitaires du dataset
- Données finales :
- Données de code : 5 000 exemples issus des datasets APPs et TACO
- Données de mathématiques : 10 000 exemples issus de AIME, MATH et Olympiads dans NuminaMATH
- Autres données : 1 000 problèmes de sciences et d’énigmes
Processus d’entraînement
- Modèle entraîné : Qwen2.5-32B-Instruct (modèle open source sans capacité de raisonnement)
- Environnement d’entraînement :
- Utilisation de 8 GPU H100, avec offloading DeepSpeed Zero-3
- Temps d’entraînement : 19 heures
- Coût : environ 450 $ (sur la base de Lambda Cloud)
- L’entraînement a été réalisé avec Llama-Factory
Évaluation et résumé des résultats
- Sky-T1-32B-Preview montre les performances suivantes face aux modèles concurrents sur différents benchmarks :
- Math500 : Sky-T1 atteint 82,4 %, quasiment au même niveau que o1-preview (81,4 %) et nettement devant Qwen-2.5 (76,2 %)
- AIME2024 : Sky-T1 atteint 43,3 %, au-dessus de o1-preview (40,0 %) et très largement supérieur à Qwen-2.5 (16,7 %)
- LiveCodeBench (Easy) : Sky-T1 atteint 86,3 %, proche de Qwen-2.5 (84,6 %), avec un écart limité face à o1-preview (92,9 %)
- LiveCodeBench (Medium) : Sky-T1 atteint 56,8 %, au-dessus de o1-preview (54,9 %) et très nettement devant Qwen-2.5 (40,8 %)
- LiveCodeBench (Hard) : Sky-T1 atteint 17,9 %, dépassant légèrement o1-preview (16,3 %) et creusant un large écart avec Qwen-2.5 (9,8 %)
- GPQA-Diamond : Sky-T1 atteint 56,8 %, légèrement devant QwQ (52,5 %), mais en dessous de o1-preview (75,2 %)
- Sky-T1-32B-Preview affiche de solides performances en mathématiques comme en code, avec un avantage particulier sur les tâches de programmation de difficulté intermédiaire
- Il se classe également parmi les meilleurs sur les benchmarks mathématiques, démontrant globalement qu’il s’agit d’un modèle à la fois efficace et puissant.
Principales découvertes
- Importance de la taille du modèle :
- Les modèles de taille 7B et 14B n’ont montré que des améliorations limitées
- Le modèle 32B est de loin supérieur en termes de performances et de cohérence des résultats
- Importance du mélange de données :
- Un entraînement sur des données d’un seul domaine peut dégrader les performances
- Un mélange équilibré de données de mathématiques et de code permet d’obtenir d’excellents résultats dans les deux domaines
Plan à venir
- Se concentrer sur le développement de modèles capables d’offrir de fortes performances de raisonnement tout en conservant une bonne efficacité
- Étudier des techniques avancées pour améliorer l’efficacité et la précision au moment du test
- Viser le développement de modèles plus avancés grâce à la collaboration avec la communauté
1 commentaires
Pourquoi... pourquoi est-ce que je le lis comme SKT-T1 ?