Sky-T1 : entraîner un modèle de raisonnement haute performance au niveau d’o1-preview pour 450 $

xguru · 2025-01-17T09:45:03+09:00

Sky-T1-32B-Preview est un modèle de raisonnement et de code offrant des performances comparables à o1-preview, entraîné pour seulement 450 $ (environ 650 000 wons) Tout le code est publié en open source, ce qui permet à chacun de le reproduire et de l’améliorer Des modèles de raisonnement haute performance comme o1 et Gemini 2.0 peuvent résoudre des tâches complexes, mais leurs détails techniques et leurs poids de modèle restent privés Open source intégral : progresser ensemble Sky-T1-32B-Preview rend tous les détails open source : Infrastructure : dépôt unifié pour la construction des données, l’entraînement des modèles et l’évaluation Données : 17 000 exemples d’entraînement fournis Détails techniques : rapport technique et logs wandb Poids du modèle : poids du modèle en taille 32B Méthode de fabrication (Recipes) Processus de préparation des données Les données ont été générées à l’aide du modèle QwQ-32B-Preview, puis un mélange couvrant plusieurs domaines a été constitué Reconstruction et amélioration du format : Les données QwQ ont été reformatées avec GPT-4o-mini afin d’améliorer l’efficacité d’apprentissage du modèle de raisonnement Ce reformatage a permis de faire passer la précision des données de code de 25 % à plus de 90 % Rejection sampling : Problèmes de mathématiques : suppression des échantillons inexacts par comparaison avec les bonnes réponses Problèmes de code : vérification des réponses en exécutant les tests unitaires du dataset Données finales : Données de code : 5 000 exemples issus des datasets APPs et TACO Données de mathématiques : 10 000 exemples issus de AIME, MATH et Olympiads dans NuminaMATH Autres données : 1 000 problèmes de sciences et d’énigmes Processus d’entraînement Modèle entraîné : Qwen2.5-32B-Instruct (modèle open source sans capacité de raisonnement) Environnement d’entraînement : Utilisation de 8 GPU H100, avec offloading DeepSpeed Zero-3 Temps d’entraînement : 19 heures Coût : environ 450 $ (sur la base de Lambda Cloud) L’entraînement a été réalisé avec Llama-Factory Évaluation et résumé des résultats Sky-T1-32B-Preview montre les performances suivantes face aux modèles concurrents sur différents benchmarks : Math500 : Sky-T1 atteint 82,4 %, quasiment au même niveau que o1-preview (81,4 %) et nettement devant Qwen-2.5 (76,2 %) AIME2024 : Sky-T1 atteint 43,3 %, au-dessus de o1-preview (40,0 %) et très largement supérieur à Qwen-2.5 (16,7 %) LiveCodeBench (Easy) : Sky-T1 atteint 86,3 %, proche de Qwen-2.5 (84,6 %), avec un écart limité face à o1-preview (92,9 %) LiveCodeBench (Medium) : Sky-T1 atteint 56,8 %, au-dessus de o1-preview (54,9 %) et très nettement devant Qwen-2.5 (40,8 %) LiveCodeBench (Hard) : Sky-T1 atteint 17,9 %, dépassant légèrement o1-preview (16,3 %) et creusant un large écart avec Qwen-2.5 (9,8 %) GPQA-Diamond : Sky-T1 atteint 56,8 %, légèrement devant QwQ (52,5 %), mais en dessous de o1-preview (75,2 %) Sky-T1-32B-Preview affiche de solides performances en mathématiques comme en code, avec un avantage particulier sur les tâches de programmation de difficulté intermédiaire Il se classe également parmi les meilleurs sur les benchmarks mathématiques, démontrant globalement qu’il s’agit d’un modèle à la fois efficace et puissant. Principales découvertes Importance de la taille du modèle : Les modèles de taille 7B et 14B n’ont montré que des améliorations limitées Le modèle 32B est de loin supérieur en termes de performances et de cohérence des résultats Importance du mélange de données : Un entraînement sur des données d’un seul domaine peut dégrader les performances Un mélange équilibré de données de mathématiques et de code permet d’obtenir d’excellents résultats dans les deux domaines Plan à venir Se concentrer sur le développement de modèles capables d’offrir de fortes performances de raisonnement tout en conservant une bonne efficacité Étudier des techniques avancées pour améliorer l’efficacité et la précision au moment du test Viser le développement de modèles plus avancés grâce à la collaboration avec la communauté

(novasky-ai.github.io)

22 points par xguru 2025-01-17 | 1 commentaires | Partager sur WhatsApp

Sky-T1-32B-Preview est un modèle de raisonnement et de code offrant des performances comparables à o1-preview, entraîné pour seulement 450 $ (environ 650 000 wons)
Tout le code est publié en open source, ce qui permet à chacun de le reproduire et de l’améliorer
- Des modèles de raisonnement haute performance comme o1 et Gemini 2.0 peuvent résoudre des tâches complexes, mais leurs détails techniques et leurs poids de modèle restent privés

Open source intégral : progresser ensemble

Sky-T1-32B-Preview rend tous les détails open source :
- Infrastructure : dépôt unifié pour la construction des données, l’entraînement des modèles et l’évaluation
- Données : 17 000 exemples d’entraînement fournis
- Détails techniques : rapport technique et logs wandb
- Poids du modèle : poids du modèle en taille 32B

Méthode de fabrication (Recipes)

Processus de préparation des données

Les données ont été générées à l’aide du modèle QwQ-32B-Preview, puis un mélange couvrant plusieurs domaines a été constitué
Reconstruction et amélioration du format :
- Les données QwQ ont été reformatées avec GPT-4o-mini afin d’améliorer l’efficacité d’apprentissage du modèle de raisonnement
- Ce reformatage a permis de faire passer la précision des données de code de 25 % à plus de 90 %
Rejection sampling :
- Problèmes de mathématiques : suppression des échantillons inexacts par comparaison avec les bonnes réponses
- Problèmes de code : vérification des réponses en exécutant les tests unitaires du dataset
Données finales :
- Données de code : 5 000 exemples issus des datasets APPs et TACO
- Données de mathématiques : 10 000 exemples issus de AIME, MATH et Olympiads dans NuminaMATH
- Autres données : 1 000 problèmes de sciences et d’énigmes

Processus d’entraînement

Modèle entraîné : Qwen2.5-32B-Instruct (modèle open source sans capacité de raisonnement)
Environnement d’entraînement :
- Utilisation de 8 GPU H100, avec offloading DeepSpeed Zero-3
- Temps d’entraînement : 19 heures
- Coût : environ 450 $ (sur la base de Lambda Cloud)
L’entraînement a été réalisé avec Llama-Factory

Évaluation et résumé des résultats

Sky-T1-32B-Preview montre les performances suivantes face aux modèles concurrents sur différents benchmarks :
- Math500 : Sky-T1 atteint 82,4 %, quasiment au même niveau que o1-preview (81,4 %) et nettement devant Qwen-2.5 (76,2 %)
- AIME2024 : Sky-T1 atteint 43,3 %, au-dessus de o1-preview (40,0 %) et très largement supérieur à Qwen-2.5 (16,7 %)
- LiveCodeBench (Easy) : Sky-T1 atteint 86,3 %, proche de Qwen-2.5 (84,6 %), avec un écart limité face à o1-preview (92,9 %)
- LiveCodeBench (Medium) : Sky-T1 atteint 56,8 %, au-dessus de o1-preview (54,9 %) et très nettement devant Qwen-2.5 (40,8 %)
- LiveCodeBench (Hard) : Sky-T1 atteint 17,9 %, dépassant légèrement o1-preview (16,3 %) et creusant un large écart avec Qwen-2.5 (9,8 %)
- GPQA-Diamond : Sky-T1 atteint 56,8 %, légèrement devant QwQ (52,5 %), mais en dessous de o1-preview (75,2 %)
Sky-T1-32B-Preview affiche de solides performances en mathématiques comme en code, avec un avantage particulier sur les tâches de programmation de difficulté intermédiaire
Il se classe également parmi les meilleurs sur les benchmarks mathématiques, démontrant globalement qu’il s’agit d’un modèle à la fois efficace et puissant.

Principales découvertes

Importance de la taille du modèle :
- Les modèles de taille 7B et 14B n’ont montré que des améliorations limitées
- Le modèle 32B est de loin supérieur en termes de performances et de cohérence des résultats
Importance du mélange de données :
- Un entraînement sur des données d’un seul domaine peut dégrader les performances
- Un mélange équilibré de données de mathématiques et de code permet d’obtenir d’excellents résultats dans les deux domaines

Plan à venir

Se concentrer sur le développement de modèles capables d’offrir de fortes performances de raisonnement tout en conservant une bonne efficacité
Étudier des techniques avancées pour améliorer l’efficacité et la précision au moment du test
Viser le développement de modèles plus avancés grâce à la collaboration avec la communauté

1 commentaires

kimjoin2 2025-01-17

Pourquoi... pourquoi est-ce que je le lis comme SKT-T1 ?