Entraîner soi-même un modèle de niveau O1 Preview pour moins de 450 dollars

(sky.cs.berkeley.edu)

1 points par GN⁺ 2025-02-22 | 1 commentaires | Partager sur WhatsApp

Sky-T1, de l’équipe NovaSky de l’UC Berkeley, est un projet qui met en avant la possibilité d’entraîner soi-même un modèle de raisonnement de niveau O1 Preview pour un coût inférieur à 450 dollars
o1 et Gemini 2.0 Flash Thinking affichent de solides performances de raisonnement sur des tâches complexes en s’appuyant sur de longues chaînes de pensée internes
Comme les détails techniques et les poids de ces modèles ne sont pas publiés, il est difficile pour le monde académique et la communauté open source de les reproduire et de les étendre
Des tentatives de modèles de raisonnement à poids ouverts, comme Still-2 et Journey, ont bien existé, mais elles se concentraient principalement sur le domaine des mathématiques
L’équipe NovaSky présente Sky-T1 comme différent, car il atteint des performances de raisonnement compétitives à la fois en mathématiques et en codage avec le même modèle

Le problème visé par Sky-T1

Sky-T1 est un projet publié par l’équipe NovaSky du Sky Computing Lab de l’UC Berkeley, qui met au premier plan l’idée d’entraîner soi-même un modèle O1 Preview pour moins de 450 dollars
Les modèles spécialisés dans le raisonnement, comme o1 et Gemini 2.0 Flash Thinking, montrent leur capacité à générer de longues chaînes de pensée internes lorsqu’ils résolvent des tâches complexes
Toutefois, faute d’accès aux détails techniques et aux poids de ces modèles, le monde académique et la communauté open source peuvent difficilement y participer directement

Modèles de raisonnement à poids ouverts : tendance et différenciation

Parmi les tentatives d’entraînement de modèles de raisonnement à poids ouverts figurent Still-2 et Journey, qui se concentrent sur le domaine des mathématiques
L’équipe NovaSky explore des techniques pour améliorer les capacités de raisonnement des modèles de base et des modèles instruct-tuned
Les travaux sur Sky-T1 soulignent qu’ils ont atteint, avec le même modèle, des performances de raisonnement compétitives non seulement en mathématiques, mais aussi en codage

1 commentaires

GN⁺ 2025-02-22

Commentaires sur Hacker News

Si ça vous intéresse, j’ai préparé un notebook Colab avec un GPU gratuit
Il y a un notebook pour entraîner un modèle de raisonnement à partir de zéro avec GRPO, l’algorithme utilisé par DeepSeek, et un notebook de fine-tuning général comme celui utilisé par l’équipe de Berkeley
GRPO notebook for Llama 3.1 8B: https://colab.research.google.com/github/unslothai/notebooks...
General finetuning notebook: https://colab.research.google.com/github/unslothai/notebooks...
Jeu de données 17K de l’équipe de Berkeley: https://huggingface.co/datasets/NovaSky-AI/Sky-T1_data_17k Hugging Face a aussi publié un jeu de données 220K: https://huggingface.co/datasets/open-r1/OpenR1-Math-220k
- Je me demande combien de temps ça prend sur le T4 du tier gratuit
  Je pensais que ce genre de travail consistant à « mettre les mains dans le cambouis » serait bien plus difficile d’accès pour un programmeur ordinaire, mais ça a l’air faisable au point de donner envie d’essayer
Mettre O1 preview dans le nom me semble bizarre, comme du clickbait
Je m’attendais à quelque chose comme une méthode pour réentraîner réellement o1 preview et le télécharger
Et appeler ça O1 preview sur la base de seulement 7 benchmarks, ce n’est pas juste. Dans certains cas d’usage, O1 preview pourrait faire mieux que ce modèle
Cela dit, la baisse des coûts reste une bonne chose
- Ce n’est même pas seulement un modèle de langage précis: le nom renvoie directement à la version bêta de ce modèle, ce que je trouve malhonnête. Je ne comprends vraiment pas pourquoi
- D’accord. Le nom O1 preview prête un peu à confusion
  Il fait attendre des performances plus larges que quelques benchmarks précis. La réduction des coûts est excellente, mais le marketing devrait être plus transparent sur le périmètre d’application
La concurrence, c’est vraiment bien
Les progrès affluent depuis quelques semaines rien que parce que quelqu’un a publié une architecture
On imagine jusqu’où on pourrait aller si même les jeux de données d’entraînement étaient publiés et n’étaient pas entravés par le droit d’auteur. Je ne dis pas qu’il faut faire quelque chose d’illégal
On ne peut que rêver, j’imagine
- « Les progrès affluent » est exactement la bonne formule. Surtout depuis qu’on sait sur quoi Meta a entraîné ses modèles :)
- De tels jeux de données d’entraînement sont presque tous soumis au droit d’auteur, donc ils ne pourront jamais être libres
- Cette dynamique était déjà en cours, et DeepSeek me semble être un exemple parmi d’autres
  Mais cela a attiré l’attention sur ces avancées, ce qui a poussé davantage de personnes à contribuer et à trouver des cas d’usage plus spécialisés
- L’ambiance du moment, ce n’est pas que si on a la startup la plus en vue, on peut simplement enfreindre la loi et soudoyer les fonctionnaires ? /s
  Pour compléter le /s: j’ai vécu à l’étranger à une époque, j’exploitais alors le casino Bitcoin le plus populaire, et j’ai dépensé énormément d’argent et d’énergie à bloquer les joueurs qui pouvaient être américains. Du coup, je n’ai pas gagné énormément d’argent
  J’avais calculé combien il faudrait gagner pour enfreindre la loi et se cacher pour toujours; je pouvais peut-être gagner 10 à 15 millions de dollars par an, mais j’ai estimé que ce n’était pas assez pour se cacher. J’ai l’impression d’avoir tout raté
  L’homme le plus riche du monde a gagné l’essentiel de son argent au départ en facilitant des transactions de jeu d’argent, et maintenant il met son nez dans toutes les agences fédérales. J’aurais sans doute dû avoir le culot de demander pardon plutôt que la permission
Dans les déploiements IA réels, le calcul au moment de l’inférence reste très sous-exploité
Beaucoup de gens construisent des modèles de fondation qui doivent raisonner sur de vastes domaines de problèmes, mais trop peu utilisent les mêmes techniques pour améliorer les performances sur des tâches spécifiques
On peut facilement distiller le raisonnement de modèles plus grands comme R1 pour une tâche donnée. Mieux encore, en y mêlant des instructions de réflexion personnalisées pour certains sous-problèmes, le modèle fine-tuné apprend à la fois le raisonnement propre à la tâche et la logique personnalisée
Ce n’est pas difficile et ça bat facilement l’itération de prompts. Si vous trouvez un bug, vous pouvez aussi le corriger
J’ai créé un projet GitHub pour la distillation de modèles de réflexion et le fine-tuning au moment de l’inférence de processus de réflexion personnalisés: https://docs.getkiln.ai/docs/guide-train-a-reasoning-model
- Je me demande comment il faudrait structurer les données de fine-tuning pour une plage de requêtes flexible dans un domaine de problèmes donné, plutôt que pour une tâche isolée
  C’est similaire au tuning d’instructions général, mais avec un périmètre beaucoup plus étroit
  Par exemple, imaginons une application qui aide les médecins à rechercher la littérature scientifique pour assister un diagnostic et vérifier des hypothèses; il faut évidemment s’appuyer sur des experts du domaine et de vrais utilisateurs pour voir quelles requêtes créer
  Mais ensuite, le passage vers un jeu de données équilibré qui représente suffisamment la distribution des requêtes, instructions, styles rédactionnels et cognitifs, formats, flux de conversation, etc. possibles me semble difficile à aborder. On dirait qu’il y a une infinité de dimensions sur lesquelles on pourrait surapprendre par accident
L’article de blog est un peu flou, donc je l’ai compris ainsi
Ils ont créé les données d’entraînement avec QwQ, avec un peu de nettoyage fait par GPT-4o-mini. Ils ont ensuite fine-tuné Qwen2.5-32B-Instruct, un modèle sans raisonnement, sur ces données d’entraînement
Au final, Sky-T1 est un peu moins bon que QwQ sur les tâches de raisonnement, mais bien meilleur que Qwen2.5
Certains réagissent en minimisant le résultat, mais je trouve ça assez intéressant, car cela montre qu’on peut fine-tuner un modèle de base pour le rendre meilleur en raisonnement
- J’aurais aimé voir une comparaison avec les modèles distillés de r1 pour qwen2.5
Ce n’est pas un entraînement à partir de zéro mais du fine-tuning, donc la proposition me paraît beaucoup plus raisonnable
Même si je ne suis pas plongé très profondément dans ce domaine, j’étais curieux des détails du fine-tuning, et j’apprécie qu’on puisse récupérer à la fois le jeu de données et le code
Meilleure URL: https://novasky-ai.github.io/posts/sky-t1/
- La discussion précédente est ici: https://news.ycombinator.com/item?id=42681417
Il a été entraîné sur les traces de raisonnement de QwQ, et dans l’évaluation il est globalement un peu moins bon que QwQ
Difficile d’y voir un exploit énorme
Le passage clé semble être: « L’entraînement du modèle se termine en 19 heures sur 8 H100 avec offloading DeepSpeed Zero-3, pour environ 450 dollars selon les tarifs de Lambda Cloud »

Entraîner soi-même un modèle de niveau O1 Preview pour moins de 450 dollars

Le problème visé par Sky-T1

Modèles de raisonnement à poids ouverts : tendance et différenciation

À lire aussi

1 commentaires

Commentaires sur Hacker News