s1 : un rival de R1 à 6 $ ?

(timkellogg.me)

14 points par GN⁺ 2025-02-06 | 2 commentaires | Partager sur WhatsApp

Le nouvel article publié le 3 février, "s1: Simple test-time scaling", fait beaucoup parler de lui dans le domaine de l’IA
Le point important n’est pas tant le modèle lui-même que le fait qu’il suggère qu’une avancée majeure pourrait survenir dans le domaine de l’IA
Ce modèle n’atteint pas l’état de l’art (SOTA), mais c’est un petit modèle capable de tourner même sur un ordinateur portable
L’essentiel, c’est qu’il aide à comprendre comment cette technique fonctionne sans complexité inutile

Extension du raisonnement : « Attends » pour moi !

OpenAI a présenté un graphique pour défendre l’idée que « plus le temps de raisonnement est long, meilleures sont les performances d’un LLM »
En substance, un LLM peut être plus performant s’il peut "réfléchir" plus longtemps
Le problème, c’est de savoir comment contrôler le modèle pour qu’il puisse "penser" plus longtemps avant de répondre, et les explications sur la manière d’y parvenir restaient limitées
L’article sur s1 détaille précisément ce point, et c’est intéressant

Quand un LLM "pense" pendant l’inférence, on entraîne le modèle à placer son processus de pensée interne à l’intérieur des balises <think> et </think>, puis, quand </think> apparaît, à changer de ton pour fournir la réponse finale avec assurance et autorité

L’article s1 décrit une méthode simple consistant à forcer le remplacement de "</think>" par "Wait" afin d’amener le modèle à "réfléchir" plus longtemps
- En supprimant ou en remplaçant "</think>", on pousse le modèle à continuer à développer sa réflexion
- Il est aussi possible d’abréger le raisonnement en insérant soudainement "</think>"
Avec cette approche, on suppose que des modèles comme o3-mini-low et o3-mini-high ont probablement été entraînés à appliquer des temps de raisonnement moyens différents
- Ils ont sans doute entraîné trois modèles, chacun avec un temps de réflexion moyen différent (mesuré pendant l’entraînement)
- Au final, le processus d’entraînement commence à encoder ce comportement dans les poids du modèle

Lien avec Entropix

La technique du "Wait" présentée dans l’article s1 ne diffère pas fondamentalement de l’approche poursuivie par Entropix
Entropix est une technique qui modifie la manière de sélectionner les tokens en examinant l’entropie des logits et de l’attention, ainsi que la varentropy
- Il semble qu’elle ait tenté d’amener le modèle à reconsidérer sa réponse via des tokens comme "Wait"
Ce type d’approche pourrait vraisemblablement s’appliquer aussi bien au moment de l’inférence qu’au moment de l’entraînement

Frugalité extrême des données

Si le modèle s1 affirme avoir été développé pour seulement 6 dollars, c’est parce qu’il a été entraîné avec un petit modèle et une faible quantité de données
La démarche a consisté à ne retenir que les 1K exemples les plus utiles parmi 56K exemples de données
- La conclusion est que des données supplémentaires n’ont apporté aucune amélioration des performances du modèle
Comme il s’agit d’un modèle de 32B, il peut fonctionner sur un ordinateur portable
Seize NVIDIA H100 ont été utilisées pendant environ 26 minutes, pour un coût estimé à environ 6 dollars
Le coût réduit a permis de tenter de nombreuses expériences (ablations), avec en pratique des réentraînements complets répétés en ne modifiant que légèrement différentes variables
- Exemple : mesurer directement quel token est le plus efficace entre "Wait" et "Hmm"
- Des expériences ont aussi été menées pour déterminer quelles parties des exemples clés fournissaient les signaux les plus significatifs

Implications géopolitiques

Selon une certaine lecture, l’IA est étroitement liée à la sécurité nationale
C’est l’une des raisons pour lesquelles des acteurs comme OpenAI ou Anthropic investissent des budgets colossaux
Des innovations comme s1 ont permis de réduire les coûts, mais il reste important de noter que l’utilisation de capitaux massifs permet aussi de mener beaucoup plus d’essais en parallèle
Certains avancent également qu’il faut des investissements encore plus importants pour accélérer davantage le progrès de l’IA

Distealing (distillation non autorisée de modèles)

Le jeu de données s1 est fondamentalement un produit de distillation utilisant les traces de pensée d’un autre modèle (Qwen2.5)
OpenAI soupçonne DeepSeek d’avoir distillé sans autorisation son modèle o1 pour créer le modèle V3
Mais en pratique, il devient de plus en plus difficile d’empêcher ce type de distillation
- Environ 1 000 exemples restent à la portée d’une collecte individuelle
Le fait qu’OpenAI ait récemment choisi de publier directement o3 sous forme d’agent plutôt que de le distribuer comme modèle semble aussi être une tentative pour empêcher ce type de distillation non autorisée

Conclusion

L’émergence de s1 montre bien à quelle vitesse l’IA évolue dans l’espace ouvert
Des entreprises comme OpenAI et Anthropic ont de fortes chances d’avancer encore plus vite en s’appuyant sur des ressources de calcul bien plus importantes
s1 n’est pas une copie à l’identique de R1 ou de o1, mais suggère qu’il est possible d’ouvrir des perspectives similaires avec la seule SFT (Supervised Fine Tuning), sans RL
Certains estiment que 2025 pourrait apporter des innovations encore plus marquantes

2 commentaires

hoonix 2025-02-06

Le jeu de mots qui détourne « Distillation » en « Distealing » est assez amusant !

GN⁺ 2025-02-06

Commentaires sur Hacker News

L’extension du raisonnement via le hack de « Wait » est intéressante. Le fait qu’une méthode simple puisse influer sur les performances donne l’impression que les progrès en informatique relèvent presque de l’incantation. Je me demande comment on peut commencer à penser de cette manière
Si le flux de pensée fournit au modèle une « couche » temporaire jouant le rôle de tampon pour traiter le texte, je me demande s’il serait pertinent de faire de ce tampon un contexte distinct, avec son propre FNN et son propre mécanisme d’attention. Cela pourrait se combiner à un microprocessus explicité en langage naturel pour offrir une représentation de la « pensée » plus dense
Le CoT est une technique largement connue, mais DeepSeek s’est concentré sur la recherche d’optimisations de mémoire, de bande passante et de parallélisme en raison de contraintes de calcul. Leurs optimisations au niveau de l’infrastructure et du logiciel sont remarquables
Je pense que les benchmarks actuels ne sont pas assez solides, et les laboratoires américains travaillant sur les LLM doivent probablement être conscients du manque d’optimisation de l’infrastructure et du hardware. Le niveau de RL et le préentraînement deviendront encore plus importants
Il est intéressant de voir que des méthodes expérimentées via le hacking IA sont aussi utilisées dans les labos. J’ai utilisé la méthode consistant à remplacer par « Okay » pour pousser R1 à continuer à réfléchir
J’ai mis le blog de Tim en favori. Les avancées dans le domaine de l’IA et des réseaux de neurones sont impressionnantes. Personnellement, j’ai du mal à construire des agents basés sur des LLM avec des modèles on-device limités
Disposer de 10 000 H100 signifie pouvoir mener 625 fois plus d’expériences que S1. Les grandes entreprises ont tendance à gaspiller les ressources de calcul
La manière de contrôler la longueur de sortie des modèles de raisonnement est intéressante. J’ai découvert une méthode qui consiste à remplacer par « Wait » pour injecter du CoT et faciliter le jailbreak
Fournit le lien vers l’article original sur S1
Dans les grandes organisations, on ne peut pas mener beaucoup d’expériences, et les employés se concentrent sur l’obtention rapide de résultats. Le travail est mené dans l’urgence pour des gains temporaires
Façonner la sortie d’un LLM, c’est comme sculpter une œuvre. Il faut placer le modèle dans une boucle de jeu et interagir à chaque tick pour obtenir le résultat souhaité. La soif de ressources de calcul va se poursuivre

s1 : un rival de R1 à 6 $ ?

Extension du raisonnement : « Attends » pour moi !

Lien avec Entropix

Frugalité extrême des données

Implications géopolitiques

Distealing (distillation non autorisée de modèles)

Conclusion

À lire aussi

2 commentaires

Commentaires sur Hacker News