Explication de R1 et de tout le reste

(timkellogg.me)

41 points par GN⁺ 2025-01-27 | 9 commentaires | Partager sur WhatsApp

Mise au point sur la situation actuelle pour comprendre R1, apparu soudainement, ainsi que o1, o3 et les autres évolutions rapides

Chronologie

12 septembre 2024 : sortie de o1-preview
5 décembre 2024 : sortie de la version finale de o1 et de o1-pro
20 décembre 2024 : annonce de o3 (réussit ARC-AGI, attire l’attention comme « AGI »)
26 décembre 2024 : sortie de DeepSeek V3
20 janvier 2025 : sortie de DeepSeek R1 (performances proches de o1, mais open source)
25 janvier 2025 : une équipe de recherche de l’Université de Hong Kong réussit à reproduire les résultats de R1
25 janvier 2025 : Huggingface annonce le projet entièrement open source open-r1, qui reproduit R1
Pour être clair
- o1, o3 et R1 sont tous des modèles de raisonnement (Reasoning)
- DeepSeek V3 est un LLM (modèle de base), et les modèles de raisonnement sont créés par fine-tuning à partir de celui-ci
- ARC-AGI-1 est l’évaluation la plus simple et la plus fondamentale de l’intelligence fluide. Un échec signifie une incapacité presque totale à s’adapter à une situation nouvelle ou à résoudre un problème

# Reasoning & Agents

Modèles de raisonnement != agents

Un modèle de raisonnement (Reasoning) est un modèle qui passe par un processus de « pensée » avant de générer une réponse
- Un LLM « pense » en générant des tokens
- C’est pourquoi nous entraînons les modèles à générer un grand nombre de tokens, en espérant qu’ils finissent par trouver la bonne réponse
Un agent IA (Agent) se définit par deux éléments
- l’autonomie (agency) pour prendre des décisions et accomplir des tâches
- la capacité à interagir (interact) avec le monde extérieur
Un LLM ou un modèle de raisonnement, à lui seul, ne fait que générer des tokens et ne peut donc pas remplir ces deux fonctions
- il faut du logiciel pour prendre de vraies décisions et fournir des capacités d’interaction
Un agent est un système d’IA. C’est une combinaison de plusieurs modèles et de logiciels permettant d’interagir avec le monde de manière autonome. Même chose pour le matériel.

Le raisonnement est important

Si les modèles de raisonnement sont souvent confondus avec les agents, c’est parce qu’aujourd’hui le raisonnement constitue le principal goulot d’étranglement
Pour planifier des tâches, superviser, vérifier et gagner en intelligence, les capacités de raisonnement sont indispensables
On ne peut pas construire d’agents sans capacités de raisonnement, mais lorsque les benchmarks de raisonnement atteindront la saturation, de nouveaux défis apparaîtront

Le raisonnement doit devenir moins cher

Les agents fonctionnent pendant des heures, des jours, voire 24/7 sans interruption
C’est l’essence même d’un comportement autonome, et cela fait donc grimper les coûts
À l’heure actuelle, R1 est environ 30 fois moins cher que o1 tout en offrant des performances comparables

# Pourquoi R1 est important

Son importance tient au fait qu’il est peu coûteux, open source et qu’il a démontré des performances proches de o1 et o3
À partir de la documentation publique, certaines hypothèses avaient été formulées sur le fonctionnement de o1, et l’article publié sur R1 les confirme presque entièrement. Nous savons donc mieux comment o1 peut évoluer vers o3 et o4
De plus, comme il est open source, n’importe qui dans le monde peut le faire tourner avec ses propres idées
Il suffit de regarder la chronologie de ceux qui ont réimplémenté R1 au cours de la semaine passée pour le constater (certains disent même l’avoir fait avec 30 $)
L’innovation se produit quand on peut itérer vite et à bas coût, et R1 a créé cet environnement
Le point le plus important est sans doute que R1 a montré qu’il était possible d’atteindre de solides performances de raisonnement avec une approche RL simple, plutôt qu’avec des idées complexes comme DPO ou MCTS

# Tendances de l’évolution de l’IA

Le préentraînement (Pretraining) atteint ses limites d’extension

Depuis GPT-4, on commence à voir les limites des anciennes « lois de scaling » consistant simplement à augmenter les volumes de données et les ressources de calcul
Entre les difficultés d’accès aux données et les nouvelles approches du raisonnement, on estime que les anciennes méthodes seules ont désormais du mal à produire de gros gains

Lois de scaling au temps d’inférence (Inference Time)

Les modèles de raisonnement comme o1 et r1 ont tendance à mieux performer à mesure qu’on les laisse « réfléchir plus longtemps »
Mais pour obtenir de meilleurs résultats, on ne savait pas clairement comment effectuer exactement plus de calcul
L’hypothèse naïve était que la chaîne de pensée (CoT) pouvait fonctionner, et qu’il suffisait d’entraîner le modèle à faire du CoT
Le problème était de savoir comment trouver efficacement le chemin le plus rapide vers la solution
- Entropix est une piste, utilisant les signaux internes du modèle pour trouver le chemin le plus efficace
- Il existait aussi des méthodes comme la recherche arborescente de Monte Carlo (MCTS), qui génèrent de nombreux chemins mais n’en sélectionnent qu’un seul
Il s’est avéré que le CoT était la meilleure approche
- R1 applique du RL à une simple chaîne de pensée (CoT) en ligne unique
- On peut probablement supposer que o1 fait la même chose

Modèles réduits (Down-Sized Models)

Cela a commencé avec GPT-4-turbo, puis GPT-4o, la série Claude et d’autres LLM. Tous sont devenus progressivement plus petits et moins chers tout au long de 2024
Comme il faut générer beaucoup de tokens pour raisonner, plus le modèle est petit, plus le calcul est rapide et plus l’efficacité augmente
« Modèle plus petit = plus intelligent »

Apprentissage par renforcement (Reinforcement Learning)

R1 utilise une approche RL simple appelée GRPO (Group Rewards Policy Optimization) pour entraîner le modèle à effectuer du CoT au moment du raisonnement
Pas besoin de vérificateur complexe ni de LLM externe. Il suffit d’un RL doté d’une fonction de récompense de base sur l’exactitude et le format de sortie
R1-Zero est la version de R1 de DeepSeek qui ne gère que GRPO et ne prend pas en charge les autres fonctions
- Sa précision est supérieure à celle de R1, mais comme il passe librement d’une langue à l’autre, notamment entre l’anglais et le chinois, il n’est généralement pas adapté aux utilisateurs ordinaires qui ne sont pas multilingues
Pourquoi R1-Zero saute-t-il d’une langue à l’autre ?
- Mon intuition est que « certaines langues expriment plus efficacement certains types de concepts »
- Il existe un mème du type « what’s the german word for [paragraph of text]? »
Au 25 janvier 2025, quelqu’un a fini par démontrer que « n’importe quel RL peut marcher »
- GRPO, PPO et PRIME ont tous été essayés, et tous fonctionnent bien
- Le nombre magique est 1.5B. Dès que le modèle dépasse 1.5B (1,5 milliard) de paramètres, des capacités de raisonnement émergent quelle que soit la technique de RL utilisée
Jusqu’où cela pourra-t-il s’étendre ?

Distillation de modèles (Model Distillation)

R1 a été distillé à partir de ses propres checkpoints précédents
La distillation consiste à faire générer par un modèle enseignant (teacher) les données d’apprentissage d’un modèle élève ; on suppose généralement que l’enseignant est plus grand que l’élève
- R1 a utilisé un checkpoint antérieur du même modèle pour générer les données d’apprentissage destinées au fine-tuning supervisé (SFT)
- Le modèle a été amélioré par alternance entre SFT et RL
Jusqu’où cela peut-il aller ?
Il y a très longtemps (il y a 9 jours), certains prédisaient que GPT5 existait déjà et que GPT4o n’en était qu’une distillation
- Cet article avance la théorie selon laquelle OpenAI et Anthropic entraînent de grands modèles, les distillent, puis utilisent ces modèles distillés pour en créer de plus grands, dans un cycle continu
- J’aimerais dire que l’article sur R1 confirme globalement que c’est possible (et donc que cela a de bonnes chances de se produire en pratique)
Cela pourrait donc durer très longtemps
Remarque : certaines expériences suggèrent que le modèle élève peut dépasser le modèle enseignant. On ne sait pas à quelle fréquence cela se produit réellement
- Intuitivement, la distillation pourrait aider l’élève à trouver le signal et à converger plus vite
- Le model collapse reste la plus grande inquiétude, mais cela semble surtout relever d’une peur inutile
- L’effondrement du modèle reste toujours possible, bien sûr, mais il n’est jamais garanti ; il existe aussi un mouvement inverse où l’élève dépasse l’enseignant

# Perspectives pour 2025

Situation actuelle :
- le préentraînement devient difficile (sans être mort)
- scaling du raisonnement
- réduction de la taille des modèles
- lois de scaling du RL
- lois de scaling par distillation de modèles
Rien n’indique que le rythme de progression de l’IA ralentisse. Une loi de scaling ralentit, mais quatre autres sont apparues
Cette tendance devrait continuer à s’accélérer pendant un certain temps

Enjeux géopolitiques : Distealing

« Distealing » est un mot que j’ai inventé pour désigner la « distillation non autorisée » d’un modèle
Le logiciel est désormais politique, et l’IA est au cœur de cette dynamique
- L’IA semble prise en compte sur presque tous les axes politiques, le plus intéressant étant celui de la Chine face aux États-Unis
Stratégies
- États-Unis : soutien financier massif. Injecter autant d’argent que possible aussi vite que possible dans le feu de l’IA
- Chine : sous l’effet de contrôles à l’exportation restrictifs, mobiliser des ingénieurs et chercheurs plus ingénieux pour trouver des solutions moins coûteuses
- Europe : régulation ou IA open source, l’un ou l’autre convient
Il existe une controverse sur le fait que DeepSeek ait ou non distillé o1 sans autorisation (« distealing »), mais au vu des reproductions de R1, l’hypothèse la plus crédible aujourd’hui est qu’ils ont probablement développé R1 de manière indépendante
- Mais le fait qu’un laboratoire chinois ait dépassé à grande vitesse les meilleurs modèles d’OpenAI crée une tension palpable
Les capacités de l’IA devraient bientôt s’améliorer à un rythme exponentiel (si ce n’est pas déjà le cas)
- Les conséquences politiques et géopolitiques seront énormes
- Ceux qui travaillent dans l’intelligence artificielle devraient au contraire s’intéresser davantage à la politique et garder l’esprit ouvert sur les bonnes et les mauvaises orientations publiques

Conclusion

Le point le plus important est que R1 clarifie ce qui était auparavant opaque
L’avenir de l’IA paraît donc plus clair, et son rythme semble s’accélérer rapidement

9 commentaires

xguru 2025-02-02

mammal 2025-01-27

On parle maintenant de distealing, mais dès les débuts, à l’époque de LLaMA 1, il y avait déjà les modèles Alpaca et Vicuna distillés depuis GPT, et aujourd’hui encore, parmi les frontier labs, il n’y en a pratiquement aucune qui n’entraîne pas à partir des sorties d’autres modèles.

En pratique, la plupart des modèles frontier actuels sont essentiellement des gènes issus d’une consanguinité distillée depuis GPT, auxquels chaque labo a appliqué du RLHF selon ses préférences.

mammal 2025-01-27

Ce qui doit le plus nous inquiéter en ce moment, ce n’est ni la distillation non autorisée ni la censure de la Chine.

Ce qui choque, c’est que MLA, MTP, le framework de mixed precision et GRPO, qui sont à la base de l’efficacité folle de DeepSeek, aient été conçus uniquement par des diplômés d’universités chinoises, à 100 %.

Aux États-Unis, certains parlent même d’un second choc Spoutnik...

luminance 2025-01-27

Ne vouliez-vous pas écrire distilling au lieu de distealing ?

grogu 2025-01-27

Il semble que l’auteur ait inventé le mot distealing pour distinguer la distillation non autorisée du terme distilling signifiant « distillation », avec en plus un jeu de mots lié à leur prononciation identique (comme mentionné dans l’article).

luminance 2025-01-27

Merci pour l’explication.

savvykang 2025-01-27

> Geopolitics: Distealing
> Enjeu géopolitique : Distealing

> I coined that term, distealing, unauthorized distillation of models. Go ahead, use it, it’s a fun word.
> « Distealing » est un terme que j’ai inventé pour désigner la « distillation non autorisée » de modèles.

luminance 2025-01-27

Il y avait donc bien du contenu dans l’article original. Merci.

GN⁺ 2025-01-27

Avis Hacker News

Concernant l'affirmation selon laquelle R1 aurait remplacé des idées complexes par un simple apprentissage par renforcement, il semble qu'en réalité un mélange d'apprentissage par renforcement et d'apprentissage supervisé ait été utilisé. Les données employées pour l'apprentissage supervisé ont peut-être été sélectionnées par des humains plutôt que générées par le modèle
- Des tentatives de reproduction de R1 existent, et certaines affirment que cela peut se faire pour 30 $, mais il pourrait s'agir non pas de R1 lui-même, mais d'un fine-tuning de R1
- Hugging Face tente de reproduire R1, mais c'est un travail d'une ampleur considérable, qui ne peut pas être réglé avec 30 $
L'article contient beaucoup d'exagérations, ce qui le rend difficile à juger fiable
- Les benchmarks de différents modèles se concentrent sur la précision en mathématiques et en code, mais dans certains cas d'usage, ces capacités ne sont pas importantes. Il est difficile d'évaluer des concepts avec des benchmarks
- La question est posée de savoir s'il serait possible, par distillation, de créer un modèle dont les composantes mathématiques et de codage auraient été retirées
L'apparition de R1 dans les médias grand public a provoqué confusion et inquiétude. Il est difficile d'expliquer que la Chine ne constitue pas une menace pour les États-Unis
- Quant à la conclusion selon laquelle les capacités de l'IA vont augmenter de façon exponentielle, le seul point de données est que R1 a atteint un niveau comparable à o1 en tant que modèle open source. Ce sont pourtant deux sujets très peu liés
La question de savoir si l'IA raisonne déjà est soulevée
- ARC-AGI est un benchmark simple pour les humains mais très difficile pour l'IA. Il existe un malentendu selon lequel le résoudre signifierait que l'IA peut faire les mêmes choses qu'un humain
- François Chollet, créateur d'ARC-AGI, explique à quel point ARC-AGI-1 était simple et ce que signifie réellement le fait de le résoudre
- Réussir ARC-AGI-1 indique qu'un système possède une intelligence fluide non nulle, mais ne dit rien sur son niveau d'intelligence ni sur sa proximité avec l'intelligence humaine
La conclusion selon laquelle les capacités de l'IA vont bientôt croître de manière exponentielle manque de fondement. Il serait utile de savoir comment l'auteur est arrivé à cette conclusion

Explication de R1 et de tout le reste

Chronologie

# Reasoning & Agents

Modèles de raisonnement != agents

Le raisonnement est important

Le raisonnement doit devenir moins cher

# Pourquoi R1 est important

# Tendances de l’évolution de l’IA

Le préentraînement (Pretraining) atteint ses limites d’extension

Lois de scaling au temps d’inférence (Inference Time)

Modèles réduits (Down-Sized Models)

Apprentissage par renforcement (Reinforcement Learning)

Distillation de modèles (Model Distillation)

# Perspectives pour 2025

Enjeux géopolitiques : Distealing

Conclusion

À lire aussi

9 commentaires

Avis Hacker News