Analyse de R1-Zero et R1 de DeepSeek

(arcprize.org)

5 points par GN⁺ 2025-01-30 | 1 commentaires | Partager sur WhatsApp

L’ARC Prize Foundation vise à définir l’AGI (intelligence artificielle générale), à la mesurer et à stimuler de nouvelles idées
L’AGI n’a pas encore été atteinte, et l’extension du simple préentraînement des LLM (grands modèles de langage) n’est pas la solution
Entre 2023 et 2024, environ 20 milliards de dollars ont été investis dans les startups LLM, contre seulement environ 200 millions de dollars dans les startups AGI

Analyse de R1-Zero et R1 de DeepSeek

Les systèmes R1-Zero et R1 présentés par DeepSeek attirent beaucoup l’attention, car ils ont montré des résultats proches du niveau du système o1 d’OpenAI
R1-Zero et R1 ont tous deux obtenu un score d’environ 15 à 20 % sur ARC-AGI-1
C’est un score bien supérieur aux 5 % obtenus par GPT-4o
Jusqu’à récemment, le courant dominant de l’industrie de l’IA s’est concentré sur la simple montée en échelle des LLM (grands modèles de langage), mais cela n’est pas considéré comme une solution directe pour réaliser l’AGI
À travers le benchmark ARC-AGI-1, l’ARC Prize Foundation encourage la recherche sur des systèmes d’IA capables de s’adapter même à des problèmes nouveaux sans y avoir été entraînés

R1-Zero est plus important que R1

Les travaux de recherche de DeepSeek ont abouti à R1-Zero et R1
R1-Zero, R1 et o1 (low compute) d’OpenAI ont tous obtenu des scores similaires de 15 à 20 % sur ARC-AGI-1
Le système o3 dévoilé par OpenAI fin 2024 a toutefois porté son score jusqu’à 88 % sur ARC-AGI-1, montrant une capacité à résoudre de nouveaux problèmes de manière adaptative
Cependant, o3 reste largement fermé, ce qui empêche les chercheurs de comprendre facilement ses détails techniques
R1-Zero est considéré comme plus prometteur pour l’avenir que R1, car il n’a pas recours à l’annotation humaine directe (SFT)

R1-Zero supprime le goulot d’étranglement humain

Les modèles de raisonnement existants apprennent généralement en combinant annotation humaine (SFT) ou récompense machine (RL) sur le processus de résolution de problèmes (Chain-of-Thought, ci-après CoT)
R1-Zero apprend le CoT sans SFT, c’est-à-dire sans annotation par des experts humains, en s’appuyant uniquement sur l’apprentissage par renforcement (RL)
Sur ARC-AGI-1, R1-Zero a obtenu 14 % et R1 15 %, montrant des performances presque identiques
Sur d’autres benchmarks comme MATH AIME 2024, les résultats de R1-Zero et R1 apparaissent également similaires
Des inquiétudes existaient sur le mélange des langues ou la lisibilité, mais dans les tests réels, le système fonctionne bien dans les domaines des mathématiques et du code, sans incohérence majeure
Les principaux enseignements qui en ressortent sont les suivants
- Même sans annotation humaine, un raisonnement précis et compréhensible est possible dans certains domaines
- R1-Zero peut créer, via le seul apprentissage par renforcement, sa propre représentation de tokens spécialisée par domaine (DSL)
- Le SFT peut toutefois rester nécessaire pour élargir le champ du raisonnement
En fin de compte, R1-Zero montre le potentiel d’une montée en échelle « sans goulot d’étranglement humain », où le système peut générer lui-même ses données d’apprentissage sans dépendance humaine
Voici ci-dessous un résumé des scores obtenus par plusieurs systèmes sur ARC-AGI-1, ainsi que du nombre moyen de tokens et du coût d’inférence
- r1-zero: 14 %, sans SFT, sans recherche séquentielle en raisonnement, moyenne de 11K tokens, coût d’environ $0.11
- r1: 15.8 %, avec SFT, sans recherche séquentielle en raisonnement, moyenne de 6K tokens, coût d’environ $0.06
- o1(low): 20.5 %, avec SFT, sans recherche séquentielle en raisonnement, moyenne de 7K tokens, coût d’environ $0.43
- o1(med): 31 %, avec SFT, sans recherche séquentielle en raisonnement, moyenne de 13K tokens, coût d’environ $0.79
- o1(high): 35 %, avec SFT, sans recherche séquentielle en raisonnement, moyenne de 22K tokens, coût d’environ $1.31
- o3(low): 75.7 %, avec SFT, utilisation de recherche et d’échantillonnage, moyenne de 335K tokens, coût d’environ $20
- o3(high): 87.5 %, avec SFT, utilisation de recherche et d’échantillonnage, moyenne de 57M tokens, coût d’environ $3,400

Le coût de la fiabilité

Un changement majeur du marché de l’IA aujourd’hui est l’idée suivante : « en dépensant davantage, on peut améliorer la précision et la fiabilité »
De plus, le centre de gravité se déplace du coût de l’entraînement vers le coût de l’inférence
En injectant beaucoup de ressources de calcul au stade de l’inférence, on peut obtenir des résultats plus précis et plus stables
La plupart des entreprises n’ont pas pu adopter une automatisation à grande échelle à cause du problème de fiabilité des systèmes d’IA
On anticipe que les progrès dans le domaine ARC-AGI renforceront la fiabilité des agents IA, tandis qu’Anthropic, OpenAI et Apple préparent eux aussi des services de type agent
Les utilisateurs auront tendance à accepter de payer davantage pour obtenir le niveau de précision dont ils ont besoin
La demande en inférence IA devrait donc fortement augmenter, ce qui entraînera une hausse de la demande en ressources de calcul

Le raisonnement devient l’apprentissage

Auparavant, on collectait de grandes quantités de données ou on générait des données synthétiques à partir de LLM existants pour les utiliser dans l’entraînement
Désormais, le processus d’inférence permet à l’utilisateur ou au système de générer réellement de nouvelles données valides
Cela marque un nouveau basculement économique où « l’inférence fait aussi office d’apprentissage »
Les modèles d’IA ayant beaucoup d’utilisateurs collecteront davantage de données d’inférence, ce qui conduira en soi à l’amélioration du modèle
Si le processus SFT (annotation humaine) devenait lui aussi inutile, un apprentissage efficace deviendrait possible même avec des systèmes qui répètent recherche, synthèse et vérification en y consacrant simplement plus de ressources

Conclusion

À mesure que la demande en raisonnement des systèmes d’IA augmente, le marché semble promis à une réévaluation continue
L’apparition du système open source R1, combinant approche CoT et techniques de recherche, devrait permettre à davantage de chercheurs et de développeurs de tester les limites et d’accélérer l’innovation
La publication de R1-Zero et R1 constituera une contribution importante au progrès mondial de l’IA
Plusieurs équipes affichent déjà leur volonté d’utiliser des systèmes comme R1 en vue de l’ARC Prize 2025, ce qui rend les résultats à venir particulièrement attendus
Le R1 publié par DeepSeek est évalué positivement pour sa contribution au progrès scientifique, en ce qu’il fournit des indices importants sur la voie vers l’AGI

1 commentaires

GN⁺ 2025-01-30

Commentaires Hacker News

Les développeurs de systèmes d’IA pourraient provoquer des changements économiques grâce à la génération de nouvelles données. Les clients pourraient prendre en charge le coût de génération des données afin d’améliorer la qualité des modèles
- Cependant, certains restent sceptiques quant au fait que ces données soient réellement de haute qualité
- Les modèles SOTA actuels restent au niveau de GPT4, mais pourraient encore progresser dans les 2 à 3 prochaines années
- Utiliser des modèles de raisonnement pour générer des données, puis entraîner sur celles-ci des modèles non fondés sur le raisonnement, semble être une idée prometteuse
- Cependant, on ne sait pas encore dans quelle mesure le raisonnement peut être correctement intégré dans les poids du modèle
- Certains estiment qu’OpenAI aurait déjà dû entraîner un nouveau modèle à partir des données d’entraînement de o3
Il n’est peut-être pas nécessaire d’améliorer le modèle de base, un modèle généraliste pouvant suffire
- L’important est de faire baisser le prix des modèles de raisonnement et d’en améliorer la qualité
Le système o3 montre la première implémentation pratique d’un ordinateur capable de s’adapter à de nouveaux problèmes
- Cependant, OpenAI a annoncé que o3 avait été entraîné sur 75 % d’un jeu d’entraînement public, et la contribution des données ARC-AGI aux performances n’a pas encore été testée
Certains affirment que le goulot d’étranglement humain est supprimé, mais en dehors des mathématiques et de l’informatique, il est difficile de définir des récompenses vérifiables dans la plupart des domaines
Deux grands changements sont en cours dans l’économie de l’IA
- Il est possible d’obtenir une précision et une fiabilité plus élevées en payant davantage
- Les coûts se déplacent de l’entraînement vers l’inférence
- Cela augmentera la demande en inférence et, par conséquent, la demande en calcul
o3 a atteint 75 % sur AGI-1, tandis que R1 et o1 sont restés à 25 %
Le fait qu’une grande partie du calcul se déplace vers l’inférence a un impact majeur sur les investissements actuels dans l’IA
- C’est une mauvaise nouvelle pour NVDA, tandis que les solutions centrées sur l’inférence présentent une meilleure viabilité économique
Mike de Baseten a déclaré être fier de soutenir ce travail
R1-Zero montre un régime potentiel de passage à l’échelle sans goulot d’étranglement humain
- Cependant, certains se demandent si l’approche RL nécessite encore beaucoup de données humaines
R1 affiche d’excellentes performances en termes de rapport coût-performance
- Utiliser R1 comme générateur de données pour des problèmes complexes semble prometteur
L’avenir des LLM se situerait dans des applications personnalisées et individuelles
- Il suffirait d’indiquer à un agent IA l’application souhaitée et les exigences, et il construirait tout, du backend au frontend
- Il testerait le logiciel, corrigerait les erreurs et le déploierait en production
- Les LLM ne sont pas encore parfaits, mais il existe déjà des systèmes et des workflows qui exécutent automatiquement le code, le compilent et renvoient les erreurs au LLM

Analyse de R1-Zero et R1 de DeepSeek

Analyse de R1-Zero et R1 de DeepSeek

R1-Zero est plus important que R1

R1-Zero supprime le goulot d’étranglement humain

Le coût de la fiabilité

Le raisonnement devient l’apprentissage

Conclusion

À lire aussi

1 commentaires

Commentaires Hacker News