10 points par GN⁺ 2025-07-01 | 1 commentaires | Partager sur WhatsApp
  • Ces derniers progrès de l’IA reposent avant tout sur l’introduction de nouveaux jeux de données plutôt que sur de nouvelles idées
  • La plupart des grandes percées sont apparues quand des technologies existantes ont été appliquées à de nouvelles sources de données
  • Les changements de données ont plus d’impact sur les performances des modèles que les innovations techniques en IA
  • Les prochains changements de paradigme devraient eux aussi devenir possibles en exploitant de nouvelles sources de données comme YouTube ou les robots
  • La plupart des chercheurs se concentrent sur de nouvelles méthodologies, alors qu’en pratique les données sont le véritable moteur du progrès

État actuel et dynamique des progrès en IA

  • L’IA a connu des progrès fulgurants au cours des 15 dernières années, en particulier sur les 5 plus récentes
  • Certains chercheurs affirment que l’IA progresse de manière exponentielle sur certaines tâches, comme une “loi de Moore pour l’IA”
  • Mais en réalité, les grandes percées restent rares, et le progrès prend plutôt la forme d’une avancée lente mais régulière

D’où vient l’innovation

  • Beaucoup pensent que les progrès de l’IA viennent des idées issues du monde académique et industriel, comme au MIT, à Stanford ou chez Google
  • La recherche continue bel et bien de produire des innovations système qui réduisent le coût d’entraînement des modèles et améliorent l’efficacité
    • En 2022, FlashAttention de Stanford a optimisé l’utilisation de la mémoire
    • En 2023, speculative decoding de Google a accéléré l’inférence
    • En 2024, le projet Muon a proposé une nouvelle approche d’optimiseur
    • En 2025, DeepSeek-R1 a fourni en open source un modèle au niveau des grands laboratoires d’IA
  • Les chercheurs partagent rapidement et publiquement leurs résultats via arXiv, les conférences et les réseaux sociaux, ce qui alimente une expérimentation scientifique mondiale et distribuée

Pourquoi a-t-on l’impression que l’innovation en IA ralentit

  • Avec Grok 3, GPT-4.5 et d’autres modèles récents, l’ampleur des gains de performance diminue
  • Dans des évaluations pratiques comme les olympiades de mathématiques, les résultats restent modestes, ce qui alimente les critiques sur des annonces exagérées
  • Les grands changements de paradigme (deep learning, Transformer, RLHF, Reasoning) n’apparaissent que rarement, souvent à l’échelle d’une décennie

Le point commun des grandes percées : de nouveaux jeux de données

  • Les 4 grandes percées correspondent au moment où de nouvelles sources de données ont été exploitées à grande échelle pour la première fois
    • AlexNet : ImageNet (grand jeu de données d’images annotées)
    • Transformers : l’ensemble du texte du web (Internet)
    • RLHF : des données de “bon texte” annotées par retour humain
    • Reasoning : les résultats d’outils de vérification externes comme des calculatrices ou des compilateurs
  • Une fois chaque jeu de données introduit à grande échelle pour la première fois, il s’ensuit une course à l’acquisition des données restantes et au développement de techniques pour les exploiter plus efficacement

Nouvelles idées vs rôle des données

  • Même sans architecture de modèle spécifique, on pourrait développer des modèles d’un niveau comparable à partir du moment où ils reçoivent les mêmes données
  • En pratique, le remplacement du jeu de données d’entraînement a plus d’effet sur les performances que l’innovation technique
    • Même avec une autre structure qu’AlexNet, l’existence d’ImageNet aurait permis les avancées
    • Même sans Transformer, des architectures comme LSTM ou SSM montrent des performances similaires avec les mêmes données
  • Le jeu de données fixe le plafond des résultats d’apprentissage, et les seules améliorations de modèle ou d’algorithme ne peuvent pas le dépasser
  • Comme le soulignait The Bitter Lesson, ce qui compte vraiment au final, ce ne sont pas de nouvelles méthodes mais les données

Candidats au prochain changement de paradigme en IA

  • Le prochain grand bond de l’IA a plus de chances de venir non pas d’un nouveau network ou d’une nouvelle méthode de RL, mais de nouvelles sources de données encore peu exploitées jusqu’ici
  • Autrement dit, le changement de paradigme surviendra probablement quand de nouveaux jeux de données seront collectés à grande échelle
    • Candidat le plus surveillé : les données vidéo comme YouTube
      • Plus de 500 heures de vidéo sont mises en ligne chaque minute sur YouTube
      • Elles contiennent des informations des dizaines de fois plus riches que le texte, et permettent d’apprendre les nuances linguistiques ainsi que les contextes physiques et culturels
      • Il est très probable que les géants de la tech comme Google se lancent bientôt sérieusement dans l’entraînement sur ce jeu de données
    • Autre possibilité : la collecte de données du monde physique via des robots (embodied system)
      • Si l’infrastructure permettant de traiter et d’entraîner à grande échelle des données issues de caméras et de capteurs sur GPU se met en place, ces données auront elles aussi de fortes chances de devenir une source majeure d’innovation en IA
  • Les données textuelles approchent de leurs limites, ce qui rend les nouvelles sources comme la vidéo et la robotique susceptibles de déterminer l’avenir de l’IA

Conclusion

  • La prochaine avancée de l’IA viendra non de nouvelles idées ou de nouveaux algorithmes, mais de nouvelles sources de données
  • 95 % des chercheurs se concentrent sur de nouvelles méthodologies, alors que l’innovation réelle provient des changements de jeux de données
  • Si l’on veut faire progresser l’IA, il faut se concentrer non pas sur de nouvelles idées, mais sur l’acquisition de nouvelles données

1 commentaires

 
GN⁺ 2025-07-01
Avis Hacker News
  • Il est dit que la méthode explorée par John Carmack est assez intéressante.
    Il partage une expérience consistant à entraîner un modèle à jouer extrêmement bien à des jeux vidéo 2D, puis à tester s’il peut bien se débrouiller sur un jeu 2D jamais vu auparavant ou sur de nouveaux niveaux.
    Il souligne que les performances du modèle baissent au contraire sur des jeux sans expérience préalable, insistant sur le fait qu’il ne s’agit pas d’intelligence artificielle mais seulement d’une maîtrise d’une tâche spécifique.
    Il affirme que, plutôt que d’alimenter la peur autour de la superintelligence artificielle (ASI), il est bien plus difficile de créer une intelligence générale capable d’apprendre un nouveau jeu 2D plus vite qu’un humain.

    • Il est souligné que le modèle réellement utilisé par John Carmack pour tirer cette conclusion n’était pas de dernière génération et qu’il s’agissait d’un projet surtout ludique, sans recours à un coûteux foundational model.
      Il est mentionné que, pour une recherche plus approfondie en vidéo/vision AI, il serait plus approprié de manipuler un espace latent probabiliste applicable à l’ensemble des jeux.
      En prenant l’exemple de la capacité de veo3 à générer des vidéos sous contraintes de prompt, il est expliqué que l’IA peut généraliser aux jeux 2D et 3D.
      Il est affirmé que veo3 peut en fait montrer des résultats donnant l’impression de jouer raisonnablement à n’importe quel jeu, même sans fine-tuning sur un jeu particulier.

    • Il est dit qu’il est difficile de comprendre pourquoi les gens tiennent à orienter la discussion de cette manière.
      Il existe manifestement plusieurs façons d’atteindre un objectif donné, et il est mis en doute que l’expérience de John Carmack doive être acceptée comme standard alors même qu’il n’est pas expert en IA.

    • Il est avancé que le modèle a peut-être simplement été trop agrandi, au point de provoquer un surapprentissage.
      La question est posée de savoir si imposer des contraintes au modèle ne pourrait pas l’amener à apprendre des heuristiques plus générales.
      Il est souligné que, sans contraintes, une IA finirait probablement par simplement rejouer le meilleur speedrun possible, alors que face à un contenu nouveau, des heuristiques variées sont bien plus importantes.

    • Il est précisé que le sujet évoqué relève du domaine du Meta-Reinforcement Learning.
      Il est indiqué qu’il est pertinent que John Carmack explore ce champ, mais qu’il ne s’agit nullement d’un thème de recherche entièrement nouveau.
      Brève introduction au Meta-Reinforcement Learning

    • Il est expliqué que la question de savoir si un modèle possède une « vraie intelligence » est un sujet intéressant du point de vue académique pour ceux qui réfléchissent à l’AGI, mais qu’elle importe peu aux nombreux utilisateurs qui se servent concrètement des LLM de manière utile.
      Il est dit qu’ils ne se soucient pas de savoir si les progrès actuels mènent à l’AGI.
      Il est partagé que, même si tout s’arrêtait à Claude 4, ils continueraient à l’utiliser utilement.
      Il est souligné qu’au lieu du débat sur l’AGI, le sujet bien plus intéressant est la façon dont les gens utilisent réellement l’IA aujourd’hui.

  • Il est affirmé avec assurance que nous vivons actuellement les tout débuts de l’ère de l’IA.
    Des progrès remarquables de l’IA sont donnés en exemple dans deux domaines : le langage (LLM : GPT-4, Claude) et la vision (CLIP, DALL·E).
    Il est relevé que les ordinateurs produisent des poèmes et du code, décrivent des photos et conversent à un niveau humain, mais qu’en réalité ils n’ont étendu que deux modalités, le texte et l’image.
    L’intelligence humaine possède une nature multimodale riche, mêlant étroitement de nombreux sens comme le toucher, le goût, l’odorat, le mouvement et l’émotion.
    Il est souligné que les LLM ou les Vision Transformers n’implémentent pratiquement pas ces dimensions.
    Il est insisté sur le fait que la véritable frontière de l’IA se situe dans le monde sensoriel complexe et riche de la vie quotidienne.
    Il est expliqué que cela nécessitera de nouveaux capteurs, des représentations de données allant au-delà des tokens, et de nouvelles méthodes d’entraînement fondées sur l’expérience.

    • Il est répondu avec courtoisie à l’idée que le langage et la vision ne seraient qu’un point de départ de l’essence de l’intelligence artificielle.
      Le toucher est certes jugé intéressant, mais il est soutenu que, pour toutes les interactions en ligne, l’audio, la vidéo et le langage suffisent largement.
      Il est expliqué que la différence décisive entre les humains et les animaux ne réside pas dans les « sens restants », mais dans la parole, l’image et le langage.
      Tout en reconnaissant que, pour agir dans le monde réel, l’intégration du toucher, de la proprioception et de l’odorat est importante, cette position considère que le cœur de l’intelligence se trouve dans le langage et la vision.

    • Il est estimé que les deux aspects devant le plus progresser sont l’adaptabilité organique et la persistance de la mémoire.
      Il est relevé que le cerveau humain modifie dynamiquement sa structure, alors que les LLM sont figés et ne « apprennent » qu’après avoir réentraîné de façon répétée les informations reçues.
      Il est souligné que, pour créer des machines intelligentes, elles doivent être capables d’apprendre en temps réel par elles-mêmes et de mémoriser l’information.

    • Une autre position est que, avec l’architecture d’IA dont nous disposons actuellement, le langage et la vision sont peut-être déjà la limite.
      Il est avancé que, malgré l’abondance de nouvelles sur les LLM ces dernières années, il y a eu très peu de percées marquantes dans les autres domaines de l’IA.

    • Il est rappelé que l’avenir du véritable progrès de l’IA réside dans une existence sensoriellement riche et ancrée dans le monde physique, à l’image de l’humain.
      La comparaison est faite avec Dr. Who, où il est dit des Daleks qu’ils ne sont pas des cerveaux dans une machine, mais la machine elle-même ; de même, l’humain est expliqué comme étant son corps tout entier.

    • À propos de l’idée de « progrès incroyables », un point de vue cynique répond qu’il ne s’agit que d’appliquer à des ordinateurs un million de fois plus puissants des techniques abandonnées dans les années 1970.
      Il est ajouté qu’aucune innovation fondamentale de l’architecture des modèles ou des méthodes de calcul ne semble particulièrement en vue pour faire grimper les performances de façon exponentielle.

  • Il est fait mention de la confusion entre progrès scientifique et progrès technologique.
    Il est expliqué que, lorsque la science progresse, elle avance souvent selon une courbe en S, avec une accélération brutale puis une entrée progressive dans une zone de rendements décroissants.
    Il est pointé l’incapacité à distinguer une phase d’optimisation rapide d’une phase de ralentissement.

    • Il est raillé qu’il soit bien trop généreux d’appeler « progrès technologique » une simple exagération ou un emballement.

    • Il est ajouté que les gens comprennent mal la différence entre une courbe en S et une fonction exponentielle.
      Il est expliqué que, sur certaines portions, elles peuvent paraître presque identiques.

  • Des doutes sont exprimés quant à la raison pour laquelle DeepSeek est particulièrement mentionné.

  • Du point de vue de quelqu’un qui lit des recherches et articles sur l’architecture des modèles, il est souligné qu’une multitude de nouvelles idées affluent.
    Cela dit, seules certaines produisent réellement des résultats intéressants.
    Il est supposé que des bibliothèques comme PyTorch ont aussi un effet qui freine le développement expérimental.
    On estime qu’à force de réutiliser sans réfléchir des briques de base, on finit par moins réfléchir en profondeur à chaque composant.
    Une méfiance est exprimée envers la tendance à greffer systématiquement un tokenizer ou un modèle de vision conçu par autrui simplement pour cocher des cases dans une « model card ».

    • Il est expliqué que cette dynamique est un schéma extrêmement courant et naturel aussi dans le monde humain.
      Quand le ROI de l’exploration intellectuelle baisse sur la technologie de base du moment, les ressources humaines se déplacent naturellement temporairement ailleurs.
      Mais lorsqu’on approche des limites, il est prévu que des talents réellement innovants reviendront finalement aux fondements pour produire de grands progrès.
      Il est aussi estimé que la prochaine génération de foundational tech comme PyTorch évoluera de cette façon.

    • Il est relevé qu’au cours des 2 à 3 dernières années, il a été rare de voir des améliorations architecturales de grande ampleur que beaucoup de gens connaissent et utilisent au quotidien, mais qu’il existe aussi une tendance à négliger à quel point 3 ans est un horizon temporel court.
      Il est ajouté qu’au-delà des LLM, de nombreuses recherches intéressantes et utiles restent en cours, et que, même sans en être spécialiste, on a l’impression qu’une immense diversité de nouvelles tentatives voit le jour.

    • Il est dit que, même sans PyTorch, ceux qui n’avaient pas l’intention d’expérimenter auraient probablement conservé la même attitude.

  • En imaginant un système qui reproduirait une intelligence de niveau humain, une perspective veut que la différence essentielle entre les modèles tienne aux variations de dataset.
    Il y a là une ressemblance, dans la mesure où la mémoire, l’éducation et le vécu d’un être humain constituent effectivement une grande part de sa capacité à résoudre des problèmes.

  • Une interrogation est soulevée sur la manière dont les modèles pourraient acquérir des données de façon active, autrement dit chercher eux-mêmes des données pour apprendre.
    Il est proposé qu’il faille apprendre par l’expérience directe, comme un bébé humain qui essaie divers comportements.
    Il est mentionné qu’au lieu de continuer à simplement injecter des données, une bonne direction serait, par exemple, de coupler la capacité de créer des objets 3D avec un simulateur physique.
    En prenant Cursor comme exemple, il est suggéré qu’après avoir défini des règles, un reasoning model pourrait inférer la raison d’une action et l’intégrer dans les données d’apprentissage, augmentant ainsi encore la valeur de ces données.
    Le fait de revenir sur les raisons des choix comportementaux des utilisateurs et d’en faire des données d’entraînement pourrait permettre d’obtenir des insights plus profonds.

    • Il est rappelé que les simulations et l’« embodied AI » (IA incarnée), comme les bras robotisés ou les voitures, font déjà l’objet de recherches actives.

    • Il est indiqué que cette approche correspond justement au reinforcement learning et qu’il s’agit en pratique d’un domaine loin d’être facile.

  • Il est avancé que les nouvelles idées partent, pour la plupart, d’idées anciennes.
    L’IA est présentée comme un outil permettant d’aborder plus vite et sous un angle nouveau de vieilles idées.
    Il est souligné que l’innovation naît des vides et des points de croisement entre anciennes idées, et qu’elle se produit finalement sur les épaules des prédécesseurs.
    L’IA est décrite comme un ascenseur qui nous emmène directement sur les épaules des géants, tout dépendant en fin de compte de la manière dont on utilise l’outil.

    • Tout en étant d’accord sur l’accès à d’anciennes idées, il est soutenu qu’il existe des limites à l’idée d’y accéder sous une perspective réellement nouvelle.
      Il est expliqué que les LLM aident en partie à interpréter les données, mais restent encore insuffisants pour produire des idées totalement nouvelles par rapport à la recherche existante.
      Il est ajouté que l’usage des LLM peut accélérer certains domaines très spécifiques de la recherche, mais qu’il atteint ses limites ailleurs.

    • Il est dit qu’il est difficile d’imaginer un être humain ayant assimilé tout le savoir existant sans être capable de produire une idée entièrement nouvelle.

    • Il est souligné que le propos du texte porte sur l’innovation en IA elle-même ainsi que sur l’augmentation de la quantité et de la qualité des données.
      Il est affirmé qu’il y a bien eu des innovations fondamentales, mais que le meilleur moyen d’améliorer les performances reste malgré tout d’avoir davantage de données et de meilleure qualité.
      Le cycle « plus de données → modèles plus profonds → répétition » est donné comme exemple du développement de l’IA.
      Il est dit qu’on voit mal comment l’avis précédent se rattache à cette perspective.

    • L’idée que toute nouveauté dérive seulement de l’ancien est contestée à l’aide de l’anecdote de la découverte du noyau benzénique.
      Il est donné comme exemple que l’idée de la structure de l’anneau benzénique serait venue en rêve sous la forme d’un serpent se mordant la queue (« Ouroboros »), montrant qu’une imagination inédite est souvent la source de l’innovation.

  • Il est dit que les LLM récents reviennent au fond à additionner et multiplier des nombres.
    C’est formulé de manière extrême comme quelque chose que les Babyloniens faisaient déjà il y a 4 000 ans.

    • Il est expliqué que l’être humain lui aussi n’est au fond que le résultat d’interactions d’ondes, et que tout sens est finalement attribué.
      Dès lors qu’il existe un moyen d’indexer l’espace des concepts, il est possible d’explorer la surprise, ce qui rend les possibilités infinies.

    • Il est comparé que les Babyloniens le faisaient sur des tablettes d’argile, tandis qu’aujourd’hui cela se passe dans des semi-conducteurs aux parois de l’épaisseur d’un atome.
      Il est avancé qu’il existe donc une grande différence dans la méthode.

  • Il est estimé que l’entraînement de l’IA actuelle ressemble en réalité davantage à un processus de mémorisation des datasets.
    Il est souligné qu’il ne s’agit pas d’un mode où elle réfléchit d’elle-même aux données, en déduit des conclusions et les mémorise.
    Il est jugé qu’elle peut connaître davantage de « faits » qu’un doctorant sur un sujet donné, mais que l’humain reste supérieur lorsqu’il s’agit de penser ce contenu.

    • Il est supposé que c’est peut-être pour cela que les doctorants gardent leurs manuels à portée de main.
      Il est demandé en retour si un modèle d’IA a vraiment besoin de mémoriser tous les faits déjà consignés.

    • Il est expliqué qu’en réalité le processus est un peu plus complexe.
      Il est évalué qu’il s’agit d’intérioriser les données sous forme d’heuristiques afin de pouvoir réagir de manière appropriée aux entrées.
      Il est ajouté que ces heuristiques surprennent parfois les humains et montrent parfois des résolutions de problèmes originales.
      Il est jugé que le concept même de « pensée » est trop vaste pour trancher facilement, mais que l’AGI reste encore lointaine.

    • L’idée qu’un modèle « retient davantage de faits qu’un doctorant sur un sujet donné » est comparée à un ordinateur portable.
      Il est souligné qu’un ordinateur portable aussi peut stocker davantage de faits, non ?