21 points par GN⁺ 2025-12-23 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • L’idée selon laquelle les LLM ne seraient que de simples perroquets probabilistes a presque disparu en 2025, et la plupart reconnaissent désormais l’existence de représentations internes du sens des prompts et de l’orientation des réponses
  • Le Chain of Thought (CoT) est devenu une technique clé pour améliorer la qualité des sorties des LLM, en combinant l’échantillonnage dans les représentations du modèle et l’apprentissage séquentiel des tokens via l’apprentissage par renforcement
  • L’apprentissage par renforcement avec récompenses vérifiables a ouvert des perspectives d’extension au-delà des limites liées au nombre de tokens, et ce domaine est pressenti comme la prochaine direction majeure du progrès en IA
  • La résistance au support à la programmation fondé sur les LLM a fortement diminué, et les usages se divisent entre collaboration via interface web et agents de codage autonomes
  • La recherche d’alternatives aux Transformers et la possibilité de l’AGI progressent en parallèle, avec l’émergence de l’idée que différentes architectures pourraient atteindre indépendamment l’intelligence générale

  • Pendant longtemps, certains ont soutenu que les LLM étaient des machines probabilistes (stochastic parrots) dotées de deux caractéristiques, incapables de comprendre le sens
    • 1. Ils ne possèdent absolument aucune information sur le sens du prompt
    • 2. Ils ne possèdent absolument aucune information sur ce qu’ils vont eux-mêmes dire
  • À mesure que les résultats fonctionnels et les indices scientifiques se sont accumulés, cette vision a progressivement perdu en crédibilité, jusqu’à presque disparaître en 2025
  • Le Chain of Thought (CoT) s’est imposé comme une technique centrale pour améliorer les performances actuelles des LLM
  • L’effet du CoT vient du fait qu’il fait remonter les informations et concepts pertinents dans le contexte afin de permettre un échantillonnage dans l’espace de représentation interne du modèle, autrement dit une exploration interne
  • Combiné à l’apprentissage par renforcement, il permet d’apprendre un processus convergeant vers des réponses utiles en faisant évoluer l’état du modèle token par token
  • L’ancienne idée selon laquelle les limites du scaling seraient déterminées par le nombre de tokens n’est plus valable
  • L’introduction du RL fondé sur des récompenses vérifiables (RLVR) a élargi le champ du scaling
  • Pour les tâches où il existe un signal de récompense clair, comme l’amélioration de la vitesse d’un programme, il existe en théorie une possibilité d’amélioration continue sur le long terme
  • Les progrès de l’apprentissage par renforcement appliqué aux LLM deviendront la technologie clé de la prochaine génération d’IA
  • La résistance des développeurs à la programmation assistée par l’IA a nettement diminué
  • Même lorsque les LLM se trompent, leur capacité à fournir du code utile et des indices s’est fortement améliorée
  • À mesure que le retour sur investissement est devenu clair, même les développeurs sceptiques ont commencé à les utiliser
  • Deux usages coexistent : utiliser les LLM comme des collègues via une interface web ou comme des agents de codage autonomes
  • L’idée qu’une autre percée reste possible après le Transformer se diffuse chez certains scientifiques de premier plan en IA
    • Des équipes et des entreprises explorant des alternatives au Transformer, la représentation symbolique explicite (symbolic representation) et le world model émergent
  • Les LLM sont vus comme des machines différentiables entraînées dans un espace capable d’approximer des étapes de raisonnement discrètes
  • Il est envisagé qu’il soit possible d’atteindre l’AGI via les LLM sans paradigme fondamentalement nouveau
  • Il pourrait être possible d’atteindre indépendamment l’intelligence artificielle générale (AGI) à travers diverses architectures
  • Certains avancent aussi que le Chain of Thought a changé la nature même des LLM
  • On observe que des personnes qui jugeaient autrefois les LLM limités ont changé de position après le CoT
  • Elles affirment que les LLM ont complètement changé à cause du CoT, mais c’est faux
  • Il s’agit toujours de la même architecture avec le même objectif de next token, et le CoT reste fidèle au mode de génération token par token
  • L’ARC test, autrefois utilisé pour vérifier les limites des LLM, est désormais devenu un indicateur de leurs performances
  • Contrairement à ses débuts, l’ARC test ne semble plus être une tâche impossible à surmonter
  • Des petits modèles optimisés pour des tâches spécifiques ont obtenu des résultats significatifs sur ARC-AGI-1
  • Une architecture que beaucoup pensaient incapable d’obtenir des résultats a pourtant atteint des performances impressionnantes sur ARC-AGI-2 grâce à de grands LLM et un CoT étendu
  • Au cours des 20 prochaines années, le défi le plus fondamental auquel l’IA sera confrontée sera d’éviter l’extinction de l’humanité

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.