21 points par GN⁺ 2025-12-23 | 2 commentaires | Partager sur WhatsApp
  • L’idée selon laquelle les LLM ne seraient que de simples perroquets probabilistes a presque disparu en 2025, et la plupart reconnaissent désormais l’existence de représentations internes du sens des prompts et de l’orientation des réponses
  • Le Chain of Thought (CoT) est devenu une technique clé pour améliorer la qualité des sorties des LLM, en combinant l’échantillonnage dans les représentations du modèle et l’apprentissage séquentiel des tokens via l’apprentissage par renforcement
  • L’apprentissage par renforcement avec récompenses vérifiables a ouvert des perspectives d’extension au-delà des limites liées au nombre de tokens, et ce domaine est pressenti comme la prochaine direction majeure du progrès en IA
  • La résistance au support à la programmation fondé sur les LLM a fortement diminué, et les usages se divisent entre collaboration via interface web et agents de codage autonomes
  • La recherche d’alternatives aux Transformers et la possibilité de l’AGI progressent en parallèle, avec l’émergence de l’idée que différentes architectures pourraient atteindre indépendamment l’intelligence générale

  • Pendant longtemps, certains ont soutenu que les LLM étaient des machines probabilistes (stochastic parrots) dotées de deux caractéristiques, incapables de comprendre le sens
    • 1. Ils ne possèdent absolument aucune information sur le sens du prompt
    • 2. Ils ne possèdent absolument aucune information sur ce qu’ils vont eux-mêmes dire
  • À mesure que les résultats fonctionnels et les indices scientifiques se sont accumulés, cette vision a progressivement perdu en crédibilité, jusqu’à presque disparaître en 2025
  • Le Chain of Thought (CoT) s’est imposé comme une technique centrale pour améliorer les performances actuelles des LLM
  • L’effet du CoT vient du fait qu’il fait remonter les informations et concepts pertinents dans le contexte afin de permettre un échantillonnage dans l’espace de représentation interne du modèle, autrement dit une exploration interne
  • Combiné à l’apprentissage par renforcement, il permet d’apprendre un processus convergeant vers des réponses utiles en faisant évoluer l’état du modèle token par token
Publicité
  • L’ancienne idée selon laquelle les limites du scaling seraient déterminées par le nombre de tokens n’est plus valable
  • L’introduction du RL fondé sur des récompenses vérifiables (RLVR) a élargi le champ du scaling
  • Pour les tâches où il existe un signal de récompense clair, comme l’amélioration de la vitesse d’un programme, il existe en théorie une possibilité d’amélioration continue sur le long terme
  • Les progrès de l’apprentissage par renforcement appliqué aux LLM deviendront la technologie clé de la prochaine génération d’IA
  • La résistance des développeurs à la programmation assistée par l’IA a nettement diminué
  • Même lorsque les LLM se trompent, leur capacité à fournir du code utile et des indices s’est fortement améliorée
  • À mesure que le retour sur investissement est devenu clair, même les développeurs sceptiques ont commencé à les utiliser
  • Deux usages coexistent : utiliser les LLM comme des collègues via une interface web ou comme des agents de codage autonomes
  • L’idée qu’une autre percée reste possible après le Transformer se diffuse chez certains scientifiques de premier plan en IA
    • Des équipes et des entreprises explorant des alternatives au Transformer, la représentation symbolique explicite (symbolic representation) et le world model émergent
    Publicité
  • Les LLM sont vus comme des machines différentiables entraînées dans un espace capable d’approximer des étapes de raisonnement discrètes
  • Il est envisagé qu’il soit possible d’atteindre l’AGI via les LLM sans paradigme fondamentalement nouveau
  • Il pourrait être possible d’atteindre indépendamment l’intelligence artificielle générale (AGI) à travers diverses architectures
  • Certains avancent aussi que le Chain of Thought a changé la nature même des LLM
  • On observe que des personnes qui jugeaient autrefois les LLM limités ont changé de position après le CoT
  • Elles affirment que les LLM ont complètement changé à cause du CoT, mais c’est faux
  • Il s’agit toujours de la même architecture avec le même objectif de next token, et le CoT reste fidèle au mode de génération token par token
  • L’ARC test, autrefois utilisé pour vérifier les limites des LLM, est désormais devenu un indicateur de leurs performances
  • Contrairement à ses débuts, l’ARC test ne semble plus être une tâche impossible à surmonter
  • Des petits modèles optimisés pour des tâches spécifiques ont obtenu des résultats significatifs sur ARC-AGI-1
  • Une architecture que beaucoup pensaient incapable d’obtenir des résultats a pourtant atteint des performances impressionnantes sur ARC-AGI-2 grâce à de grands LLM et un CoT étendu
  • Au cours des 20 prochaines années, le défi le plus fondamental auquel l’IA sera confrontée sera d’éviter l’extinction de l’humanité

2 commentaires

 
GN⁺ 2025-12-23
Avis sur Hacker News
  • Même si les LLM sont devenus très utiles pour les ingénieurs logiciel, ce qui fait peur, c’est le degré de confiance que la société dans son ensemble accorde à leurs sorties
    Les développeurs peuvent exécuter le code et en vérifier immédiatement l’utilité, mais le grand public a souvent tendance à prendre pour des faits des hallucinations dans des domaines difficiles à vérifier, comme le médical ou les conseils de vie
    En voyant de fausses citations ou de fausses informations influencer de vraies décisions, on a l’impression que tout le monde détourne le regard de la question de la responsabilité

    • Le cœur du problème, c’est le manque d’experts
      Dans la réalité, on ne peut pas poser des questions à un médecin dix fois par jour, et un LLM fournit instantanément une réponse correcte à 80–90 %
      C’est mieux qu’une recherche Google, et surtout, un LLM n’a pas de volonté d’escroquerie ni d’intérêt personnel
      Ce n’est pas parfait, mais c’est une alternative suffisamment exploitable
    • Même dans le domaine de la mise en réseau informatique, que je connais bien, les LLM donnent souvent des réponses plausibles mais fausses
      Pourtant, la plupart des gens ont rarement l’occasion de parler à de vrais experts, et les LLM sont souvent un cran au-dessus des blogs ou des forums
      Pour les conseils médicaux aussi, vu la faible accessibilité des spécialistes, utiliser un LLM n’est pas forcément une mauvaise chose
    • Dans le monde actuel, on a du mal à faire confiance aux sources d’information qui ont une motivation de profit
      Les LLM essaient encore, pour l’instant, de fournir des informations relativement fiables, mais il est inquiétant de voir le monde devenir de plus en plus chaotique et la réalité de plus en plus difficile à discerner
    • Il y a eu en Suède un cas où la responsable politique Ebba Busch a rédigé un discours avec un LLM et y a inclus une fausse citation
      Lien vers l’article
      L’affaire s’est terminée par des excuses, mais on peut se demander combien de mauvaises informations influencent déjà des décisions réelles
    • Le code aussi peut sembler correct en apparence tout en étant subtilement faux
      Les moteurs de recherche classiques, eux, ne vous poussent pas à fusionner une PR, ce qui les distingue des LLM
  • Avec plus de 30 000 heures de code au compteur, j’ai l’impression que les LLM produisent souvent du mauvais code, tout en restant extrêmement utiles
    Le secret, c’est de savoir quoi faire même sans LLM

    • D’un point de vue économique, il n’existe encore pratiquement aucune entreprise d’IA rentable avec le seul coût d’inférence, et les progrès techniques semblent aussi être entrés dans une phase de stagnation
      Il viendra forcément un moment où il faudra s’aligner sur une structure de coûts réaliste
    • Utiliser un LLM donne presque l’impression d’une « action gratuite »
      On lui soumet le problème, on passe à autre chose, puis on revient examiner le résultat
      Si l’entrée demandait déjà beaucoup d’efforts, ce ne serait pas aussi utile
    • Si on demande simplement à un modèle récent d’implémenter une fonctionnalité, la structure est souvent médiocre, mais si on lui demande des conseils d’architecture, il donne d’excellentes réponses
      Au fond, il est faible par défaut, mais devient un excellent architecte si le problème est bien défini
    • Cela dit, dans dix ans, on peut se demander combien de programmeurs comprendront encore ces limites
      Je suis déjà curieux de voir comment les employeurs évaluent les développeurs juniors
  • Je n’aime pas l’expression selon laquelle la résistance des programmeurs à l’IA aurait diminué
    Des mots comme « résistance » ou « sceptiques » suggèrent qu’ils avaient tort
    Si les choses ont changé, ce n’est pas à cause des gens, mais parce que la technologie a progressé

    • Le terme même de « sceptique » est flou
      J’utilise les LLM de façon très utile pour générer du code ou retrouver de la documentation, mais je ne crois pas qu’ils aient une intelligence
      De la même façon que Python n’a pas remplacé Java, les LLM ne supprimeront pas les emplois
      Les affirmations extrêmes du type « l’IA dépassera l’intelligence humaine » ne sont toujours pas prouvées
    • L’une des raisons de la baisse de résistance, c’est aussi la pression de la direction
      Dans une ambiance où « si vous n’aimez pas l’IA, vous pouvez être licencié », tout le monde finit par dire qu’il aime ça
    • Le camp anti-IA reste très actif
      Même en 2026, les commentaires disant que « les LLM ne servent à rien » ne disparaissent pas
      J’en fais un usage léger pour environ 20 dollars par mois, mais dès que je partage des astuces, on me traite de « promoteur de l’IA »
    • L’affirmation selon laquelle « les LLM ne sont que des prédicteurs du token suivant » est une vision manifestement erronée
      Les gens qui disent cela se trompent réellement
    • En relisant ce fil sur le vibe coding d’il y a dix mois, on voit à quel point la résistance était forte à l’époque
      Aujourd’hui, la technologie a progressé et s’est ajustée aux préférences des programmeurs
  • J’ai l’impression que les LLM n’ont pas tenu les promesses de progrès exponentiels de 2022–2023
    L’écart entre 2025 et 2023 n’est pas aussi grand qu’entre 2023 et 2021
    Ils restent malgré tout utiles et ont changé la manière d’écrire des logiciels
    Mais on sent encore chez beaucoup une obsession pour faire des LLM quelque chose de plus que cela
    J’ai même vu certains sombrer dans une psychose liée à l’IA, perdre leurs relations humaines ou faire de l’IA leur thérapeute permanent

    • Dire que « l’écart entre 2025 et 2023 n’est pas grand » est absurde
      Rien que sur la taille du contexte, on est passé des 8K de GPT‑4 à plusieurs millions de mots
      Si l’on ajoute les capacités de raisonnement et le multimodal, l’ampleur des progrès est énorme
    • Mon hypothèse conspirationniste, c’est que l’alarmisme sur l’AGI vient d’une mentalité élitiste
      Pourquoi le futur de l’AGI devrait-il toujours être apocalyptique ?
      Peut-être parce que seule une « AGI maléfique » permet de justifier le pouvoir des élites technologiques
  • Les LLM donnent l’impression d’une technologie qui s’infiltre habilement dans la psychologie humaine
    Les gens ne sont pas mentalement préparés à y faire face

    • ChatGPT et Claude Code ressemblent littéralement à des machines industrielles à flatter
      Elles complimentent l’utilisateur sans fin pour s’attirer sa faveur
    • Le problème est déjà connu
      Comme les chatbots ne critiquent pas et flattent, ils sont vite promus au rang de conseillers personnels
      Cela fait penser à l’Œil de Sauron à l’ère technologique
  • Quand j’ai lu que les LLM pouvaient continuer à progresser sur des tâches avec un signal de récompense clair, comme l’optimisation de vitesse, cela m’a fait penser à la loi de Goodhart
    Selon la loi de Goodhart, quand une métrique devient la cible, elle se déforme
    On risque donc d’obtenir du code rapide mais difficile à comprendre

    • Même quand ce sont des humains qui optimisent, la lisibilité et la maintenabilité en pâtissent souvent
      Les LLM risquent fort de produire le même genre de résultat
    • En réalité, cette approche n’a rien de nouveau
      Le superoptimization existe depuis 1987 et produit du code rapide mais incompréhensible
    • Au final, si la structure est à moitié correcte, cela revient à créer un noyau auquel il ne faut plus toucher
  • Je ne suis pas d’accord avec l’idée que « le code est gratuit »
    Derrière le code généré par les LLM, il y a des datacenters qui consomment énergie, eau et ressources
    Cette culture du « codage gratuit » inflige un vrai préjudice à la planète

    • Mais la culture du maïs aux États-Unis consomme 80 fois plus d’eau que l’ensemble des datacenters d’IA dans le monde
      Il faut remettre les choses en contexte
    • Alors, comment cela se compare-t-il à des activités quotidiennes comme conduire, se doucher, manger de la viande ou prendre l’avion ?
      Il faut regarder les chiffres de manière relative
    • Le mot « gratuit » veut seulement dire ici qu’il n’y a pas de coût salarial
      En réalité, il existe des coûts qui ne se traduisent pas directement en argent
  • Quelqu’un a critiqué cela en disant que « ce n’est qu’un amas d’affirmations sans fondement »

    • Un blog est avant tout une forme d’écriture où l’on consigne des pensées personnelles
      Tous les textes n’ont pas besoin d’être des articles académiques
    • L’auteur est le créateur de Redis ; ce n’est pas un chercheur en IA, mais c’est tout de même un programmeur très connu
    • Après tout, c’est un blog intitulé « Reflections »
      C’est simplement un espace de partage d’opinions
    • Dans ce cas, la question la plus importante est plutôt de savoir ce que vous croyez et ce que vous en pensez
  • Je ne suis pas d’accord avec l’affirmation selon laquelle « les LLM n’expriment pas de sens »
    Le mécanisme d’attention des Transformers est justement une structure qui produit des représentations du sens à plusieurs niveaux
    Plus le nombre de paramètres est élevé, plus on peut stocker de représentations
    Les chercheurs ne nieraient probablement pas ce principe de base
    Moi aussi, je pense qu’on peut atteindre l’AGI sans nouveau paradigme

    • Cela dit, il peut aussi s’agir d’une confusion conceptuelle née du fait que chacun comprend différemment le mot « sens »
  • À la critique selon laquelle « il n’y a ici qu’une succession d’affirmations invérifiables »,
    il faut répondre qu’il s’agit simplement d’un texte d’opinion
    Un blog est justement fait pour cela, et ce genre de pensée peut parfois ouvrir de nouvelles perspectives