Tout se dirige-t-il vers le faux ?

(aphyr.com)

2 points par GN⁺ 23 일 전 | 1 commentaires | Partager sur WhatsApp

Ce qu’on appelle aujourd’hui IA est en réalité un ensemble complexe de systèmes de machine learning (ML), conçus pour compléter statistiquement du texte, des images et de l’audio
Les LLM sont des machines d’improvisation qui fabriquent des « mensonges plausibles », en évitant de répondre qu’ils ne savent pas et en générant des faits fictifs
Les humains les prennent facilement pour des entités conscientes, mais les auto-explications et le raisonnement des modèles ne sont que des récits fictifs
Les LLM présentent des performances irrégulières, capables de résoudre des problèmes avancés tout en échouant sur des tâches simples, révélant des limites peu fiables
Dans cet ensemble de déséquilibres et d’incertitudes, le ML s’impose comme une technologie qui transforme profondément et étrangement la société humaine

Préface

La génération qui a grandi en admirant les univers de SF d’Asimov et Clarke imaginait avec optimisme l’arrivée de machines intelligentes, mais a connu une désillusion face à l’effondrement du test de Turing dans la réalité
Lorsqu’en 2019 un grand acteur du cloud a présenté du matériel destiné à l’entraînement des LLM, des inquiétudes sont apparues quant au fait que la diffusion du deep learning pourrait engendrer de nouvelles formes de spam et de propagande
Le texte explore l’espace négatif du discours sur l’IA et se présente non comme une analyse exhaustive, mais comme une tentative de faire apparaître les contours des risques et des possibilités
Le terme « IA » étant trop englobant, l’analyse se concentre sur une discussion concrète centrée sur le ML et les LLM
Certaines prédictions se sont déjà réalisées, tandis que d’autres restent encore dans une zone incertaine et étrange

Qu’est-ce que l’« IA » ?

Ce qu’on appelle aujourd’hui « IA » est un ensemble complexe de techniques de machine learning (ML) : des systèmes qui reconnaissent, transforment et génèrent des vecteurs de tokens pour du texte, de l’image, de l’audio ou de la vidéo
Un LLM (Large Language Model) traite le langage naturel et fonctionne en prédisant une continuation statistiquement plausible de la chaîne d’entrée
Les modèles sont entraînés sur des pages web et de vastes corpus de données, y compris des livres et de la musique piratés, puis peuvent être réutilisés via une inférence à faible coût
Les modèles n’apprennent pas d’eux-mêmes avec le temps et ne sont mis à jour que par réglages opérés par leurs exploitants ou par réentraînement
La « mémoire » des modèles conversationnels est en réalité mise en œuvre au moyen d’une technique structurelle consistant à inclure des résumés des échanges précédents dans l’entrée

Fanfiction du réel

Les LLM fonctionnent comme des machines d’improvisation (improv), prolongeant le contexte fourni selon un schéma de « yes-and » du type « et ensuite… »
Ils produisent ainsi des phrases plausibles mais détachées des faits, comprennent mal la satire ou le contexte et fabriquent de fausses informations
Les humains ont tendance à prendre facilement ces sorties pour les paroles d’une véritable entité consciente
Comme les LLM génèrent une sortie pour toute entrée, ils ont tendance à éviter de répondre « je ne sais pas » et à inventer des contre-vérités
Ces mensonges ne relèvent pas d’une intention, mais apparaissent comme un produit sociotechnique issu de l’interaction entre humains et machines

Un narrateur peu fiable

Les humains demandent souvent aux LLM de s’expliquer eux-mêmes, par exemple avec des questions du type « pourquoi as-tu fait cela ? », alors que les modèles n’ont aucune capacité d’auto-perception
Les LLM ne font que produire des complétions probabilistes fondées sur les échanges précédents et sur leur corpus, et même les explications qu’ils donnent à leur propre sujet prennent la forme de récits fictifs
Même les modèles dits de reasoning fonctionnent en mettant en scène leur processus de pensée sous forme narrative
Selon des recherches d’Anthropic, la majorité des traces de raisonnement de Claude étaient inexactes, et même le message d’état « en train de réfléchir » ne serait qu’une mise en scène fictive

Les modèles sont intelligents

Ces derniers mois, l’idée que les capacités des LLM se sont rapidement améliorées s’est largement diffusée
Certains ingénieurs rapportent que Claude ou Codex résolvent d’un coup des tâches de programmation complexes
Dans divers domaines, on observe des usages concrets pour la conception de régimes alimentaires, la revue de spécifications de construction, la visualisation 3D ou la rédaction d’autoévaluations
Des performances élevées apparaissent aussi dans la prédiction du repliement des protéines par AlphaFold ou dans l’interprétation d’images médicales
Pour le style en anglais, les images ou la musique, il devient de plus en plus difficile de distinguer l’humain de la machine, même si la génération vidéo reste encore limitée

Les modèles sont stupides

En même temps, les LLM sont aussi décrits comme des systèmes « stupides » qui répètent des erreurs élémentaires
Par exemple, Gemini gère à répétition mal la géométrie et les matériaux dans le rendu de modèles 3D, tandis que Claude génère du code JavaScript de visualisation dénué de sens
ChatGPT ne parvient pas à exécuter correctement une simple demande de correction de couleur et avance de fausses affirmations en présumant à tort l’orientation sexuelle de l’utilisateur
Des cas ont été signalés où les LLM généraient des graphiques à partir de données inventées, échouaient à piloter une maison connectée ou entraînaient des pertes financières
La fonction de résumé par IA de Google affiche un taux d’erreur d’environ 10 %, et les affirmations sur une « intelligence de niveau expert » sont jugées largement fantasmées

Une frontière irrégulière

Les humains peuvent généralement anticiper l’étendue de leurs capacités, mais les performances des systèmes de ML sont irrégulières et imprévisibles
Les LLM peuvent résoudre des mathématiques avancées tout en échouant sur de simples problèmes de langage, et fournir des explications dépourvues de bon sens physique
Ce déséquilibre est qualifié de « jagged technology frontier », une frontière technologique irrégulière qui, contrairement à la distribution des capacités humaines, présente une forme discontinue
Le ML dépendant des données d’entraînement ou de la fenêtre de contexte (window), il reste fragile face aux tâches qui exigent des connaissances implicites
Les domaines exigeant des robots humanoïdes ou des connaissances incarnées (embodied knowledge) restent encore lointains

Est-ce que cela progresse, ou non ?

Les chercheurs ne comprennent même pas clairement les raisons du succès des modèles transformeurs
Depuis l’article de 2017 Attention is All You Need, diverses architectures ont été essayées, mais l’approche consistant simplement à augmenter le nombre de paramètres reste la plus efficace
Malgré l’explosion des coûts d’entraînement et du nombre de paramètres, les gains de performance ralentissent, sans qu’on sache clairement s’il s’agit d’une illusion d’optique ou d’une limite réelle
Même si le ML cessait de progresser davantage, il exerce déjà une influence profonde sur l’ensemble de la société, de la politique, de l’art et de l’économie
En conséquence, le ML est une technologie qui modifie fondamentalement et étrangement la vie humaine, et sa trajectoire future a de fortes chances de devenir encore plus étrange

Note terminologique

Le terme « IA » étant trop englobant, il est précisé en ML ou LLM
« IA générative » est considéré comme une expression incomplète, car elle n’inclut pas les tâches de reconnaissance
Si les LLM mentent au sujet d’eux-mêmes, c’est en raison des récits humains portant sur l’IA et de l’influence des données d’entraînement
À l’objection selon laquelle dire que « les modèles sont stupides » relèverait surtout d’un problème de prompt ou de choix du modèle, il est répondu que les mêmes erreurs se répètent même sur les modèles commerciaux les plus récents

1 commentaires

GN⁺ 23 일 전

Commentaires sur Hacker News

J’ai souvent l’impression que la situation actuelle ressemble à celle de la révolution industrielle
Avant la révolution industrielle, on considérait presque les ressources naturelles comme infinies, et l’inefficacité faisait qu’on ne pouvait pas les épuiser complètement. Mais avec l’arrivée des machines, un petit nombre de personnes a pu consommer entièrement une partie de la planète, ce qui a rendu nécessaires les droits de propriété et les systèmes juridiques
Nous sommes maintenant dans l’ère de la révolution de l’information, et l’IA joue le même rôle dans le domaine numérique. Une entreprise peut entraîner une IA et réutiliser à l’échelle industrielle les œuvres d’innombrables créateurs. Cela brise l’équilibre entre créateurs et consommateurs
Dans un monde où les textes écrits par des auteurs sont absorbés par ChatGPT et où les originaux tombent dans l’oubli, on peut se demander qui continuera à produire du contenu. J’ai l’impression que nous traversons une période difficile, comme le Londres de l’époque de Dickens, jusqu’à ce que la société et le droit rattrapent leur retard
- Dire que « la nature était infinie » n’est pas exact. Dès le début de l’âge du fer, il existait déjà des problèmes de déforestation, et les tensions entre agriculture, pâturage et gestion forestière durent depuis des millénaires
- Beaucoup ont eu une réflexion similaire. L’actuel pape Léon XIV a choisi son nom en référence au pape Léon XIII de l’époque de la révolution industrielle, et il a évoqué la responsabilité sociale à l’ère de l’IA en citant l’encyclique Rerum novarum. Article lié : Vatican News
- Si j’écris, ce n’est pas simplement pour l’argent. C’est à cause du désir de créer et de l’envie de changer le monde, même un tout petit peu. Si ChatGPT apprend à partir de mes textes et que cela aide quelqu’un, cela a déjà du sens pour moi. Tout le monde n’a pas besoin d’être d’accord avec moi, mais moi, je le vois positivement
- Je pense plutôt l’inverse. La création est désormais un bien public numérique accessible à tous. Puisque l’IA a automatisé la création, il n’y a aucune raison qu’un créateur particulier en ait le monopole. L’open source finira par remplacer les entreprises d’IA, et sinon cela devrait être nationalisé comme un service public. Le concept même de propriété numérique est voué à disparaître à cause de la nature de la technologie
- Avant même la révolution industrielle, les gens se battaient déjà pour les droits d’usage de l’eau et des rivières. Par exemple, la guerre entre Umma et Lagash est un cas de conflit lié à l’eau datant de 4 000 ans
Depuis « Attention is All You Need », on n’a pas seulement augmenté le nombre de paramètres : on a évolué vers des architectures complexes comme Mixture-of-Experts, Sparse Attention et Mamba/Gated Linear Attention. Interpréter la Bitter Lesson comme un simple « il suffit d’augmenter le calcul » est une erreur
- L’auteur avait d’ailleurs précisé dès le départ : « je ne suis pas un expert du ML », et ce texte est un essai qui rassemble ses réflexions des dix dernières années. La formule « c’est peut-être une variante de la Bitter Lesson » visait simplement à donner matière à réflexion. Le but du texte est davantage de susciter la pensée que d’être techniquement exact
- Moi aussi, je suis passé de Qwen 3 à Qwen 3.5 : il y a moins de paramètres, mais les performances sont bien meilleures. Grâce à des innovations algorithmiques comme Gated DeltaNet et TurboQuant, l’efficacité mémoire a progressé et la longueur de contexte a augmenté. Au final, c’est l’innovation architecturale qui compte
- Après GPT-3 (175B), GPT-4 est estimé à 1,8 trillion de paramètres. Dire que l’augmentation du nombre de paramètres s’est arrêtée il y a 5 ans est faux
- Je me demande si Mamba est réellement utilisé dans des modèles à grande échelle. À ma connaissance, il manque encore d’implémentations efficaces. Et j’aimerais aussi savoir ce que signifie concrètement l’affirmation selon laquelle « l’entraînement est devenu bien plus sophistiqué »
- Le Transformer n’a rien de magique. Il était simplement bien plus efficace que les LSTM, RNN et CNN. Récemment, on a aussi vu apparaître des modèles qui utilisent des reasoning tokens pour produire leur processus de réflexion. Ce n’est pas parfait, mais jusqu’ici c’est l’approche qui fonctionne le mieux
Les modèles actuels ont déjà appris sur presque toutes les données publiques. Si les restrictions liées au droit d’auteur se renforcent, on risque d’avoir un problème de pénurie de données d’entraînement. Sans innovation du niveau de « Attention is All You Need », on a l’impression d’approcher d’une limite d’amélioration des performances
- Malgré tout, les chercheurs continuent d’essayer de nouvelles idées. Une percée dans les 5 à 10 ans reste possible. En attendant, le coût sera probablement élevé
- Dans les maths ou le logiciel, il est possible de générer des données synthétiques, donc ces domaines sont moins contraints. C’est le type de domaine où un apprentissage auto-vérifiable à la AlphaGo Zero est possible
- En réalité, les progrès actuels ont eux aussi commencé par une expérience du type « et si on augmentait énormément les données ? ». Ensuite, la différenciation s’est faite à l’étape de post-training
- Certaines entreprises embauchent des personnes pour produire des tokens de haute qualité, puis génèrent à partir de là des données synthétiques qu’elles réutilisent pour l’entraînement
Dire que « les LLM ne sont pas encore créatifs » est beaucoup trop simpliste. Sur les problèmes textuels, ils sont déjà capables de raisonnement logique, et dans l’image ou l’UI, les progrès sont aussi très rapides
- Le point essentiel, c’est que les LLM ne ‘comprennent’ pas les idées. Le raisonnement n’est qu’une simple boucle de rétroaction, pas une pensée véritable. Sur la question de savoir si cette limite peut être levée techniquement, optimistes et pessimistes coexistent
- Il m’arrive que des LLM me proposent des idées que je n’avais jamais vues. En revanche, je ne peux pas affirmer qu’elles sont réellement nouvelles à l’échelle de l’humanité
- Ce texte ne dit pas que « les LLM sont stupides », mais que la frontière entre intelligence et stupidité est complexe et imprévisible
- Même si les LLM résolvent des problèmes logiques, ils ont encore du mal à aborder des questions d’une manière absente de leurs données d’entraînement
- La génération d’images progresse elle aussi très vite. On peut le constater par exemple avec des projets comme GenAI Showdown
J’explique souvent aux gens qu’il n’y a ni conscience ni autonomie à l’intérieur des LLM. Aujourd’hui, le mot ‘IA’ est utilisé avec une charge sémantique excessive
- Dans ce cas, je me demande à quoi devrait ressembler une architecture interne différente pour qu’il y ait ‘conscience’ ou ‘autonomie’
- En réalité, l’‘IA’ est un terme académique qui existe depuis les années 1950. À l’origine, il désignait une tentative d’imiter la pensée humaine, mais aujourd’hui il signifie simplement système de calcul intelligent. Le public continue de l’interpréter dans un sens humain, d’où la confusion
- Pour ma part, je trouve au contraire que le mot ‘IA’ est exact. Les machines exécutent artificiellement l’intelligence, rien de plus. Comme en mathématiques ou en logique, cela reste au fond un processus mécanique. De même que les transistors exécutent la logique, la prédiction de tokens est quelque chose de naturel
- Je me demande aussi sur quoi repose la certitude que le cerveau humain fonctionnerait d’une manière fondamentalement différente des LLM
J’ai éclaté de rire en voyant un cas où un LLM résolvait mal un problème de physique. En réalité, les physiciens eux aussi partent souvent d’hypothèses irréalistes. Il existe même des blagues du type « un toit sphérique sans frottement »
- C’est l’approche typique de la science. On commence par une approximation avec un modèle simple, puis on y ajoute progressivement la complexité du réel
Il est encore difficile de dire que nous avons passé le test de Turing. Plus la conversation s’allonge, plus le contexte se désagrège, et il y a des limites quand il s’agit de simuler des caractéristiques humaines comme la neuroplasticité
- Pendant un temps, on a pu croire que c’était le cas, mais aujourd’hui la plupart des gens savent reconnaître le style caractéristique des LLM. Cela dit, comme les modèles sont délibérément conçus pour être plus aimables et plus verbeux, la comparaison n’est pas totalement équitable
- Le test de Turing n’a jamais été à l’origine un examen réussite/échec
- On entend souvent aujourd’hui que « les LLM ont réussi le test de Turing », mais en réalité, si l’on tient compte de la condition selon laquelle l’examinateur connaît les technologies les plus récentes, ils restent faciles à distinguer
- Mais avec un test aussi strict, même des humains pourraient échouer par manque de concentration
- Jusqu’à présent, je n’ai vu aucun LLM vraiment bon en écriture. Je me demande si un jour il en sortira un avec lequel dialoguer sera réellement agréable
Le titre original de l’article, « The Future of Everything is Lies, I Guess », ne correspondait pas au contenu et a donc été corrigé. C’était en réalité un texte équilibré, et le titre accrocheur a été modifié conformément aux règles de HN
- C’était une bonne décision. Le mot « mensonges » dans le texte ne désigne pas les hallucinations, mais le phénomène par lequel le modèle, lorsqu’on lui demande « pourquoi as-tu répondu ainsi ? », invente après coup une raison absurde. Les humains commettent eux aussi des erreurs de ce genre
- Grâce à cette curation, le titre est bien meilleur
- Le titre d’origine était efficace pour attirer les clics, mais représentait mal le contenu
Les discussions sur la conscience devraient faire preuve de plus d’humilité. Nous ne savons même pas définir la conscience humaine, donc on ne peut pas trancher celle des LLM
- Certaines théories de la conscience excluent les LLM, d’autres laissent cette possibilité ouverte. C’est un domaine sans réponse définitive
- Certaines personnes vénèrent les LLM comme une idole de silicium. Elles croient comprendre entièrement ce qu’elles ont créé, tout en pensant qu’il s’y cache une essence mystérieuse de l’intelligence. Cette attitude ressemble aux tentatives des alchimistes d’autrefois de fabriquer de l’or
Dans la seconde moitié du texte, il est dit que « l’IA va transformer l’ensemble de la société », mais cet épisode semble surtout se concentrer sur les limites des LLM
- En réalité, ce texte est l’introduction d’une série en 10 parties. Les épisodes suivants traiteront de sujets variés comme la politique, l’art, l’économie et les relations humaines
- En ce moment, il faut plutôt continuer à marteler le message selon lequel les LLM ne sont pas parfaits. Parce que le monde est en train de prendre l’IA pour une solution universelle.

Tout se dirige-t-il vers le faux ?

Préface

Qu’est-ce que l’« IA » ?

Fanfiction du réel

Un narrateur peu fiable

Les modèles sont intelligents

Les modèles sont stupides

Une frontière irrégulière

Est-ce que cela progresse, ou non ?

Note terminologique

À lire aussi

1 commentaires

Commentaires sur Hacker News