Tout se dirige-t-il vers le faux ?
(aphyr.com)- Ce qu’on appelle aujourd’hui IA est en réalité un ensemble complexe de systèmes de machine learning (ML), conçus pour compléter statistiquement du texte, des images et de l’audio
- Les LLM sont des machines d’improvisation qui fabriquent des « mensonges plausibles », en évitant de répondre qu’ils ne savent pas et en générant des faits fictifs
- Les humains les prennent facilement pour des entités conscientes, mais les auto-explications et le raisonnement des modèles ne sont que des récits fictifs
- Les LLM présentent des performances irrégulières, capables de résoudre des problèmes avancés tout en échouant sur des tâches simples, révélant des limites peu fiables
- Dans cet ensemble de déséquilibres et d’incertitudes, le ML s’impose comme une technologie qui transforme profondément et étrangement la société humaine
Préface
- La génération qui a grandi en admirant les univers de SF d’Asimov et Clarke imaginait avec optimisme l’arrivée de machines intelligentes, mais a connu une désillusion face à l’effondrement du test de Turing dans la réalité
- Lorsqu’en 2019 un grand acteur du cloud a présenté du matériel destiné à l’entraînement des LLM, des inquiétudes sont apparues quant au fait que la diffusion du deep learning pourrait engendrer de nouvelles formes de spam et de propagande
- Le texte explore l’espace négatif du discours sur l’IA et se présente non comme une analyse exhaustive, mais comme une tentative de faire apparaître les contours des risques et des possibilités
- Le terme « IA » étant trop englobant, l’analyse se concentre sur une discussion concrète centrée sur le ML et les LLM
- Certaines prédictions se sont déjà réalisées, tandis que d’autres restent encore dans une zone incertaine et étrange
Qu’est-ce que l’« IA » ?
- Ce qu’on appelle aujourd’hui « IA » est un ensemble complexe de techniques de machine learning (ML) : des systèmes qui reconnaissent, transforment et génèrent des vecteurs de tokens pour du texte, de l’image, de l’audio ou de la vidéo
- Un LLM (Large Language Model) traite le langage naturel et fonctionne en prédisant une continuation statistiquement plausible de la chaîne d’entrée
- Les modèles sont entraînés sur des pages web et de vastes corpus de données, y compris des livres et de la musique piratés, puis peuvent être réutilisés via une inférence à faible coût
- Les modèles n’apprennent pas d’eux-mêmes avec le temps et ne sont mis à jour que par réglages opérés par leurs exploitants ou par réentraînement
- La « mémoire » des modèles conversationnels est en réalité mise en œuvre au moyen d’une technique structurelle consistant à inclure des résumés des échanges précédents dans l’entrée
Fanfiction du réel
- Les LLM fonctionnent comme des machines d’improvisation (improv), prolongeant le contexte fourni selon un schéma de « yes-and » du type « et ensuite… »
- Ils produisent ainsi des phrases plausibles mais détachées des faits, comprennent mal la satire ou le contexte et fabriquent de fausses informations
- Les humains ont tendance à prendre facilement ces sorties pour les paroles d’une véritable entité consciente
- Comme les LLM génèrent une sortie pour toute entrée, ils ont tendance à éviter de répondre « je ne sais pas » et à inventer des contre-vérités
- Ces mensonges ne relèvent pas d’une intention, mais apparaissent comme un produit sociotechnique issu de l’interaction entre humains et machines
Un narrateur peu fiable
- Les humains demandent souvent aux LLM de s’expliquer eux-mêmes, par exemple avec des questions du type « pourquoi as-tu fait cela ? », alors que les modèles n’ont aucune capacité d’auto-perception
- Les LLM ne font que produire des complétions probabilistes fondées sur les échanges précédents et sur leur corpus, et même les explications qu’ils donnent à leur propre sujet prennent la forme de récits fictifs
- Même les modèles dits de reasoning fonctionnent en mettant en scène leur processus de pensée sous forme narrative
- Selon des recherches d’Anthropic, la majorité des traces de raisonnement de Claude étaient inexactes, et même le message d’état « en train de réfléchir » ne serait qu’une mise en scène fictive
Les modèles sont intelligents
- Ces derniers mois, l’idée que les capacités des LLM se sont rapidement améliorées s’est largement diffusée
- Certains ingénieurs rapportent que Claude ou Codex résolvent d’un coup des tâches de programmation complexes
- Dans divers domaines, on observe des usages concrets pour la conception de régimes alimentaires, la revue de spécifications de construction, la visualisation 3D ou la rédaction d’autoévaluations
- Des performances élevées apparaissent aussi dans la prédiction du repliement des protéines par AlphaFold ou dans l’interprétation d’images médicales
- Pour le style en anglais, les images ou la musique, il devient de plus en plus difficile de distinguer l’humain de la machine, même si la génération vidéo reste encore limitée
Les modèles sont stupides
- En même temps, les LLM sont aussi décrits comme des systèmes « stupides » qui répètent des erreurs élémentaires
- Par exemple, Gemini gère à répétition mal la géométrie et les matériaux dans le rendu de modèles 3D, tandis que Claude génère du code JavaScript de visualisation dénué de sens
- ChatGPT ne parvient pas à exécuter correctement une simple demande de correction de couleur et avance de fausses affirmations en présumant à tort l’orientation sexuelle de l’utilisateur
- Des cas ont été signalés où les LLM généraient des graphiques à partir de données inventées, échouaient à piloter une maison connectée ou entraînaient des pertes financières
- La fonction de résumé par IA de Google affiche un taux d’erreur d’environ 10 %, et les affirmations sur une « intelligence de niveau expert » sont jugées largement fantasmées
Une frontière irrégulière
- Les humains peuvent généralement anticiper l’étendue de leurs capacités, mais les performances des systèmes de ML sont irrégulières et imprévisibles
- Les LLM peuvent résoudre des mathématiques avancées tout en échouant sur de simples problèmes de langage, et fournir des explications dépourvues de bon sens physique
- Ce déséquilibre est qualifié de « jagged technology frontier », une frontière technologique irrégulière qui, contrairement à la distribution des capacités humaines, présente une forme discontinue
- Le ML dépendant des données d’entraînement ou de la fenêtre de contexte (window), il reste fragile face aux tâches qui exigent des connaissances implicites
- Les domaines exigeant des robots humanoïdes ou des connaissances incarnées (embodied knowledge) restent encore lointains
Est-ce que cela progresse, ou non ?
- Les chercheurs ne comprennent même pas clairement les raisons du succès des modèles transformeurs
- Depuis l’article de 2017 Attention is All You Need, diverses architectures ont été essayées, mais l’approche consistant simplement à augmenter le nombre de paramètres reste la plus efficace
- Malgré l’explosion des coûts d’entraînement et du nombre de paramètres, les gains de performance ralentissent, sans qu’on sache clairement s’il s’agit d’une illusion d’optique ou d’une limite réelle
- Même si le ML cessait de progresser davantage, il exerce déjà une influence profonde sur l’ensemble de la société, de la politique, de l’art et de l’économie
- En conséquence, le ML est une technologie qui modifie fondamentalement et étrangement la vie humaine, et sa trajectoire future a de fortes chances de devenir encore plus étrange
Note terminologique
- Le terme « IA » étant trop englobant, il est précisé en ML ou LLM
- « IA générative » est considéré comme une expression incomplète, car elle n’inclut pas les tâches de reconnaissance
- Si les LLM mentent au sujet d’eux-mêmes, c’est en raison des récits humains portant sur l’IA et de l’influence des données d’entraînement
- À l’objection selon laquelle dire que « les modèles sont stupides » relèverait surtout d’un problème de prompt ou de choix du modèle, il est répondu que les mêmes erreurs se répètent même sur les modèles commerciaux les plus récents
Aucun commentaire pour le moment.