Les réponses de l’IA peuvent contenir des erreurs

(os2museum.com)

2 points par GN⁺ 2025-06-02 | 2 commentaires | Partager sur WhatsApp

Les résumés de recherche par IA ne sont pas toujours exacts
Des informations variées sur le PS/2 Model 280 sont fournies différemment à chaque consultation répétée
Problème d’hallucination de l’IA, qui explique de façon plausible même des numéros de modèle inexistants
La probabilité d’obtenir une bonne réponse est très faible
Les non-spécialistes risquent fortement de prendre facilement de fausses informations pour la vérité

Problèmes de fiabilité constatés avec les résumés de recherche par IA

Tentative de recherche d’un modèle IBM PS/2

Recherche effectuée sur Google pour trouver un modèle précis du système PS/2 Server lancé en 1992
Les informations obtenues dans les résultats ne correspondaient pas à la machine recherchée, alors que le modèle d’origine se caractérisait par l’usage de processeurs 486 et du Microchannel (MCA)

Répétition des résultats et incohérences des réponses

Même en relançant la même requête, le résumé IA apparaissait différent à chaque fois
Par exemple, il répétait continuellement que le PS/2 Model 280 était un système ISA basé sur un 286
D’une réponse à l’autre, même les informations sur la capacité et les spécifications de la RAM changeaient, révélant des données incohérentes

Description hallucinée d’un modèle inexistant

Après plusieurs requêtes, l’IA a aussi généré des informations techniquement impossibles, comme l’affirmation qu’un système 286 pouvait être étendu jusqu’à 128 Mo
Une explication est même apparue selon laquelle le PS/2 Model 280 représentait une évolution majeure de la gamme IBM PC
En réalité, le PS/2 Model 280 n’existe pas, mais l’IA a fourni des explications sans fondement de manière très convaincante

Faible fréquence des bonnes réponses

Ce n’est qu’après plusieurs tentatives de requête qu’une réponse correcte est apparue de temps à autre, indiquant que « Model 280 n’existe pas réellement dans la série PS/2 »
La proportion de réponses exactes est très faible et, dans la plupart des cas, l’IA invente des informations sans fondement
Les réponses hallucinées n’ont aucune valeur informative et apportent au contraire une fausse confiance

Se méfier d’une confiance aveugle dans les résumés de recherche par IA

La recherche Internet basée sur l’IA peut sembler très convaincante pour les non-spécialistes
Un expert repérera vite les erreurs, mais un utilisateur peu capable de vérifier l’information peut facilement se laisser tromper par de fausses données
L’avertissement selon lequel l’IA « peut faire des erreurs » n’est pas à prendre à la légère, et il est dangereux de s’appuyer sur des réponses d’IA sans processus de vérification fiable
Le fait qu’une réponse semble convaincante ne signifie pas qu’elle repose sur des faits réels
Il faut toujours garder à l’esprit la nécessité du doute et de la vérification des faits face aux résumés et résultats de recherche fondés sur l’IA

2 commentaires

ndrgrd 2025-06-03

Je pense qu’il vaut mieux demander aux LLM de se limiter aux résumés. Il est indispensable de trouver la source des données et de les vérifier.

GN⁺ 2025-06-02

Réactions sur Hacker News

Mention de la tendance de Google Gemini à confabuler en fabriquant des réponses pour qu’elles semblent correspondre à la question dans les résultats de recherche, avec l’idée qu’il ne se soucie ni du contexte ni de l’exactitude ; témoignage expliquant que cela peut servir d’aide-mémoire seulement quand on connaît déjà la réponse attendue, mais qu’autrement c’est totalement impossible à croire ; les résultats de Google Veo sont eux aussi pleins de trous ; il est évident que les résultats de l’IA n’ont ni logique ni raisonnement ; partage d’exemples où Veo produit des résultats aberrants, ainsi que d’un article sur un accident causé par le comportement étrange de Tesla FSD
[Réalisme de la vidéo IA] (https://arstechnica.com/ai/2025/05/ai-video-just-took-a-star...)
[Article sur l’accident de Tesla FSD] (https://electrek.co/2025/05/23/tesla-full-self-driving-veers...)
- Impression qu’un tel niveau de qualité est peu à peu accepté comme quelque chose de « normal » ou « acceptable », et que le fait que presque personne n’y voie un vrai problème est extrêmement inquiétant ; autrefois cela aurait été totalement intolérable, d’où l’interrogation sur la raison pour laquelle des résultats inexacts sont de plus en plus tolérés aujourd’hui
- Témoignage d’une recherche Google sur une fonctionnalité automobile : l’ancien moteur de recherche Google traitait très bien ce type de requête, mais maintenant 90 % de la page est envahi par des résultats IA mélangeant de mauvaises années, de mauvais modèles et de mauvaises marques ; la seule chose un peu utile a été une vidéo YouTube, et la bonne réponse se trouvait tout en bas de page sur un ancien forum auto, d’où un remerciement à CamaroZ28.com
- Situation jugée plus déconcertante que n’importe quelle autre technologie : incompréhension face au fait que Google mise son cœur de métier sur un virage aussi gravement défectueux ; promesses du type « ça va s’améliorer » à la Ben Evans considérées comme du vent ; exemple concret d’une recherche sur un événement commémoratif tenu la veille en Allemagne, où l’AI Overview a repris le nom d’un musicien italien déjà décédé et a inventé que la salle de concert portait le nom de sa meilleure œuvre ; expérience amusante ensuite, en collant cette réponse dans ChatGPT, qui a fourni une réponse à la fois douce et acérée se moquant des erreurs de l’AI Overview
- Sentiment que l’IA donne superficiellement l’impression d’être la plus intelligente de l’histoire, alors qu’en pratique sa logique interne et son raisonnement ne suivent pas, ce qui crée une étrange forme d’uncanny valley
- Incompréhension sincère face à la manière dont certains utilisent les LLM comme substitut à la recherche ; les chatbots ne donnent en général que des données adjacentes à l’information souhaitée, par exemple des citations quand on demande les sources ; doute sur le fait d’utiliser soi-même mal la recherche
Tout en connaissant les limites et la nature probabiliste des LLM, la personne explique qu’en voyant sa famille ou ses amis leur faire confiance pour des tâches inadaptées, elle passe pour la seule sceptique de l’IA ; ils demandent même à l’IA de faire des divisions simples, par exemple pour partager une addition, et ont tendance à croire les résultats des LLM sans réserve
- Exemple classique d’un problème low-tech traité par une solution high-tech, avec une moquerie envers l’idée de confier même un simple calcul à une machine
- Dans les usages du quotidien, les résultats sont souvent « suffisamment » corrects pour pousser les gens à s’y habituer et à en dépendre, ce qui rend la situation particulièrement piégeuse
- Demander un calcul simple à un LLM est en fait assez comique ; plaisanterie disant qu’autant lui demander d’écrire du Python pour les variables
- Comparaison de l’usage des LLM à une nuisance qui affecte aussi l’entourage, un peu comme le tabagisme en intérieur
- À propos du fait que des gens « font faire les calculs par l’IA, lui demandent de chercher des informations puis lui font confiance à 100 % », quelqu’un répond que pour des usages mécaniques aussi simples, les chatbots actuels y arrivent tous, non ? Puisque l’on peut traiter plusieurs fonctions à la fois, pourquoi s’embêter à changer d’application selon les cas ? Au fond, l’ergonomie reste le moteur le plus puissant
Remarque selon laquelle la simple phrase « Les réponses de l’IA peuvent comporter des erreurs » ou l’avertissement placé en bas de ChatGPT sont déjà très insuffisants ; malgré des années d’avertissements sur les hallucinations des LLM, les gens continuent à se tromper, et les fournisseurs de LLM devraient donc éduquer les utilisateurs de manière plus agressive sur leurs limites, même si cela dégrade l’expérience utilisateur
- Dans ce type de débat, il n’y aurait finalement que deux options : responsabiliser les fournisseurs de modèles, ou conserver le système actuel de mise en garde limitée ; les modèles d’IA et les services cloud comportent déjà plusieurs couches de filtrage et de censure, et ajouter encore plus de friction reviendrait surtout à rajouter quelques pop-up ; mais si l’on commence à faire porter la responsabilité sur les fournisseurs de modèles, alors tout le secteur des modèles ouverts deviendra impossible, les entreprises ne passant plus que par des accords de licence privés sans API publique pour le grand public ; au mieux, on peut imaginer qu’un changement d’ambiance à l’avenir assouplira un peu ces limites
- À l’argument selon lequel « il faut mieux éduquer les utilisateurs », réponse réaliste : c’est le genre de chose qu’on n’apprend vraiment qu’à travers l’expérience, en se faisant soi-même avoir ; aucun avertissement n’est aussi efficace qu’un préjudice réel
- Point de vue selon lequel les fournisseurs ne peuvent pas insister activement sur les limites des LLM, puisque leur justification fondamentale est précisément de remplacer le travail intellectuel humain ; contradiction relevée avec les multiples déclarations du CEO d’Anthropic sur l’inévitabilité du chômage de masse
- Rappel de l’époque où Apple Maps ou Google Maps devaient gérer des crises de communication à cause de mauvaises indications ; aujourd’hui, on a l’impression qu’un simple avertissement suffit à tout excuser, ce qui alimente une déception devant l’excès d’indulgence accordé aux nouvelles technologies
- Insistance sur le fait que l’avertissement devrait être placé tout en haut de la page, en grosses lettres rouges
Explication du fait qu’un modèle de langage n’est pas conçu pour « savoir » des choses mais pour « parler », d’où le terme de language model plutôt que knowledge model ; il se contente d’enchaîner probabilistiquement les mots après les mots déjà générés ; s’il produit des réponses différentes à chaque fois, c’est parce qu’il existe en interne une distribution de probabilité avec un générateur pseudo-aléatoire pour choisir le mot suivant ; avec une température à 0, l’aléa disparaît et le modèle choisit toujours le mot le plus probable, ce qui produit des réponses très ennuyeuses ; sur IBM, PS/2, 80286, 80486, etc., il ne « sait » rien réellement, il ne fait qu’ordonner des séquences de mots
- Témoignage indiquant qu’avec une température à 0, les modèles locaux fonctionnent tout de même très bien ; le fait que les UI cloud empêchent de mettre 0 viserait surtout à éviter que le grand public voie les bugs où le modèle tombe dans une boucle de répétition infinie
- Accord sur le fait qu’un modèle de langage ne fournit pas de « connaissance » mais produit seulement du discours ; cependant, du point de vue d’un utilisateur de Google, on n’y va pas pour converser mais pour obtenir un savoir réel ; remplacer la fourniture fiable de connaissances par de la simple génération de mots serait donc une erreur fondamentale de Google, même si, en pratique, cela n’a peut-être pas tant d’importance si l’objectif réel reste la publicité
Critique du fait que, même sur le moteur de recherche Google, l’avertissement « les réponses de l’IA peuvent comporter des erreurs » soit caché sous le bouton « Voir plus » ; souvenir d’une discussion au moment du lancement de OpenAI ChatGPT avec un professeur non spécialiste, à qui il avait été expliqué que l’IA actuelle n’est pas une « vraie IA » mais plutôt une sorte de tour de salon fondé sur le calcul ; malgré cela, ce « tour de passe-passe » s’avère remarquablement efficace pour plagier des devoirs ; impression générale qu’au-delà des devoirs, c’est un excellent outil de triche pour toutes sortes de tâches dès lors qu’on se soucie peu de la qualité ou du droit d’auteur
- Mise en doute de l’idée selon laquelle « cela donne seulement l’impression de savoir coder, alors qu’en réalité non » ; en pratique, cela peut effectivement écrire du code, et après tout personne ne sait vraiment non plus ce qui se passe dans le cerveau humain ; ce débat de nature serait donc moins important que les résultats obtenus
- Vision pragmatique du LLM comme d’un outil d’aide-mémoire et de recherche d’information avec une interface d’entrée/sortie flexible
Gemini serait optimisé pour les questions fréquentes, mais aurait tendance à fournir des réponses confabulées et hors sujet pour des intentions de recherche plus traditionnelles ; plusieurs personnes disent avoir vu beaucoup de gens faire confiance à l’AI Overview comme à un oracle ; c’est ainsi que le grand public expérimente l’IA ; contrairement à la confiance accordée aux « actualités », l’IA semble inspirer confiance à tous, sans distinction d’âge ou de profil démographique ; conclusion amère selon laquelle les humains aiment fondamentalement les réponses informatiques données avec une assurance injustifiée
- Les changements dans l’environnement de recherche Google sont jugés particulièrement graves ; autrefois, l’interface d’extraits en haut de page a été utilisée pendant plus de dix ans, en citant des sites fiables et en économisant des clics, ce qui en faisait une source d’information crédible ; pour les questions médicales, les extraits venaient de sources comme Mayo Clinic, que l’on pouvait retrouver directement sur la page, ce qui avait instauré une vraie confiance ; avec le temps, ce système de confiance a été progressivement détérioré par le SEO, et le problème essentiel aujourd’hui est qu’il a été remplacé par AI Overview, qui relève d’un système fondamentalement différent ; la différence est nette avec l’époque où les sources valides et fiables pouvaient être vérifiées en temps réel
- Ce ne sont pas seulement les non-utilisateurs de LLM : même un manager travaillant avec les LLM à titre professionnel reformule ses questions jusqu’à obtenir la réponse qui confirme ce qu’il veut entendre
- Mention d’un ressort psychologique fondamental : les gens aiment naturellement les réponses fondées sur une confiance sans fondement
- Sentiment qu’Internet comme espace où l’on pouvait apprendre en cherchant disparaît désormais ; la situation s’est aggravée avec les déchets de spam SEO impossibles à croire, et l’AI Overview risque d’empirer encore les choses ; inquiétude face à un monde où, en cherchant « comment fonctionne une imprimante », des gens croiront sans sourciller une réponse absurde du type « un système de poulies et de cordes » ; réflexion issue de la constatation répétée de réponses grotesques, parfois dangereuses, dans la pratique
Le message « Les réponses de l’IA peuvent contenir des erreurs » serait précisément le point central que certains voudraient crier à tous les publics dans les débats sur l’IA ; dans toutes les discussions sur l’éthique et la sécurité de l’IA, ce point ainsi que l’impact énergétique et climatique devraient être au cœur du sujet, car ce sont les deux dimensions susceptibles de causer les plus grands dommages à l’humanité si la vague actuelle de l’IA se poursuit
- Le vrai problème n’est pas que « des erreurs peuvent survenir », mais qu’« il y aura forcément des erreurs » ; pourtant, beaucoup de gens n’en ont pas conscience et vénèrent ces systèmes comme des oracles universels, alors qu’il ne s’agit en réalité que de simples modèles probabilistes ; avec assez d’essais, même un singe peut avoir une chance d’écrire Shakespeare
Critique selon laquelle Google se trompe totalement sur les fondamentaux de la recherche, en se concentrant désormais davantage sur les résumés rapides et les liens sponsorisés que sur l’exactitude des réponses
- Sur 10 réponses rapides, 6 seraient subtilement fausses, 2 ouvertement fausses, et 1 carrément dangereuse ; certaines réponses pourraient réellement blesser quelqu’un ou créer des problèmes juridiques
- La stratégie du Google de l’époque Eric Schmidt, selon laquelle « mieux vaut n’importe quelle réponse que pas de réponse », aurait évolué aujourd’hui vers une logique du type « même une mauvaise réponse vaut mieux que pas de réponse »
L’IA est comparée à quelqu’un qui répond toujours à tout avec assurance, sans aucune base solide, ce qui laisse très peu de raisons de lui faire sérieusement confiance
- Le facteur psychologique serait essentiel : quand une personne manque d’assurance, les autres le perçoivent via des signaux non verbaux ; l’IA, elle, n’émet aucun de ces signaux, et il existe en plus une vieille habitude de considérer qu’une réponse produite par une machine est exacte par nature ; très peu de gens adoptent donc une posture réellement critique
- Plaisanterie disant qu’aucune entreprise d’IA n’a encore eu l’audace de baptiser son produit « Cliff Clavin », entre risque réputationnel et simple question de courage
- À l’idée de dire « je ne comprends vraiment pas pourquoi les gens font confiance à l’IA », quelqu’un rétorque que lorsque des entreprises comme Google, qui prétendent depuis des décennies organiser l’information mondiale et fournir des réponses exactes, proposent maintenant cela via l’IA, il est assez naturel que les gens leur fassent confiance
Retour d’expérience récent avec ChatGPT et du code Python : pour exclure certaines URL path d’une classe de logger de Gunicorn, quelqu’un a demandé au chatbot de proposer directement trois solutions puis de comparer leur vitesse ; le benchmark fourni concluait que les regex étaient les plus rapides, mais après vérification manuelle, l’approche par tuple s’est révélée plus de cinq fois plus rapide ; après signalement, le chatbot a immédiatement corrigé sa réponse en disant « merci de me l’avoir signalé, l’approche par tuple est la bonne » ; cela a tout de même permis de gagner du temps en obtenant rapidement le code de benchmark nécessaire, mais cette expérience a aussi rendu la personne beaucoup plus méfiante envers les résultats du chatbot dans les domaines où elle ne connaît pas déjà la bonne réponse avec certitude