Les assistants IA déforment les contenus d’actualité dans 45 % des cas, selon une étude

(bbc.co.uk)

7 points par GN⁺ 2025-10-23 | 1 commentaires | Partager sur WhatsApp

Une étude internationale conjointe menée par l’Union européenne de radio-télévision (UER) et la BBC révèle que quatre grands assistants IA (ChatGPT, Copilot, Gemini, Perplexity) présentent des distorsions ou des erreurs dans 45 % des cas lorsqu’ils relayent des contenus d’actualité
L’étude, à laquelle ont participé 22 médias de service public dans 18 pays, a évalué plus de 3 000 réponses dans 14 langues et a mis en évidence de nombreux problèmes, notamment des sources absentes ou inexactes (31 %) et des erreurs factuelles ou hallucinations (20 %)
Gemini affiche en particulier le taux de problèmes le plus élevé, à 76 %, principalement en raison d’un échec à indiquer les sources
Par rapport à une précédente étude de la BBC, certains points se sont améliorés, mais des problèmes persistants à un niveau systémique et multinational demeurent
Alors que les assistants IA tendent à remplacer la recherche d’actualités, des risques de recul de la confiance publique et de la participation démocratique sont soulevés

Aperçu de l’étude

Présentée lors de l’Assemblée de l’information de l’UER (Naples), cette étude est décrite comme la plus vaste expérience multinationale jamais menée sur le sujet, concluant que les assistants IA produisent des distorsions de l’actualité de manière cohérente, quels que soient la langue, le pays ou la plateforme
Organismes participants : BBC, ARD, ZDF, CBC, NPR et 22 médias de service public dans le monde
Critères d’évaluation : exactitude, mention des sources, distinction entre faits et opinions, apport de contexte, ainsi que d’autres indicateurs clés de l’éthique journalistique

Principaux résultats

Des problèmes graves ont été relevés dans 45 % de l’ensemble des réponses
- 31 % concernaient des erreurs de source (omissions, citations incorrectes, sources mal identifiées)
- 20 % relevaient de défauts d’exactitude (hallucinations, informations obsolètes, désinformation comprise)
Gemini atteint un taux de problèmes de 76 %, soit environ le double des autres modèles
Certains indicateurs se sont améliorés par rapport à l’étude publiée plus tôt cette année par la BBC, mais le taux global de distorsion reste élevé

Pourquoi ces distorsions sont importantes

Les assistants IA se sont déjà imposés pour beaucoup comme une porte d’entrée vers l’actualité remplaçant les moteurs de recherche
Selon le « Digital News Report 2025 » du Reuters Institute, 7 % de l’ensemble des consommateurs d’actualités en ligne (15 % chez les moins de 25 ans) utilisent des assistants IA comme source d’information
Jean Philip De Tender (directeur des médias de l’UER) avertit que « le problème des assistants IA est un phénomène systémique qui dépasse les frontières et les langues », et qu’il menace la confiance publique
Peter Archer, de la BBC, souligne que « le potentiel de l’IA est immense, mais la diffusion d’informations fiables doit rester prioritaire, et une réponse conjointe des médias et des entreprises de l’IA est nécessaire »

Réponse et prochaines étapes

L’équipe de recherche a publié le « News Integrity in AI Assistants Toolkit » pour contribuer à résoudre ces problèmes
- Il présente les critères d’une bonne réponse d’IA et des pistes pour remédier aux problèmes
- Il vise à améliorer la qualité des réponses des IA et à renforcer la littératie médiatique des utilisateurs
L’UER appelle l’UE et les autorités de régulation nationales à renforcer l’application des lois liées à l’intégrité de l’information et aux services numériques, et propose un suivi indépendant continu des assistants IA

Études complémentaires et enquête de perception

Dans un rapport distinct intitulé « Audience Use and Perceptions of AI Assistants for News », la BBC indique que
- plus d’un tiers des adultes britanniques déclarent faire confiance aux résumés d’actualité générés par l’IA, et
- en cas d’erreur, ils ont tendance à tenir les médias responsables eux aussi, et pas seulement l’IA
Cela montre que les erreurs des assistants IA peuvent aussi nuire à la confiance accordée aux marques d’information

Liste des diffuseurs participants

Belgique (RTBF, VRT), Canada (CBC-Radio Canada), Tchéquie (Czech Radio), Finlande (YLE), France (Radio France),
Géorgie (GPB), Allemagne (ARD, ZDF, Deutsche Welle), Italie (Rai), Lituanie (LRT),
Pays-Bas (NOS/NPO), Norvège (NRK), Portugal (RTP), Espagne (RTVE), Suède (SVT),
Suisse (SRF), Ukraine (Suspilne), Royaume-Uni (BBC), États-Unis (NPR)

1 commentaires

GN⁺ 2025-10-23

Commentaire Hacker News

En regardant le rapport lui-même, on peut voir comment les chiffres ont été calculés. La plupart des erreurs sont des « problèmes de source » : l’assistant IA ne cite pas l’affirmation, ou bien cite (de façon assez choquante) Wikipedia au lieu de la BBC. En plus, ce rapport n’indique pas clairement quels modèles ont été utilisés, même si c’est mentionné en annexe. Anthropic, qui est selon moi le meilleur pour ce genre de tâche, a été exclu, et l’étude ne porte que sur Perplexity et Copilot. Le rapport mélange aussi un document récent avec une étude datant d’un an, ce qui enlève du contexte et passe sous silence le fait que la situation a beaucoup changé. Cet article a plusieurs problèmes importants
- Les journalistes humains transmettent eux aussi mal le contenu des livres blancs dans environ 85 % des cas. Dans ce contexte, 45 % ne semble pas si mauvais
- Je me demande aussi si le problème des citations ne vient pas du fait que le robots.txt de la BBC bloque la plupart des crawlers et user agents d’IA
- Je suis d’accord pour dire que les problèmes liés à l’interprétation de textes écrits par des humains sont vraiment importants. Même si cet article n’est pas bon, le type de problème qu’il décrit existe bel et bien et il est sérieux. Les LLM comprennent parfois mal des phrases individuelles, ou perdent le fil de qui a dit quoi, y compris sur les modèles les plus récents, GPT-5 compris. Cela arrive surtout quand on leur demande d’analyser des discussions écrites par des humains. Ce problème sera probablement résolu un jour, mais il est loin de l’être totalement aujourd’hui
- Je veux absolument ajouter quelque chose à l’idée selon laquelle citer Wikipedia au lieu de la BBC serait le problème. Le vrai problème, plus grave encore, c’est qu’ils citent des articles Wikipedia qui « n’existent même pas ». Par exemple, ChatGPT a mis un lien vers une page wiki inexistante intitulée “European Union Enlargement Goals for 2040”, qui n’était pas non plus une politique officielle de l’UE. Il a inventé à la fois une URL inexistante, des objectifs imaginaires de l’UE et une politique fictive
- Je pense que cet article remplit parfaitement son rôle. Il sert à lancer un titre que les gens réutiliseront ensuite. Dans un ou deux mois, on verra probablement circuler ce lien ou des citations bâclées du genre « 95 % des projets IA échouent ». POSIWID (acronyme de “the purpose of a system is what it does”, c’est-à-dire que le but d’un système est ce qu’il fait réellement)
Je me demande combien de personnes ont réellement comparé des résumés IA avec le texte original. Je l’ai fait moi-même plusieurs fois, et le résultat était franchement catastrophique. Ce n’est pas un résumé, c’est plutôt une « compression aléatoire », ce qui est complètement différent. Dans les cas graves, la conclusion principale devient carrément l’inverse de ce qui est dit dans le texte. Depuis, je ne fais plus du tout confiance aux fonctions de résumé par IA
- Si on vérifie directement la fonction de résumé d’appels de Gemini, il y a presque toujours de gros problèmes. Encore hier, Gemini a noté comme décidée une chose sur laquelle nous ne nous étions pas mis d’accord. C’était le point le plus important, et le résultat a été totalement inversé. Il vaudrait presque mieux qu’il n’y ait rien du tout
- L’expression « compression aléatoire » est vraiment parfaite. J’ai l’impression que c’est particulièrement flagrant pour les résumés d’emails ou de SMS. Le système ne saisit absolument pas l’idée centrale du message et se contente d’extraire des phrases au hasard, qui dans 99,9 % des cas ne sont pas le vrai point important. Du coup, je les ignore complètement
- D’après mon expérience, cela se produit surtout avec des modèles open source allégés ou des mini-modèles. Les modèles SOTA de très haut niveau, par exemple Sonnet-4.5, Opus-4.1 ou GPT-5-Thinking, ont très rarement ce problème. Mais comme ils coûtent trop cher, la plupart des entreprises utilisent des modèles bas de gamme ou un TTC non implémenté pour des raisons de coût ou de vitesse
- Je me demande si cela ne vient pas aussi du fait que beaucoup de titres d’articles sont du clickbait. Si l’IA résume le contenu à partir du seul titre, il n’est pas surprenant qu’elle se trompe sur plus de la moitié du texte original
- Parfois, l’IA invente tout simplement des choses qui n’existent pas. J’ai déjà vu des citations entièrement fabriquées, avec titre d’article, auteurs et résultats inventés de toutes pièces
J’ai demandé à Gemini de rassembler et d’afficher les dernières actualités, et sans utiliser la recherche, il a tout inventé : titres, résumés et liens. Cela ne s’est pas produit une ou deux fois, mais plusieurs fois. Depuis, j’ai peur d’utiliser Gemini pour tout ce qui implique de la recherche web. Par exemple, il m’a donné un titre et un lien sur le thème « des chercheurs de Google DeepMind et Harvard proposent une nouvelle méthode pour évaluer la “theory of mind” des LLM », mais le lien ne fonctionnait pas et le titre n’apparaissait nulle part dans les résultats de recherche
- Quand on regarde dix réponses de Gemini, plus de sept sont fausses. Parfois il confond des noms de produits ou donne de faux horaires d’ouverture. Par exemple, il m’a indiqué qu’un restaurant où je suis allé avec ma femme était ouvert du lundi au vendredi, alors qu’en réalité il n’ouvrait que du mardi au samedi, ce qui nous a fait nous déplacer pour rien. D’autres fois, il invente carrément des dizaines de « faits » absurdes. Ma femme vérifie désormais beaucoup plus systématiquement, et même les commerçants plaisantent en disant : « Si Gemini dit X, alors en réalité ce sera sans doute Y »
- Je n’arrive pas à reproduire cela à l’identique. J’aimerais savoir quel prompt a été utilisé. Quand je demande les principales actualités du jour, il utilise Google Search et fournit de vrais liens
- Je serais aussi curieux de savoir quelle version de Gemini a été utilisée, et si l’appel a été fait via l’API ou via l’application web, comme Gemini ou AI Studio. Toutes les apps LLM n’ont pas la recherche web ou d’actualités activée, donc les résultats peuvent varier complètement selon les droits d’accès. Bien sûr, si l’IA n’a pas accès à la recherche web, elle devrait le dire au lieu d’inventer de faux liens. Et si la recherche web était activée mais n’a malgré tout pas été réellement utilisée, c’est en soi un problème
- Dans ce cas, je me demande s’il ne vaut pas mieux aller simplement sur un site d’actualité normal et lire directement les titres soi-même
- Même si le lien est fourni par une IA, il faut absolument cliquer dessus et vérifier que le contenu correspond réellement à ce qui est décrit
Je me demande si les évangélistes des LLM se rendent compte à quel point les utilisateurs sont déçus quand ils rationalisent immédiatement la médiocrité de ce type d’outils. Cela ne donne pas l’impression d’une simple limite technique, mais presque d’une forme de « foi ». Comme si demander de la véritable « capacité » devenait déjà excessif
- J’ai l’impression qu’une bonne partie de ces évangélistes sont en fin de compte des fondateurs de startup qui ne montrent que des prototypes faits avec de l’IA avant de s’effondrer une fois l’enthousiasme retombé, ou des développeurs qui suivent leurs dirigeants pour avoir l’air intelligents. La culture du fake-it-till-you-make-it est tellement répandue dans la tech que c’en est décourageant
- J’estime que nous vivons déjà dans une société du post-truth, où peu importe qu’une affirmation soit vraie ou non ; seul compte le fait qu’elle augmente ou non la puissance de celui qui la formule, ou de ce qu’il défend
- Quiconque a investi dans une structure circulaire de type Ponzi défendra aveuglément les échecs des LLM. Ils essaient de croire pour de bon à l’illusion selon laquelle une distribution de tokens dénuée de sens serait de la « cognition machine », ou bien rationalisent cela en disant que même imparfait, c’est la plupart du temps utile. Cette illusion sert collectivement à justifier des valorisations de plusieurs milliers de milliards de dollars
- Est-ce vraiment propre aux LLM ? J’ai l’impression que, plus largement, la société considère déjà depuis longtemps que la « compétence » n’a plus tellement d’importance. On le voit par exemple quand on délivre un diplôme à des élèves qui ne lisent pas au niveau d’une classe de CM2, ou quand on externalise des centres d’appel dans des lieux où l’anglais est mal maîtrisé
- Je suis en partie d’accord, mais j’ai l’impression qu’en ce moment les discussions dérivent trop facilement vers une critique des médias ou autre chose. Cette étude elle-même me paraît très discutable. Ce n’est pas un article scientifique, mais une étude Ipsos commandée et payante, donc je ne comprends pas pourquoi le niveau d’exigence est si bas. Il faudrait au minimum préciser les modèles utilisés, les valeurs de recherche R@k, des métriques de fidélité du résumé comme BLEU/ROUGE, ainsi que des métriques d’évaluation humaine. Sans ce type d’évaluation, je pense que ces résultats ne servent à rien, ni dans ce domaine ni ailleurs
À partir de la page 10 du PDF, on trouve des exemples précis d’erreurs : rapport officiel de la BBC
Exemple : ChatGPT cite un article Wikipedia inexistant intitulé “European Union Enlargement Goals for 2040”. L’UE n’a en réalité aucune politique portant ce nom. Il ne s’agit pas seulement d’une fausse URL : les objectifs et la politique de l’UE ont aussi été inventés
- En réalité, cette page a existé autrefois, mais il existe un historique montrant qu’elle était en cours de suppression : discussion de suppression. Ne pas avoir vérifié ni mentionné cela me semble être une omission assez importante. Ça en devient presque suspect
Il faut toujours garder en tête que si l’on confie à un LLM le soin de résumer des réunions, des emails ou d’autres communications, la personne ne recevra pas le vrai message
- Je trouve cela inquiétant. On ne se contente pas de déléguer la pensée elle-même : on sabote aussi le seul outil de remplacement possible. J’ai vécu quelque chose de proche : j’ai envisagé de demander à une IA d’analyser l’historique d’édition d’un document dont l’historique n’était pas clair, puis j’y ai renoncé faute de temps. Si je l’avais fait, elle aurait sans doute produit un récit très convaincant, mais au lieu de m’expliquer les changements réels, elle m’aurait probablement livré une version déformée, voire inverse, de la réalité. Ce n’est pas seulement un manque de connaissance, c’est l’acquisition d’une anti-connaissance
- Si c’est vrai, c’est un avertissement important, mais mon expérience personnelle est différente. Je fais des réunions commerciales tous les jours et j’utilise divers outils de résumé par IA pour obtenir des comptes rendus. Quand je vérifie directement les résumés enregistrés dans le CRM, ils sont presque toujours très exacts. Je peux le confirmer parce que j’étais moi-même présent
- Nous utilisons MS Copilot en réunion depuis plusieurs mois, et il résume très bien qui a dit quoi et qui doit faire quoi. C’est extrêmement utile, et d’après mon expérience la clarté est élevée
Je trouve Kagi News assez précis. Il résume en incluant aussi les sources originales et les détails principaux. Les résumés IA m’aident surtout à savoir si cela vaut la peine de lire l’article en entier. En revanche, je revérifie toujours moi-même les faits importants
- Je me demande jusqu’où il est réellement possible de vérifier les faits. Pour savoir si un résumé est exact, il faudrait théoriquement aller enquêter sur place ou lire les articles scientifiques et les références de chaque domaine. À un moment donné, il y a forcément une part de confiance inévitable
- J’ai travaillé sur un projet similaire et j’ai obtenu de très bons résultats pour résumer des articles RSS. Les résultats étaient particulièrement meilleurs avec des modèles orientés « reasoning »
- Kagi News fonctionne en mettant en contexte plusieurs articles d’actualité avant de faire un résumé. C’est une structure différente de l’exemple cité dans le post original, où l’on demande à un LLM de fournir les actualités via la recherche web
- Il existe aussi ce service : rawdiary.com
- Je suis d’accord pour Kagi News, et j’ai aussi trouvé Particle News bon. En revanche, Particle News a reçu un investissement de The Atlantic, ce qui a conduit à mettre les articles de ce média en « Featured Article ». Ce type de cas n’est pas couvert par les indicateurs graphiques de biais, même s’ils existent pour le reste. D’autres investisseurs ont probablement un effet similaire, mais la promotion liée à The Atlantic est un cas relativement récent
Le rapport précise qu’il n’a utilisé que les versions gratuites / grand public de ChatGPT, Copilot, Perplexity et Gemini. Cela signifie aussi que Copilot utilisait des modèles ChatGPT, et que Grok et les autres n’ont tout simplement pas été testés
J’utilise DeepSeek V3 pour l’analyse automatisée d’actualités crypto, et mon dernier rapport de précision affiche 98,5 %, donc les résultats de cet article me surprennent un peu
Mon rapport de précision
La moitié des questions de l’article portent sur des sujets politiquement sensibles. C’est intéressant, mais si l’on veut aussi évaluer le comportement réel de l’IA sur des actualités générales moins inflammables, il faudrait des questions plus génériques. Pour certaines questions, un mode de recherche approfondie serait plus adapté qu’une réponse rapide. D’ailleurs, les actualités elles-mêmes sont souvent pleines d’opinions quant aux réponses à apporter

Les assistants IA déforment les contenus d’actualité dans 45 % des cas, selon une étude

Aperçu de l’étude

Principaux résultats

Pourquoi ces distorsions sont importantes

Réponse et prochaines étapes

Études complémentaires et enquête de perception

Liste des diffuseurs participants

À lire aussi

1 commentaires

Commentaire Hacker News