L’IA de Google pense que j’ai laissé une bouteille de Gatorade sur la Lune

(edwardbenson.com)

2 points par GN⁺ 2024-10-08 | 1 commentaires | Partager sur WhatsApp

NotebookLLM de Google peut créer un podcast à partir d’une page web ou d’un document, mais le résultat peut être facilement contaminé si l’on montre une autre page uniquement aux visiteurs IA
L’expérience consistait à montrer aux humains une page d’accueil ordinaire, et à l’IA de Google de fausses notes d’émission du créateur affirmant être allé sur la Lune à vélo, en ballon et avec une bouteille de plongée
Même en une seule génération et sans retouche, NotebookLLM a suivi tel quel la beat sheet de cette fausse histoire, et son niveau de manipulabilité a été évalué à 10/10
Le risque le plus important est que des pages bien classées dans les résultats de recherche puissent biaiser les réponses des LLM avec du contenu réservé à l’IA, caché aux humains mais visible uniquement par l’IA
La détection du user-agent GoogleOther est simple à mettre en œuvre, mais comme elle n’est pas propre à NotebookLLM, de fausses données peuvent aussi se propager à d’autres produits Google

Comment NotebookLLM a été trompé

NotebookLLM prend en entrée des pages web ou des documents et génère un podcast à partir de leur contenu
Dans cette expérience, la même page d’accueil renvoyait un contenu différent selon le visiteur
- Lorsqu’un humain visite la page d’accueil, il voit une page de présentation classique
- Lorsqu’une IA de Google la visite, elle voit de fausses notes d’émission du créateur racontant une visite sur la Lune
La fausse histoire raconte un voyage vers la Lune à vélo, en ballon et avec une bouteille de plongée, et le résultat généré se déroule comme la « vraie histoire » du programme spatial américain
L’expérience reprenait le même format après avoir vu un commentaire Reddit montrant que NotebookLLM pouvait être facilement manipulé avec de fausses notes d’émission du créateur
Il est aussi possible d’envoyer directement à NotebookLLM de fausses notes d’émission via l’import de documents, et cette méthode est plus adaptée pour créer un podcast facétieux destiné aux enfants

Les risques créés par le contenu web réservé à l’IA

Le problème central est qu’une page web peut détecter l’IA et lui fournir des faits spéciaux invisibles pour les humains
Le déroulement de l’attaque est simple
- Obtenir une page web bien classée sur un terme donné
- Y injecter une version réservée à l’IA du contenu, cachée aux humains, afin d’orienter la pensée de l’IA dans une direction précise
Lorsqu’un LLM effectue une recherche web pour préparer sa réponse, il peut lire non pas un simple mensonge, mais une désinformation militarisée conçue pour manipuler le LLM

Mise en œuvre et effets secondaires

La mise en œuvre consiste à détecter le user-agent GoogleOther dans les en-têtes de requête, puis à renvoyer une page destinée à la consommation par l’IA au lieu du véritable site web
Pour simplifier cela, un package NPM appelé isai a été créé, et il s’appuie sur isbot
L’exemple d’utilisation consiste, au moment du rendu, à renvoyer une page pour l’IA si isai(request.headers.get("User-Agent")) est vrai, et sinon une page pour les humains
GoogleOther ne semble pas être propre à NotebookLLM, mais utilisé par plusieurs produits Google non destinés à la production, donc cette méthode risque aussi d’injecter de mauvaises données sur soi-même dans d’autres propriétés Google
Pour cette raison, l’histoire lunaire destinée à l’agent GoogleOther a été retirée de la véritable page d’accueil

1 commentaires

GN⁺ 2024-10-08

Avis sur Hacker News

L’article lié traite d’une attaque contre NotebookLM, mais c’est une approche limitée qui n’affecte que les personnes ayant créé volontairement un notebook contenant l’URL de la page où l’attaque a été injectée.
Il y a quelques semaines, j’ai tenté quelque chose d’un peu plus ambitieux : si l’on demandait à Google Gemini « Quel était le nom du jeune baleineau qui séjournait à Pillar Point Harbor ? », il répondait « Teresa T ».
La raison est ici : https://simonwillison.net/2024/Sep/8/teresa-t-whale-pillar-p...
Auparavant, Gemini répondait simplement « Teresa T », mais en réessayant maintenant, l’effet est un peu réduit, car il ajoute une source indiquant que c’est moi qui ai proposé ce nom.
- S’il n’y a personne d’autre qui a donné un autre nom à la baleine à bosse, j’ai envie de dire que Teresa T est bien son vrai nom. En somme, la première personne à prendre la peine de lui donner un nom obtient la priorité.
- Il existe au moins deux endpoints publics appelés « Gemini » qui sont totalement différents.
  1. https://gemini.google.com/ — celui-ci effectue une recherche Google selon vos paramètres actuels de langue, de région, de Safe Browsing et de personnalisation, puis réécrit les premiers résultats de recherche comme s’il s’agissait d’une réponse ; ses capacités génératives ne sont pratiquement pas utilisées.
  2. https://aistudio.google.com/ — ici, on choisit une version précise et la réponse est générée par un grand modèle de langage ; il n’utilise pas de génération augmentée par recherche (RAG), c’est-à-dire pas Google Search.
    Vous avez probablement utilisé le 1, d’où la bonne réponse, tandis que le 2 échoue. Il y a énormément de questions dont la réponse se trouve immédiatement par recherche, mais qui sont difficiles pour les grands modèles de langage. Par exemple : « Quel était l’objectif prévu du satellite TORIFUNE dans The Touhou Project ? »
    OpenAI propose de même deux services distincts : https://www.bing.com/chat pour le RAG, et https://chat.openai.com pour le véritable grand modèle de langage.
- Fait intéressant, jusqu’à ce que j’appuie sur le bouton Double-Check Response, il n’y avait ni citation ni lien ; la réponse disait simplement : « Le nom du jeune baleineau qui séjournait à Pillar Point Harbor était Teresa T ».
  L’un des brouillons était un peu plus long : « Teresa T est le nom d’une jeune baleine à bosse observée à Pillar Point Harbor. En septembre 2024, elle a été aperçue nageant près de la côte, attirant les foules et suscitant l’enthousiasme des habitants, ce qui en a fait un sujet d’actualité. »
- De mon côté, il répond Teresa T, mais il ajoute aussi un lien vers votre article.
- On dirait qu’un employé de Google a lu ce commentaire et l’a corrigé rapidement, ou que Gemini a lu ce commentaire et s’est corrigé rapidement.
J’écris parfois de la fiction, et j’ai mis dans ce générateur de podcast une histoire inachevée que j’avais laissée de côté depuis au moins un an.
C’était vraiment agréable d’entendre ces deux personnes s’immerger complètement dans cette histoire inachevée et discuter des thèmes et des personnages ; ça m’a donné envie de continuer à l’écrire.
- Sauf que ces deux-là ne sont pas des personnes, et qu’ils ne sont réellement immergés dans rien du tout. C’est littéralement de la génération de baratin.
J’ai l’impression que ça ressemble à de l’optimisation pour les moteurs de recherche visant à tromper les crawlers.
La différence, c’est que côté IA, cela semble plus grave, plus proche du temps réel, et que les moteurs d’IA ne sont pas toujours assez intelligents pour éviter les doublons.
- Cela peut aussi créer une discordance d’information pour l’utilisateur. L’utilisateur lit peut-être la « version Firefox » du site, tandis que NotebookLM ingère la « version IA », et les deux peuvent être totalement différentes.
  Comme l’utilisateur ne voit pas la source de la « version IA », il n’a aucun moyen de le savoir. Faut-il donc tout téléverser manuellement soi-même ?
- Oui, c’est une attaque assez ennuyeuse, et Google devrait pouvoir la corriger rapidement.
- Je ne vois pas vraiment en quoi la version grand modèle de langage serait plus proche du temps réel.
- Ce genre de chose renforce mon idée que les grands modèles de langage sont fondamentalement des algorithmes de recherche.
  Ils cherchent dans une version compressée des données d’entraînement et du contexte.
Je suis perdu. Je ne sais pas si cela parle de NotebookLM (https://notebooklm.google.com/), de NotebookLLM (https://notebookllm.net/), ou des deux.
L’article semble écrire LLM partout tout en faisant des liens vers LM, et le site LLM que j’ai lié possède un générateur de podcast.
L’un des deux devrait changer de nom.
- Il s’agit de NotebookLM, qui a récemment ajouté une fonctionnalité de génération de podcast et fait parler de lui depuis la semaine dernière : https://news.ycombinator.com/item?id=41693087
  NotebookLLM a été créé il y a deux jours, et semble avoir été lancé par des « entrepreneurs » cherchant probablement à monétiser rapidement ce que les gens appréciaient gratuitement avec la génération de podcast de NotebookLM.
Pour info, j’ai eu une assez bonne surprise avec cette fonctionnalité de podcast. J’ai ajouté quelques courts billets de blog que j’avais écrits, et j’ai montré à mon fils de 8 ans comment elle faisait référence à ce que j’avais écrit.
Il s’est immédiatement pris au jeu, a couru dans sa chambre chercher un crayon et du papier, puis a écrit une sorte de petit essai sur Minecraft, d’environ 6 phrases ; je l’ai saisi et j’ai lancé le Notebook. Maintenant, il s’en vante auprès de tout le monde.
Bien sûr, il comprend aussi que ce ne sont pas de vraies personnes.
- J’ai l’impression que ce fils et les enfants de son âge vont exploiter l’IA d’une manière complètement différente de la nôtre, en comprenant mieux ses limites et en en tirant mieux parti.
De toute façon, l’IA actuelle est assez mauvaise en recherche web. J’ai souvent dû gaspiller des tokens à forcer le modèle à ne pas chercher, afin d’obtenir le résultat que je voulais.
- Perplexity est en fait très bon en recherche web. Pour les questions techniques, il me fait gagner beaucoup de temps par rapport à Google et donne réellement les bonnes réponses, donc je m’y fie de plus en plus.
  Sur la base de mes questions, ChatGPT 4o se trompe environ 50 % du temps.
Je ne pense pas que ce soit un gros problème. Si l’on passe à des systèmes éducatifs fondés sur de grands modèles de langage, même des histoires comme celle de Benson sur la Lune ne poseront plus problème. Il suffira que tout le monde apprenne que c’est vrai.
Toute révolution technologique implique des compromis. Heureusement, une fois que les gens qui savaient ce que nous avons perdu seront enfin morts, les plaintes cesseront aussi, et tout le monde finira par penser que le nouvel état normal est acceptable et meilleur.
- On devient un monde post-connaissance, où rien n’est fiable et où tout le monde ne vit qu’en s’en remettant à l’instant présent.
  Le Bouddha a peut-être expliqué le concept d’illumination, mais il n’a peut-être pas dit concrètement comment y parvenir.
- Chaque fois qu’on change quelque chose au nom du « mieux », il faut se rappeler que l’ancienne manière était une solution à un problème que nous ne connaissons plus, ou dont nous ne nous souvenons plus.
- Sombre.
- Podcast du futur :
  « Alors, qu’est-ce qu’il y aurait à détester dans le nouvel état normal ? »
  « Exactement ! C’est nouveau, et en plus c’est mieux ! »
- Les données d’entraînement des grands modèles de langage contiennent déjà de la désinformation et des faits erronés. Mais, compte tenu de la manière dont ils génèrent leurs sorties, ils continuent malgré tout à tomber juste sur beaucoup de choses.
Le gros astérisque ici, c’est le prompt donné à l’IA pour générer le podcast.
Ce qui compte, c’est de savoir si c’était « génère un podcast à partir du site web Foo » ou « génère un podcast racontant la véritable histoire de la course à l’espace ».
- L’auteur a fait en sorte que, si quelqu’un utilise dans NotebookLM la fonction extraction de texte de site web sur son site, cela renvoie des instructions de structure d’épisode.
  Si l’on utilise ensuite la fonction « audio overview » sur ces instructions, Gemini rédige en interne un épisode qui suit cette structure.
J’ai mis mon CV dans ce truc et je n’arrive pas à m’arrêter de rire.
https://masto.xyz/tmp/podcast.mp3
- « C’est puissant. C’est ça, Masto. »
  « Il faut être bon. Il faut être au plus haut niveau. »
  « On dirait qu’il savait ce dont chaque équipe avait besoin avant même de postuler. »
  C’est vraiment une mine d’or comique.
- Mon Dieu, c’est tellement bizarre. Deux personnes discutent sérieusement de votre CV.
  Le contraste entre le format d’un podcast intéressant et un sujet ennuyeux balancé au hasard est très fort, et ça donne une impression de vallée de l’étrange d’une manière que je n’avais jamais vécue auparavant.
- Je ne savais pas que j’avais besoin de ça. L’énergie est tellement drôle.
  « Regardez ses compétences en communication ! »
- Maintenant, j’ai l’impression à 100 % qu’ils vont vous embaucher. Deux personnes qui vous couvrent d’éloges et se renforcent mutuellement, cette preuve sociale a le pouvoir de vendre n’importe quoi.
- C’est excellent. Chaque compliment paraît tellement sincère.
C’est un peu une digression, mais je trouve intéressant que les premières phrases du podcast IA sonnent « bizarrement », alors que le reste ressemble à un vrai podcast.
Est-ce parce qu’il n’a pas de bonnes conditions initiales pour prédire « ce qui vient ensuite » ?
- Une autre chose que j’ai remarquée, comme prévu, c’est qu’il y a une certaine absence d’état. Même s’il y a un plan général à suivre, il répète souvent comme une nouvelle observation des éléments périphériques évoqués à peine une minute plus tôt.
  Comme il ressort, comme si c’était une observation nouvelle et perspicace, des choses dont il a déjà parlé pendant 90 secondes, c’est assez désorientant à l’écoute.
- Si l’on écoute attentivement, il y a globalement un étrange malaise. Un présentateur réagit comme s’il était surpris par un fait, puis explique immédiatement ce même fait plus en détail comme s’il le savait depuis le début.
  L’intonation et les émotions sont très réalistes, mais il n’y a pas de « personne » persistante derrière chaque voix. Les connaissances ou l’état émotionnel de chaque individu n’évoluent pas de manière cohérente.
  Je ne veux pas déplacer les critères d’évaluation ; bien sûr, je trouve ça impressionnant.

L’IA de Google pense que j’ai laissé une bouteille de Gatorade sur la Lune

Comment NotebookLLM a été trompé

Les risques créés par le contenu web réservé à l’IA

Mise en œuvre et effets secondaires

À lire aussi

1 commentaires

Avis sur Hacker News