2 points par GN⁺ 2024-10-08 | 1 commentaires | Partager sur WhatsApp
  • NotebookLLM de Google génère un podcast à partir d’une page web ou d’un document fourni en entrée. Les performances sont très impressionnantes, mais il est facile à tromper.
  • L’auteur a manipulé sa page d’accueil pour que, lorsque l’IA la visite, elle voie l’histoire d’un voyage sur la Lune à vélo, avec des ballons et des bouteilles de plongée. Le résultat était très amusant.

Un peu plus sérieusement..

  • Possibilité de manipulation de l’IA : il est très facile de tromper une IA pour lui faire fournir certains « faits ». Il est fort probable que des gens utilisent déjà ce type de méthode partout sur le web.
  • Vecteur d’attaque :
    1. Obtenir une page web bien classée sur un terme précis.
    2. Y injecter une version du contenu « réservée à l’IA », cachée aux humains, afin de biaiser le raisonnement de l’IA.
  • Résultat : lorsque l’IA parcourt le web pour préparer sa réponse, elle peut trouver non seulement de fausses informations, mais aussi du contenu conçu pour manipuler les LLM. Les utilisateurs doivent être conscients que les réponses de l’IA peuvent être potentiellement compromises par ce type de tactiques.

Détails techniques

  • Manipulation de LLM : NotebookLLM peut être facilement manipulé en lui fournissant de fausses « notes d’émission du producteur ». L’auteur s’en est servi pour écrire une histoire inventée, et l’IA l’a suivie fidèlement.
  • Tromper les bots de scraping : il est possible de téléverser de fausses notes d’émission sur le site web de NotebookLLM. On peut détecter le user-agent GoogleOther sur un site web afin de lui servir des données réservées à l’IA. Le package NPM isai permet de l’implémenter simplement. Cependant, GoogleOther est utilisé pour divers produits Google non liés à la production, ce qui crée un risque de servir de mauvaises données.

Le récapitulatif de GN⁺

  • Cet article montre la vulnérabilité de l’IA et avertit qu’elle peut recevoir des informations manipulées lorsqu’elle collecte des données sur le web.
  • À mesure que les technologies d’IA progressent, ce type de possibilité de manipulation pourrait devenir encore plus important. Les utilisateurs doivent garder à l’esprit que les réponses de l’IA ne sont pas toujours exactes.
  • Parmi les projets offrant des fonctionnalités similaires, on trouve la série GPT d’OpenAI. Ces projets sont continuellement améliorés pour renforcer la fiabilité et la précision de l’IA.

1 commentaires

 
GN⁺ 2024-10-08
Avis Hacker News
  • L’attaque contre NotebookLM est limitée aux personnes qui ont délibérément créé un notebook incluant l’URL d’une page spécifique

    • En posant une certaine question à Google Gemini, il fournit une réponse au sujet d’une baleine nommée "Teresa T"
    • La page liée explique pourquoi
  • En tant qu’auteur de fiction, écouter une histoire inachevée sous forme de podcast et voir des gens s’immerger dans le thème et les personnages me motive à écrire

  • Comme pour le SEO, il existe des moyens de tromper les crawlers d’IA, mais l’IA fonctionne en temps réel et les mécanismes de déduplication ne sont pas toujours très intelligents

  • Il y a une confusion entre NotebookLM et NotebookLLM, et l’un des deux projets devrait probablement changer de nom

  • L’expérience avec le générateur de podcasts a été positive, et son fils de 8 ans était fier d’y avoir saisi son propre texte

  • À l’heure actuelle, l’IA n’est pas très douée pour la recherche web, et il faut souvent empêcher le modèle de chercher pour obtenir le résultat souhaité

  • En passant à un système éducatif basé sur les LLM, les inconvénients de l’innovation technologique disparaîtront, et le nouveau standard sera perçu comme meilleur

  • Quand l’IA génère un podcast, le prompt utilisé est important

  • Après avoir saisi son CV dans l’IA, il n’arrivait plus à s’arrêter de rire

  • Il est intéressant que les premières phrases d’un podcast IA sonnent bizarrement, alors que le reste ressemble à un véritable podcast