7 points par GN⁺ 2024-09-24 | 2 commentaires | Partager sur WhatsApp
  • Cloudflare a annoncé son intention de lancer l’an prochain une marketplace permettant aux propriétaires de sites web de vendre aux fournisseurs de modèles d’IA l’accès de scraping au contenu de leur site
  • Cette marketplace constitue la dernière étape d’un plan plus large du CEO de Cloudflare, Matthew Prince, visant à donner aux éditeurs un meilleur contrôle sur la manière et le moment où les bots d’IA scrapent leurs sites web
  • Comme première étape, Cloudflare a lancé AI Audit, un outil gratuit d’observability
    • Les propriétaires de sites web disposent d’un tableau de bord montrant des analyses sur la fréquence à laquelle les modèles d’IA scrapent leur site
    • Avec AI Audit, les propriétaires de sites web peuvent bloquer les bots d’IA ou autoriser certains web scrapers spécifiques
    • La démo d’AI Audit permet aux propriétaires de sites web de voir d’où vient chaque scraper et propose une fenêtre optionnelle pour voir à quelle fréquence des fournisseurs de modèles d’IA comme OpenAI, Meta et Amazon visitent le site
  • Résoudre un problème de l’industrie de l’IA
    • Les fournisseurs de modèles d’IA scrapent des milliers de petits sites web pour alimenter les informations utilisées par les LLM
    • La plupart des sites web ne reçoivent aucune compensation, ce qui peut casser le modèle économique de nombreux sites
    • Cloudflare a lancé un bouton permettant aux propriétaires de sites web de bloquer les bots d’IA
  • Prendre en compte les demandes des clients
    • Les clients de Cloudflare demandaient des outils leur permettant de choisir quels modèles d’IA peuvent accéder à leur site
    • Le nouvel outil de Cloudflare permet de bloquer certains crawlers d’IA tout en en autorisant d’autres
  • Objectif de la marketplace
    • La marketplace de Cloudflare permettra aux petits éditeurs de conclure des accords avec des fournisseurs de modèles d’IA
    • Les sites web pourront fixer un tarif de scraping ou demander des crédits aux laboratoires d’IA
  • Impact sur l’écosystème IA
    • La situation actuelle, dans laquelle certaines entreprises d’IA ne paient rien pour les contenus, n’est pas durable
    • Le CEO de Cloudflare estime que cette marketplace sera au final bénéfique pour l’écosystème IA

Le résumé de GN⁺

  • Cloudflare a annoncé son projet de lancer une marketplace permettant aux propriétaires de sites web de vendre aux fournisseurs de modèles d’IA l’accès de scraping au contenu de leur site
  • Grâce à l’outil AI Audit, les propriétaires de sites web peuvent analyser la fréquence à laquelle les modèles d’IA scrapent leur site
  • Cette marketplace permettra aux petits éditeurs de conclure des accords avec des fournisseurs de modèles d’IA, afin d’être rémunérés pour leurs contenus
  • Cela pourrait contribuer à améliorer la durabilité de l’écosystème IA

2 commentaires

 
yangeok 2024-10-01

L’intention est bonne.

 
GN⁺ 2024-09-24
Avis Hacker News
  • Common Crawl est inclus dans la liste des « Providers » avec OpenAI et Antropic

    • Common Crawl est utilisé pour de nombreux usages au-delà de l’entraînement de l’IA
    • C’est une source majeure de contenu pour la Wayback Machine
    • L’objectif du projet Common Crawl est que, plutôt que plusieurs entreprises fassent chacune tourner leur propre crawler, Common Crawl collecte les données et les fournit dans un format standardisé
    • Si CloudFlare limite l’accès au contenu, l’impact pourrait être important
    • On pourrait arriver à un monde où la plupart des sites web utilisent des produits de sécurité pour limiter l’accès
  • OpenFoodFacts, OpenStreetMap et Wikipedia subissent des attaques DDoS

    • Les données peuvent être téléchargées gratuitement, mais les bots scrapent quand même tout
    • Cela génère du trafic inutile et augmente les coûts
    • Le problème ne vient pas du droit d’auteur, mais de l’inefficacité des bots et du désintérêt de leurs opérateurs
    • Il faut une solution
  • Empêcher le crawling pourrait être une tâche vaine

    • Cette fonctionnalité pourrait encore renforcer les grands acteurs qui ont déjà crawlé beaucoup de données
    • Les faux positifs et les CAPTCHAs excessifs peuvent aussi affecter les utilisateurs
  • Cloudflare propose un service de protection contre les abus d’une nouvelle manière

    • Cloudflare forme une « marketplace » en collaborant avec les abuseurs
    • Si l’on n’utilise pas les services de Cloudflare, les abus continueront
    • Cela peut ressembler à une forme de racket de protection
  • Des interrogations sur l’avenir du World Wide Web

    • Il semblait devoir durer éternellement, mais il pourrait un jour disparaître comme IRC
    • Son âge d’or est peut-être déjà passé, et l’« IA » pourrait marquer le début de la fin
  • Plus de détails sont disponibles sur le blog de Cloudflare

    • La démo d’AI Audit permet aux propriétaires de sites web de voir comment les modèles d’IA scrapent leur site
    • Il est possible de voir combien de fois des scrapers comme OpenAI, Meta ou Amazon ont visité le site
  • Exemple de Bingeclock avec AI Audit

    • Des changements intéressants au cours des 48 heures suivant l’annonce de Cloudflare
    • Le programme de paiement est intéressant, mais avec la baisse du trafic, les sites web pourraient devenir moins efficaces
    • Les scrapers IA paieront probablement le minimum
  • Étape suivante : générer du contenu avec l’IA générative, puis être payé quand Cloudflare le scanne

  • Scraper le même site de manière répétée est un énorme gaspillage

    • Si Cloudflare pouvait gérer les changements et les mises à jour, cela permettrait d’économiser beaucoup de ressources
    • Les sites pourraient signaler directement leurs changements à Cloudflare, et Cloudflare les transmettrait aux IA
    • Les IA achèteraient ces changements, Cloudflare paierait les sites et conserverait sa marge