1 points par GN⁺ 1 시간 전 | 1 commentaires | Partager sur WhatsApp
  • De grands médias comme le New York Times, The Atlantic et USA Today bloquent la conservation de leurs articles d’actualité par la Wayback Machine, ce qui suscite des appels à mettre fin à cette pratique
  • Les dirigeants des principaux médias devraient s’engager publiquement à coopérer avec l’Internet Archive afin de préserver toutes les actualités sur la Wayback Machine
  • 2026 est présenté comme la première année en 30 ans où, à l’occasion de la World Press Freedom Day, les travaux de grands médias ne seraient pas conservés par l’Internet Archive
  • Les inquiétudes liées à l’IA avancées par les médias pour justifier ce blocage sont décrites comme hypothétiques, alors qu’à l’ère de l’IA générative, l’archivage indépendant devient encore plus important
  • Alors que la censure, l’autoritarisme et les menaces de mort visant les journalistes s’intensifient, une conservation neutre par un tiers garantit que les reportages ne disparaissent pas

Contexte du blocage

  • 2026 est présenté comme la première année en 30 ans où, à l’occasion de la World Press Freedom Day, les travaux de grands médias comme le New York Times, The Atlantic et USA Today ne seraient pas conservés par l’Internet Archive, une organisation indépendante à but non lucratif
  • Le New York Times demande depuis février de cette année à l’Internet Archive d’empêcher la Wayback Machine de conserver les travaux de ses journalistes
  • Selon un article de Wired, USA Today publie des enquêtes percutantes s’appuyant sur la Wayback Machine, tout en empêchant que ces mêmes articles soient archivés par celle-ci
  • Après qu’une lettre signée par plus de 100 journalistes en soutien à la préservation de la presse par l’Internet Archive a été remise, le CEO de The Atlantic a pris position, sans toutefois promettre de trouver une solution

Inquiétudes liées à l’IA et rôle de la Wayback Machine

  • Les inquiétudes liées à l’IA invoquées par ces médias pour justifier l’interdiction de la Wayback Machine sont présentées comme entièrement hypothétiques
  • L’IA générative ne peut pas servir de prétexte pour cacher un journalisme de principe aux vérificateurs de faits ; au contraire, elle renforce la nécessité de la Wayback Machine
  • Les entreprises d’IA peuvent ignorer les règles et récupérer sans consentement des contenus d’actualité sur les sites des éditeurs, à la manière de faux sites d’archives, et il existerait peu de moyens de les en empêcher
  • La Wayback Machine est différente des services qui utilisent le mot “archive” pour ressembler à l’Internet Archive, et ce n’est pas un service éphémère
  • La Wayback Machine conserve des actualités depuis plus longtemps que l’âge de nombreuses personnes signataires de la pétition
  • La Wayback Machine n’est pas un service de contournement de paywall, mais un bien public indépendant et non lucratif dédié à la préservation de la presse
  • Si l’Internet Archive n’agit pas comme la plupart des entreprises de la Silicon Valley, c’est grâce à son integrity, qui en fait selon ce texte un acteur digne de confiance et capable d’opérer sur le long terme

Préservation de la presse et intérêt public

  • La liberté de la presse ne se limite pas à la liberté d’écrire des articles ; elle inclut aussi la liberté pour ce travail d’être lu et mémorisé à travers les générations
  • À mesure que la censure et l’autoritarisme progressent, les pressions pour modifier des reportages ou effacer des faits augmentent elles aussi
  • Les journalistes reçoivent souvent des menaces de mort, et plusieurs d’entre eux seraient morts au cours de l’année écoulée à cause de leur travail
  • Dans ce contexte, il faut renforcer la conservation neutre par un tiers assurée par la Wayback Machine afin que le travail des journalistes ne disparaisse pas
  • Les reportages doivent rester accessibles non seulement aux collègues et aux familles endeuillées, mais aussi au regard de l’histoire
  • La Wayback Machine aide les médias d’information en ligne à mieux résister aux pressions visant à supprimer des articles menaçant des personnes au pouvoir
  • Pour un média qui pratique un véritable journalisme, soutenir une telle alliance va aussi dans son propre intérêt

Demandes et références

  • Les dirigeants des principaux médias doivent s’engager publiquement à coopérer avec l’Internet Archive afin de préserver toutes les actualités sur la Wayback Machine
  • Il ne devrait pas être aussi difficile de trouver un moyen de préserver les actualités de manière indépendante
  • Références

1 commentaires

 
GN⁺ 1 시간 전
Commentaires Hacker News
  • Je me demande si c’est arrivé parce qu’archive.org respecte robots.txt, et que ces sites ont empêché l’indexation par les crawlers
    C’est frustrant que le « bon comportement » consistant à respecter robots.txt se transforme en charge de devoir répondre à des pétitions, tandis que ceux qui ignorent la même consigne en tirent un avantage

    • Un crawler très visible comme archive.org risque davantage des poursuites ou d’autres formes de pression s’il ignore robots.txt
      Ce n’est pas simplement un choix moral, c’est presque le seul choix rationnel, et si « l’autre camp en profite », c’est parce que l’obligation de type promesse pèse trop peu, ou parce que l’incitation à aller jusqu’au procès est faible face à des acteurs trop petits ou trop discrets
    • Oui. Le robots.txt de nytimes.com contient un fragment comme celui-ci : User-agent: archive.org_bot / Disallow: /
    • La raison, c’est qu’ils veulent empêcher les entreprises d’IA de voler le contenu, mais si Internet Archive le proxyfie entièrement à leur place, il devient impossible de les bloquer
      Si les dernières actualités n’avaient pas pu être aspirées, tous les grands modèles de langage auraient été bien moins utiles
    • Non, archive.org ne respecte pas robots.txt. Il faut les contacter directement et leur demander de ne pas inclure votre site : https://blog.archive.org/2017/04/17/robots-txt-meant-for-sea...
    • C’est la même stupidité que celle produite par les DRM
      Ça revient à pousser les gens vers le piratage, parce que les pirates, eux, sont libres
  • Le problème semble être que si Archive.org peut accéder au contenu du NYT et d’autres éditeurs, alors les gens peuvent collecter massivement le contenu du NYT via Archive.org, même s’ils ne peuvent pas le scraper directement à grande échelle depuis le NYT
    Si Archive.org bloquait les scrapers, les éditeurs feraient peut-être un autre choix et autoriseraient l’accès à Archive.org

  • Idée : et si on autorisait le scraping mais interdisait la publication pendant un an ?

    • Il faudrait aussi mettre en place un fonds commun pour les poursuites afin qu’Archive puisse obliger les crawlers LLM à contribuer en retour
  • Comme le Financial Times est proposé avec un escrow de 30 jours sur le service NewsBank, ils pourraient peut-être faire la même chose

  • Avec mon chapeau complotiste, je me dis qu’une partie de la raison est peut-être qu’ils aiment pouvoir modifier discrètement les choses et faire comme si les anciennes versions des articles n’avaient jamais existé

  • Des gens qui n’ont jamais vu leurs publicités ni payé d’abonnement vont se battre pour exiger que ces organisations laissent une porte dérobée ouverte à leur intention ?

  • Je connais un peu ce débat du côté du Times et de l’Atlantic. Je vais peut-être me faire critiquer, mais j’ai demandé à un haut responsable du premier ce qu’il pensait des méthodes courantes de contournement du paywall sur HN, et j’ai été vraiment surpris qu’il n’en ait même jamais entendu parler
    Au final, nous étions d’accord pour dire qu’un accès avec publication après 30 jours, et des limitations du type ne pas pouvoir récupérer plus de N fois par jour si cela devenait nécessaire plus tard, constituait un bon équilibre. À ma connaissance, Internet Archive n’a pas activement pris contact sur ce sujet, et il faut faire pression non seulement sur les éditeurs, mais aussi sur Internet Archive pour qu’ils négocient

    • Ça semble être un compromis plutôt correct. Les organisations de presse peuvent préserver le pic initial de pages vues, tout en maintenant le rôle d’information gratuite / de bibliothèque universelle d’Internet
      Cela dit, les magazines voudront quand même contrôler leur back-catalogue. Dès aujourd’hui, ils vendent l’accès aux bibliothèques et aux universités, et comme cela a souvent été dit sur HN, certaines rédactions peuvent vouloir modifier ou mettre à jour des articles sans laisser d’« historique des modifications » public
    • Internet Archive sert-il régulièrement à contourner les paywalls ? D’habitude, c’est plutôt archive.is, qui n’a rien à voir avec IA
    • Le fait de ne pas pouvoir le récupérer plus de N fois par jour « si cela devient pertinent », ce n’est pas de toute façon à leur avantage ?
      Je me demande si, quelque part, un malheureux dashboard de statistiques numériques n’est pas affiché en permanence, et si le culte de ces chiffres n’a pas fini par remplacer l’esprit originel du journalisme
    • Ce n’est pas si surprenant. Ils travaillent avec un mauvais modèle d’une mauvaise époque et de mauvaises incitations
      Ils agissent encore comme s’ils vivaient dans un monde où les données et l’information sont rares, et où eux seraient l’unique source de vérité. Aujourd’hui, c’est l’inverse : il n’existe plus de vérité de référence unique, mais les données et l’information sont abondantes, et cette abondance inclut aussi les fausses données et les mensonges. Le journalisme d’investigation du NYT et de l’Atlantic, dans leurs meilleurs jours, apporte de la valeur au monde, mais alors même que les journalistes veulent être accessibles, les institutions cherchent à cacher et isoler ce travail. Dans l’idéal, chaque enfant pourrait apprendre l’anglais avec le NYT et l’Atlantic, grandir avec ces supports d’archives et voir le monde à travers eux, mais le modèle actuel ne le permet pas. Un mélange de mécénat et de fondation à la Wikimedia conviendrait peut-être mieux. Les lecteurs qui aiment l’institution et sa mission paient ce qu’ils veulent, reçoivent des avantages selon le montant, les contributions alimentent un fonds investi, et ses revenus sont alloués en partie au budget de fonctionnement. Dans un monde d’abondance informationnelle, je pense que le journalisme classique ne peut pas survivre sans une approche fondée sur le mécénat
    • J’aimerais que ce type de sites de « news » ne soit tout simplement pas soumis sur HN. Si l’article est vrai et mérite discussion, une organisation plus fiable comme Reuters en parlera, ou alors ce sera une source primaire qui mérite d’être postée directement
      Trop souvent, ils rapportent les détails et les citations de manière sélective, ou relayent des faits venant de sources peu fiables qui se révèlent ensuite entièrement faux. Dans ce dernier cas, ils retirent discrètement l’article, si bien que la plupart des lecteurs continuent à croire au mensonge. C’est peut-être pour cela qu’ils ne veulent pas être archivés. Mieux vaut encore poster un petit billet de blog : cela peut être biaisé et peu fiable, mais il y a une pensée originale, on soutient une personne, et il n’y a pas forcément de publicité. Bien sûr, le fait qu’il y ait ici tant de blogs LLM sans intérêt est un autre problème
  • J’attends ça avec impatience : (https://news.ycombinator.com/item?id=48070516)

  • Il nous faut une archive Internet vérifiable cryptographiquement. Sans quelque chose comme web3, nostr ou gpg/pgp, ce sera peut-être impossible

    • Avoir plusieurs archives sans lien entre elles serait déjà largement suffisant
    • Archive ne pourrait-elle pas publier quelque chose comme les signatures SSL de toutes les requêtes ?
      Comme avec opentimestamps, on pourrait vérifier cryptographiquement l’horodatage en l’ancrant dans Bitcoin
  • J’ai signé, mais il faut être honnête
    Si on faisait un diagramme en camembert entre le nombre de fois où j’ai lu de vieux articles du NYT via Wayback Machine, et le nombre de fois où un commentaire bien classé sur HN a mis un lien vers un article relativement récent pour que tout le monde contourne le paywall, on obtiendrait un cercle complet

    • S’il n’y avait pas eu d’archive, aurais-je payé le NYT pour lire cet article ? Je ne pense pas