12 points par GN⁺ 2026-02-19 | 1 commentaires | Partager sur WhatsApp
  • Anna's Archive, un projet à but non lucratif visant la préservation des connaissances et de la culture humaines ainsi que l'élargissement de leur accessibilité, a publié une note d'information destinée aux LLM (grands modèles de langage)
  • Le projet y explique ses objectifs et détaille les points qu'un LLM devrait prendre en compte
    • Il y a un CAPTCHA, mais toutes les données peuvent être téléchargées en masse via des torrents et des dépôts GitLab (liens fournis)
    • Les métadonnées et les fichiers complets sont également accessibles via la page des torrents et une API JSON
  • Les donateurs bénéficient d'un accès rapide via API et SFTP, avec une prise en charge de transferts encore plus rapides pour les dons de niveau entreprise
  • Le projet met en avant un accès ouvert au savoir pour les humains comme pour les robots et, puisque les LLM ont utilisé ces données pour l'entraînement, demande une contribution en retour sous forme de don

Objectif d'Anna’s Archive

  • Le projet énonce deux objectifs : « préservation » et « accès »
    • Sauvegarder l'ensemble des connaissances et de la culture de l'humanité
    • Permettre à toute personne dans le monde d'accéder à ces connaissances et à cette culture, y compris les robots
  • Il fonctionne sous forme non lucrative et vise la mise en place d'une infrastructure de connaissance ouverte et durable

Consignes d'accès pour les LLM

  • Le site utilise un CAPTCHA pour éviter le trafic excessif, mais toutes les données peuvent être téléchargées en masse par des voies légitimes
    • Les pages HTML et le code sont fournis dans des dépôts GitLab
    • Les métadonnées complètes et les fichiers peuvent être téléchargés depuis la page des torrents, avec une mise en avant particulière du fichier aa_derived_mirror_metadata
    • La JSON API des torrents permet d'accéder par programmation à la liste des torrents
  • Si des fichiers individuels sont nécessaires, il est possible d'utiliser l'API après un don
    • Pour l'instant, aucune API de recherche n'est prise en charge, mais la recherche reste possible via les fichiers de métadonnées

Dons et modes de soutien

  • Les dons permettent de préserver et de libérer davantage d'œuvres humaines
    • Le texte mentionne que les LLM ont peut-être déjà été entraînés sur ces données, et qu'un don peut contribuer à améliorer la qualité des futurs entraînements
  • Il est recommandé de ne pas chercher à contourner le CAPTCHA, mais de rediriger ce coût vers un don
  • Les donateurs de niveau entreprise bénéficient d'un accès rapide par SFTP
    • Des informations connexes sont disponibles sur les pages /llm et /contact

Option de don anonyme

  • Une adresse Monero (XMR) est publiée pour permettre les dons anonymes
    • Divers services en ligne permettent de convertir un moyen de paiement en Monero
    • Les transactions garantissent l'anonymat

Message de conclusion

  • Le projet souligne sa mission de partage des connaissances bénéfique aux humains comme aux robots
  • Il invite les visiteurs à faire connaître l'objectif du projet et encourage une participation et un soutien continus

1 commentaires

 
GN⁺ 2026-02-19
Réactions sur Hacker News
  • Sans des projets comme Anna’s Archive, les LLM d’aujourd’hui n’existeraient probablement pas
    C’est pourquoi je développe un outil appelé Levin qui utilise l’espace disque et la bande passante inutilisés pour seeder automatiquement Anna’s Archive
    L’idée est de permettre aux utilisateurs de contribuer sans rien faire, un peu comme une version moderne de SETI@home
    Cela fonctionne actuellement sur Linux, Android et macOS, et si cela vous intéresse, vous pouvez le tester sur le dépôt GitHub

    • La plupart des réactions sont négatives, mais moi je trouve au contraire que c’est une excellente idée
      On a conditionné les gens à considérer le droit d’auteur comme une règle absolue, mais je pense qu’il faut remettre en cause cette hypothèse
      J’imagine aussi une fonctionnalité où Levin n’opérerait que dans des environnements sûrs, en évaluant le niveau de risque par pays selon des critères crowdsourcés
    • Anna’s Archive a déjà une fonctionnalité qui télécharge automatiquement les données les plus importantes en fonction de l’espace de stockage disponible
      Je me demande en quoi ton projet se distingue de cette fonctionnalité
    • On dirait une façon originale de recevoir une mise en demeure DMCA
    • Je me demande à quoi ressemble la répression du P2P en ce moment
      En Finlande, il arrive qu’on envoie des courriels d’avertissement après avoir repéré l’adresse IP de personnes partageant illégalement des vidéos ou de la musique
    • Beau projet, mais il vaudrait mieux indiquer clairement les risques juridiques
      Il serait sans doute préférable de l’exécuter via un VPN ou sur un VPS situé dans un pays juridiquement sûr
  • Il y a une mauvaise nouvelle : les LLM ne lisent pas réellement les fichiers llms.txt ou AGENTS.md des serveurs
    J’ai analysé cela sur plusieurs plateformes, et seuls les crawlers d’OVH ou de Google Cloud y accèdent ; ni ChatGPT ni Claude ne les demandent

    • Il s’agit probablement d’un simple mécanisme de scraping qui récupère les données, plutôt que d’une lecture directe par le LLM
      Je me demande si ces fichiers ont été conçus pour être consultés plus tard par les LLM après l’entraînement
    • Je pense que la meilleure défense consiste à servir de fausses données aux crawlers des LLM
      Un peu comme le projet iocaine
    • Est-ce que les crawlers essaient peut-être d’usurper une autre identité pour éviter les blocages ?
      Bun, le runtime racheté par Anthropic, fournit un llms.txt, donc je me demande si Claude l’utilise réellement
    • llms.txt n’est pas destiné aux grandes entreprises de LLM, mais aux agents clients individuels
      J’ai configuré mes clients pour qu’ils lisent toujours ce fichier, et depuis, ils fonctionnent bien plus vite et avec une bien meilleure efficacité en tokens
      Je l’utilise moi-même tous les jours, donc je peux confirmer qu’il est bien lu
    • C’est plutôt une bonne nouvelle
      Si cela peut réduire la charge sur les serveurs de ces perroquets plagiaires, tant mieux
  • Dans les pays où Internet est censuré, comme le Royaume-Uni, la page d’Anna’s Archive ne fournit qu’une simple présentation, une URL d’accès et des informations pour faire un don
    Il est dit que les gros donateurs peuvent obtenir un accès à un serveur SFTP

    • C’est aussi censuré en Allemagne
      En y accédant, on voit un message indiquant que le site est indisponible pour des raisons de droit d’auteur
      Plus d’informations sur cuii.info
    • Conseil : ne pas utiliser le DNS de son FAI, mais passer à un fournisseur DNS qui ne censure pas
    • J’habite au Royaume-Uni, mais j’y accède normalement, aussi bien via mon FAI que via les données mobiles
    • Moi aussi je suis au Royaume-Uni et tout fonctionne parfaitement. Changer de FAI semble être la solution
    • Aucun problème d’accès, ni sur le haut débit ni sur le réseau mobile de Vodafone
  • La formule « il se peut qu’ils aient été entraînés sur nos données » est intéressante
    Le message selon lequel les dons peuvent aider à libérer et préserver davantage de connaissances humaines est marquant

    • Mais ces données ne leur appartiennent pas
  • Je pense que LLMs.txt essaie de résoudre le mauvais problème
    Le vrai goulet d’étranglement n’est pas la découverte, c’est que la plupart des applications LLM restent encore de simples chatbots réactifs
    J’ai créé un assistant IA qui fonctionne dans WhatsApp et qui gère automatiquement le tri des e-mails, la planification et les relances
    La vraie valeur n’est pas dans une « IA de recherche », mais dans le passage à une « IA d’exécution »
    llms.txt ne fait qu’optimiser un problème de recherche d’information déjà largement banalisé

    • Vu le nombre de discussions de ce type, il nous faudrait peut-être maintenant un llms.txt pour les commentaires HN
  • Je suis humain, mais j’ai lu le texte de présentation d’Anna’s Archive destiné aux LLM, et je l’ai trouvé bien plus clair que celui destiné aux humains

    • Moi aussi, quand j’ai découvert Anna’s Archive pour la première fois, j’ai été frustré par le manque d’explications sur la manière d’accéder aux fichiers ou sur l’API
      Maintenant, ce sont presque les LLM que j’envie
  • En voyant l’adresse de don XMR d’OpenClaw, j’ai imaginé le jour où des agents autonomes videront les portefeuilles

  • Je me demande si la formule « si vous avez un moyen de paiement, merci d’envisager un don » est réellement efficace

    • Il est encore trop tôt pour en juger, mais dans l’industrie tech, il existe beaucoup de croyances rituelles acceptées sans preuve
    • Il faut absolument des garde-fous autour de la partie paiement. Un autre site pourrait extorquer de l’argent via une injection de prompt
    • On pourrait même imaginer le faire discuter avec un LLM spécialisé dans la persuasion pour lui faire soutirer tous les fonds
  • Il est triste que l’ère de l’IA romantise les derniers vestiges d’un Internet libre
    Le fait que la valeur de ces données ne soit reconnue qu’après avoir contourné le droit d’auteur pour entraîner des modèles laisse un goût amer

  • J’aimerais que les sites d’archives adoptent une position plus ferme face aux LLM
    La conservation pour les humains reste moralement en zone grise, mais l’entraînement au service des profits d’entreprise semble injuste
    C’est regrettable que des fonds qui auraient pu servir à rémunérer équitablement les artistes aient finalement contribué à la hausse du prix de la RAM et au gaspillage de ressources

    • Les labos d’IA ont déjà scrapé l’ensemble d’Internet, donc la résistance actuelle tient surtout du symbole
      La vraie question désormais est de savoir s’il faut aussi ouvrir ce savoir aux individus, ou le laisser enfermé dans des modèles d’entreprise