- Anna's Archive, un projet à but non lucratif visant la préservation des connaissances et de la culture humaines ainsi que l'élargissement de leur accessibilité, a publié une note d'information destinée aux LLM (grands modèles de langage)
- Le projet y explique ses objectifs et détaille les points qu'un LLM devrait prendre en compte
- Il y a un CAPTCHA, mais toutes les données peuvent être téléchargées en masse via des torrents et des dépôts GitLab (liens fournis)
- Les métadonnées et les fichiers complets sont également accessibles via la page des torrents et une API JSON
- Les donateurs bénéficient d'un accès rapide via API et SFTP, avec une prise en charge de transferts encore plus rapides pour les dons de niveau entreprise
- Le projet met en avant un accès ouvert au savoir pour les humains comme pour les robots et, puisque les LLM ont utilisé ces données pour l'entraînement, demande une contribution en retour sous forme de don
Objectif d'Anna’s Archive
- Le projet énonce deux objectifs : « préservation » et « accès »
- Sauvegarder l'ensemble des connaissances et de la culture de l'humanité
- Permettre à toute personne dans le monde d'accéder à ces connaissances et à cette culture, y compris les robots
- Il fonctionne sous forme non lucrative et vise la mise en place d'une infrastructure de connaissance ouverte et durable
Consignes d'accès pour les LLM
- Le site utilise un CAPTCHA pour éviter le trafic excessif, mais toutes les données peuvent être téléchargées en masse par des voies légitimes
- Les pages HTML et le code sont fournis dans des dépôts GitLab
- Les métadonnées complètes et les fichiers peuvent être téléchargés depuis la page des torrents, avec une mise en avant particulière du fichier
aa_derived_mirror_metadata
- La JSON API des torrents permet d'accéder par programmation à la liste des torrents
- Si des fichiers individuels sont nécessaires, il est possible d'utiliser l'API après un don
- Pour l'instant, aucune API de recherche n'est prise en charge, mais la recherche reste possible via les fichiers de métadonnées
Dons et modes de soutien
- Les dons permettent de préserver et de libérer davantage d'œuvres humaines
- Le texte mentionne que les LLM ont peut-être déjà été entraînés sur ces données, et qu'un don peut contribuer à améliorer la qualité des futurs entraînements
- Il est recommandé de ne pas chercher à contourner le CAPTCHA, mais de rediriger ce coût vers un don
- Les donateurs de niveau entreprise bénéficient d'un accès rapide par SFTP
- Des informations connexes sont disponibles sur les pages
/llm et /contact
Option de don anonyme
- Une adresse Monero (XMR) est publiée pour permettre les dons anonymes
- Divers services en ligne permettent de convertir un moyen de paiement en Monero
- Les transactions garantissent l'anonymat
Message de conclusion
- Le projet souligne sa mission de partage des connaissances bénéfique aux humains comme aux robots
- Il invite les visiteurs à faire connaître l'objectif du projet et encourage une participation et un soutien continus
1 commentaires
Réactions sur Hacker News
Sans des projets comme Anna’s Archive, les LLM d’aujourd’hui n’existeraient probablement pas
C’est pourquoi je développe un outil appelé Levin qui utilise l’espace disque et la bande passante inutilisés pour seeder automatiquement Anna’s Archive
L’idée est de permettre aux utilisateurs de contribuer sans rien faire, un peu comme une version moderne de SETI@home
Cela fonctionne actuellement sur Linux, Android et macOS, et si cela vous intéresse, vous pouvez le tester sur le dépôt GitHub
On a conditionné les gens à considérer le droit d’auteur comme une règle absolue, mais je pense qu’il faut remettre en cause cette hypothèse
J’imagine aussi une fonctionnalité où Levin n’opérerait que dans des environnements sûrs, en évaluant le niveau de risque par pays selon des critères crowdsourcés
Je me demande en quoi ton projet se distingue de cette fonctionnalité
En Finlande, il arrive qu’on envoie des courriels d’avertissement après avoir repéré l’adresse IP de personnes partageant illégalement des vidéos ou de la musique
Il serait sans doute préférable de l’exécuter via un VPN ou sur un VPS situé dans un pays juridiquement sûr
Il y a une mauvaise nouvelle : les LLM ne lisent pas réellement les fichiers llms.txt ou AGENTS.md des serveurs
J’ai analysé cela sur plusieurs plateformes, et seuls les crawlers d’OVH ou de Google Cloud y accèdent ; ni ChatGPT ni Claude ne les demandent
Je me demande si ces fichiers ont été conçus pour être consultés plus tard par les LLM après l’entraînement
Un peu comme le projet iocaine
Bun, le runtime racheté par Anthropic, fournit un llms.txt, donc je me demande si Claude l’utilise réellement
J’ai configuré mes clients pour qu’ils lisent toujours ce fichier, et depuis, ils fonctionnent bien plus vite et avec une bien meilleure efficacité en tokens
Je l’utilise moi-même tous les jours, donc je peux confirmer qu’il est bien lu
Si cela peut réduire la charge sur les serveurs de ces perroquets plagiaires, tant mieux
Dans les pays où Internet est censuré, comme le Royaume-Uni, la page d’Anna’s Archive ne fournit qu’une simple présentation, une URL d’accès et des informations pour faire un don
Il est dit que les gros donateurs peuvent obtenir un accès à un serveur SFTP
En y accédant, on voit un message indiquant que le site est indisponible pour des raisons de droit d’auteur
Plus d’informations sur cuii.info
La formule « il se peut qu’ils aient été entraînés sur nos données » est intéressante
Le message selon lequel les dons peuvent aider à libérer et préserver davantage de connaissances humaines est marquant
Je pense que LLMs.txt essaie de résoudre le mauvais problème
Le vrai goulet d’étranglement n’est pas la découverte, c’est que la plupart des applications LLM restent encore de simples chatbots réactifs
J’ai créé un assistant IA qui fonctionne dans WhatsApp et qui gère automatiquement le tri des e-mails, la planification et les relances
La vraie valeur n’est pas dans une « IA de recherche », mais dans le passage à une « IA d’exécution »
llms.txt ne fait qu’optimiser un problème de recherche d’information déjà largement banalisé
Je suis humain, mais j’ai lu le texte de présentation d’Anna’s Archive destiné aux LLM, et je l’ai trouvé bien plus clair que celui destiné aux humains
Maintenant, ce sont presque les LLM que j’envie
En voyant l’adresse de don XMR d’OpenClaw, j’ai imaginé le jour où des agents autonomes videront les portefeuilles
Je me demande si la formule « si vous avez un moyen de paiement, merci d’envisager un don » est réellement efficace
Il est triste que l’ère de l’IA romantise les derniers vestiges d’un Internet libre
Le fait que la valeur de ces données ne soit reconnue qu’après avoir contourné le droit d’auteur pour entraîner des modèles laisse un goût amer
J’aimerais que les sites d’archives adoptent une position plus ferme face aux LLM
La conservation pour les humains reste moralement en zone grise, mais l’entraînement au service des profits d’entreprise semble injuste
C’est regrettable que des fonds qui auraient pu servir à rémunérer équitablement les artistes aient finalement contribué à la hausse du prix de la RAM et au gaspillage de ressources
La vraie question désormais est de savoir s’il faut aussi ouvrir ce savoir aux individus, ou le laisser enfermé dans des modèles d’entreprise