agents.txt — proposition d’un standard de sitemap documentaire pour les agents IA
(github.com/baekenough)Aujourd’hui, lorsqu’un agent IA généraliste non entraîné cherche une information dans de la documentation web, il procède comme un humain en ouvrant les pages une par une.
Comme chaque page HTML embarque une barre latérale, un en-tête et un pied de page, il y a bien plus de bruit que de contenu utile,
et explorer un site de documentation de 651 pages peut consommer plusieurs millions de tokens.
robots.txt sert à dire aux crawlers « n’entrez pas ici »,
et sitemap.xml fournit une liste d’URL aux moteurs de recherche,
mais ni l’un ni l’autre n’aide vraiment les agents IA à trouver rapidement la page qu’ils cherchent.
llms.txt non plus, puisqu’il s’agit d’un texte descriptif libre, peu adapté à une navigation structurée.
agents.txt est un fichier d’index structuré qu’un site de documentation place à l’emplacement /.well-known/agents.txt.
Il suffit à un agent IA de lire ce seul fichier pour, sur une base de 651 pages et avec environ 3 200 tokens,
obtenir directement des réponses à des questions comme « où se trouve la page sur le prompt caching ? » ou « quel est le quickstart du SDK Python ? »,
sans avoir à crawler les pages.
Dans ce projet de proposition, la navigation pour la documentation officielle de claude-code et gpt-codex est prise en charge en quatre formats : TXT, MD, JSON et XML.
Le projet inclut aussi 12 annotations de type de page ainsi qu’une fonction de compression des patterns de SDK.
L’idée est proche de l’approche avec laquelle Vercel a réduit de 93 % l’usage de tokens avec agent-browser, mais abordée ici au niveau d’un standard web plutôt qu’à celui d’une application individuelle.
Comme la meilleure façon de le montrer semble être d’en faire une démo avec un agent, un agent nommé NAVIGATOR.md a été placé à la racine du projet.
Une implémentation de référence est disponible sur https://agentnav.baekenough.com.
Vos retours sont les bienvenus.
Aucun commentaire pour le moment.