2 points par GN⁺ 2023-12-12 | 2 commentaires | Partager sur WhatsApp
  • De nombreux sites proposent un flux RSS tout en omettant le lien RSS/Subscribe ou les métadonnées d’auto-découverte, ce qui rend l’adresse du flux difficile à trouver pour les utilisateurs
  • Afficher directement un lien RSS sur la page permet, indépendamment de l’auto-découverte par les lecteurs de flux, de signaler aux visiteurs l’existence du RSS et d’améliorer l’accessibilité du web ouvert
  • L’auto-découverte RSS est la méthode standard qui consiste à rechercher dans les balises <link> du HTML un type="application/rss+xml", et peut être utilisée par des lecteurs de flux comme NetNewsWire lorsqu’une URL est saisie
  • En ajoutant dans le head du site une balise <link> avec rel="alternate", type, title et href, il est possible d’exposer explicitement un flux RSS
  • S’il existe plusieurs flux, comme RSS, Atom, JSON Feed ou un podcast feed, on peut utiliser plusieurs balises <link>, et il vaut mieux que le bouton RSS ressemble à un bouton RSS

Fournir à la fois un lien RSS et l’auto-découverte

  • Quand les utilisateurs cherchent un flux RSS, la première chose qu’ils vérifient est souvent le lien RSS/Subscribe sur le site, mais beaucoup de sites n’en ont pas
  • Certains utilisateurs collent simplement l’URL d’un site web dans leur lecteur de flux pour laisser l’application trouver le flux, mais si un lien RSS est visible sur la page, les visiteurs peuvent savoir immédiatement si le site prend en charge RSS
  • L’auto-découverte RSS consiste à rechercher, parmi les balises <link> d’un site web, celles dont le type est application/rss+xml
return Array.from(document.getElementsByTagName('link')).find(l => l.type.includes('application/rss+xml'))?.href
  • Cette méthode est un standard appelé RSS auto-discovery, qui aide les navigateurs et d’autres logiciels à trouver automatiquement le flux RSS d’un site
  • Des lecteurs de flux comme NetNewsWire peuvent utiliser ces métadonnées pour trouver le flux lorsqu’on y colle une URL

Métadonnées de flux à placer dans le head

  • Si vous avez un flux RSS, vous pouvez ajouter dans le head de votre site la balise d’auto-découverte suivante
<link rel="alternate" type="application/rss+xml" title="My Cool Website" href="https://example.com/feed.xml"; />
  • Pour un flux Atom, on utilise application/atom+xml dans type
<link rel="alternate" type="application/atom+xml" title="My Cool Website" href="https://example.com/atom.xml"; />
  • S’il y a plusieurs flux, vous pouvez aussi avoir plusieurs balises <link>
    • flux RSS du site web
    • JSON Feed
    • podcast feed
<!-- Website RSS feed -->
<link rel="alternate" type="application/rss+xml" title="My Cool Website" href="https://example.com/feed.xml"; />

<!-- Website JSON feed -->
<link rel="alternate" type="application/json" title="My Cool Website but JSON" href="https://example.com/feed.json"; />

<!-- Podcast RSS feed -->
<link rel="alternate" type="application/rss+xml" title="My Cool Podcast" href="https://example.com/podcast.xml"; />
  • Une mise à jour du 9 décembre 2023 ajoute la recommandation que, lors de l’ajout d’un bouton RSS, il ressemble à un bouton RSS et utilise l’orange RSS

2 commentaires

 
ndrgrd 2023-12-14

Il y a beaucoup de sites bien cachés. Quand j’ai vraiment envie de m’y abonner, j’essaie parfois de saisir directement /rss, /rss.xml, /index.xml, /feed ou /feed.xml.

 
GN⁺ 2023-12-12
Avis sur Hacker News
  • Astuce : les chaînes YouTube exposent aussi un flux RSS ; il suffit donc de coller l’URL de la chaîne dans un lecteur de news pour s’y abonner.
    Il peut y avoir des flux RSS dans des endroits inattendus ; utiliser une extension qui rétablit dans le navigateur un bouton « S’abonner via RSS » est donc une bonne idée.
    <https://addons.mozilla.org/en-US/firefox/addon/awesome-rss/>
    <https://chromewebstore.google.com/detail/rss-subscription-ex...>

  • Il y a deux grandes raisons pour lesquelles beaucoup de flux RSS/Atom ne sont pas visibles : les services du type Google Reader ont disparu, et les navigateurs ont abandonné la prise en charge native de RSS, y compris la détection des flux.
    Rétablir une fonction qui aurait dû être dans le navigateur permettrait au moins de trouver les flux ; ensuite, on peut s’y abonner avec des outils comme newsbeuter.

    • C’était intentionnel. RSS est un moyen de contourner la publicité.
      Il suffit de penser à qui fabrique aujourd’hui le navigateur le plus utilisé.
    • Le fait que certains services d’entreprise aient disparu n’empêche pas de mettre un lien "application/rss+xml" dans la source HTML.
      Au contraire, il peut très bien exister quantité d’applications de bureau « irrécupérables » comme les lecteurs RSS ; il est étrange de dépendre de services qui peuvent disparaître. Les lecteurs RSS sont encore nombreux, et en créer un est assez simple.
      Pour trouver un flux, on peut vérifier la source HTML. Le problème, c’est quand un flux existe mais n’est affiché nulle part sur le site.
    • Il m’est arrivé de constater que le bouton RSS de mon site web n’était pas visible ; je n’en comprenais pas la cause, jusqu’à ce que je vérifie mon bloqueur de publicité.
      Au moins deux listes, AdGuard Widgets et EasyList Social Widgets, contiennent encore des règles qui bloquent les icônes RSS. Elles ne sont toutefois pas activées par défaut.
    • Intégrer une prise en charge native de RSS comme fonction centrale du navigateur n’a jamais été très pertinent ; une extension convient bien mieux.
      Il existe beaucoup de services pour remplacer Google Reader, et ils proposent aussi des fonctions qui vont au-delà du simple RSS.
      Dans des médias optimisés pour l’engagement et l’addiction, RSS sert de tremplin pour sortir de la plateforme : il est donc logique qu’ils ne l’utilisent pas. Même les blogs personnels, dont parle surtout l’article, peuvent vouloir garder les lecteurs sur leur site pour obtenir des clics.
      C’est un conflit d’intérêts entre fournisseurs et consommateurs de contenu, principalement lié à la publicité, pas un problème d’implémentation.
  • J’aimerais aussi que le fait de s’abonner au flux d’un blog soit visible pour l’administrateur du site.
    Quand je lis un bon article, il m’arrive d’envoyer un e-mail de compliments au propriétaire du site, ou de laisser un court commentaire sur HN pour signaler que je me suis abonné au flux. J’espère que cela encourage les personnes qui consacrent du soin et de l’affection à produire de bons contenus à continuer.
    Pour le lecteur RSS que j’ai créé moi-même, si cela vous intéresse, vous pouvez voir https://www.heyhomepage.com ; il ajoute aux liens cliqués un paramètre comme /?rss_ref=heyhomepage.com. L’administrateur du site reçoit mon trafic et, s’il consulte ses statistiques de visite, peut facilement voir d’où je viens.

  • RSS manque aussi un peu de cohérence. Certains mettent le contenu dans le flux, d’autres seulement des liens.
    S’il n’y a que des liens, récupérer le contenu par programme exige généralement du code spécifique à chaque site. Il existe bien des scrapers génériques, mais il faut accepter que des bruits arbitraires, comme les en-têtes du site, se mélangent aux données.
    Avec l’arrivée des LLM, je pense qu’un marché pourrait enfin apparaître pour ce genre de choses. Les gens pourraient vendre des données, comme des articles, comme sources pour des pipelines de machine learning, et cela pourrait aussi offrir une voie de sortie de la publicité.
    J’aimerais donc que l’on commence par améliorer RSS. C’est comme un phare dans une mer obscure.

    • Je ne pense pas que RSS doive être « amélioré » pour les scrapers.
    • NewsBlur propose un interrupteur pour choisir entre la vue du flux et la vue texte.
      La vue texte peut généralement récupérer l’article complet depuis le site web, même si le flux ne contient qu’un résumé.
    • Cela signifie-t-il que RSS permettrait de mieux faire du blanchiment de droits d’auteur ?
    • Autour de cette idée, j’ai créé un lecteur/traqueur RSS assez affirmé qui ne traite que les liens.
      Cela donne une expérience cohérente, tout en envoyant des visites au site web de l’auteur.
      Vous pouvez l’essayer ici : https://lenns.io. Je serais ravi de recevoir des retours.
    • J’ai abandonné l’usage de RSS à cause du fait que « certains mettent le contenu dans le flux, d’autres seulement des liens ».
      Si je dois de toute façon suivre les liens, autant aller directement sur les sites que j’ai envie de lire pour gagner du temps.
  • L’une des vieilles raisons pour lesquelles certaines personnes ne veulent pas rendre leur RSS public est qu’elles aimeraient avoir une idée du nombre d’abonnés ; or j’ai découvert récemment que beaucoup de grands lecteurs RSS publient des chiffres d’analyse de haut niveau
    Cela permet déjà d’estimer le nombre de lecteurs RSS. J’aimerais que davantage de lecteurs prennent en charge cette fonctionnalité. En regardant tous les flux RSS que je publie dans mon produit, les clients qui prennent en charge ce pseudo-protocole semblent être NewsBlur, Feedly, Feedbin et inoreader
    Je l’ai appris grâce à l’article de Darek Kay https://darekkay.com/blog/rss-subscriber-count/

    • Le fait que les grands lecteurs RSS exposent le nombre d’abonnés est un ajout appréciable, mais cela pousse aussi un peu vers la centralisation
      J’essaie d’ajouter un paramètre d’URL comme /?rss_ref=heyhomepage.com pour signaler aux propriétaires de sites que je suis abonné à leur flux. Ils peuvent voir, ou non, ce référent RSS dans leurs statistiques de visites
      Je ne consomme pas tout l’article uniquement dans le lecteur : j’affiche un court résumé, puis je clique sur le lien de l’article. Cela me permet de profiter de leur site personnel, et leur donne aussi une visibilité plus claire sur mon trafic
    • C’est aussi une pratique courante avec les clients de podcast qui crawlent côté serveur ; en fait, presque tous le font
    • La solution la plus simple consiste simplement à regarder les requêtes serveur
      Mon lecteur étant basé sur le terminal, prendre en charge des fonctions d’analyse JavaScript brouillerait l’objectif même
  • La découverte automatique étant cassée ou absente sur de nombreux sites, mon lecteur de flux Temboz essaie ces suffixes dans l’espoir qu’un flux RSS ou Atom soit caché quelque part
    'feed', 'feed/', 'rss', 'atom', 'feed.xml', '/feed', '/feed/', '/rss', '/atom', '/feed.xml', 'index.atom', 'index.rss', 'index.xml', 'atom.xml', 'rss.xml', '/index.atom', '/index.rss', '/index.xml', '/atom.xml', '/rss.xml', '.rss', '/.rss', '?rss=1', '?feed=rss2'

  • Il y a quelque temps, j’ai créé https://hn-blogs.kronis.dev, basé sur les flux RSS/Atom partagés par les gens sur HN, et il tourne encore en arrière-plan en récupérant les derniers articles chaque jour
    Le site contient des liens vers le post HN d’origine et vers le billet de blog que j’ai écrit ; le billet est ici : https://blog.kronis.dev/articles/ever-wanted-to-read-thousan...
    C’était un travail assez intéressant et j’aime que cette technologie existe, mais la façon dont chacun l’intègre varie beaucoup. Le type de flux est parfois mal déclaré, on n’obtient pas toujours toutes les métadonnées de flux ou d’éléments souhaitées, et il peut y avoir des erreurs réseau ou des séquences de contrôle dans le texte qui cassent le parsing XML
    Plus le dataset grossit, plus je suis convaincu que les problèmes potentiels se multiplient. Si une erreur peut se produire, il faudra bien finir par la gérer

  • J’ai eu l’impression que cet article me visait, alors j’ai ajouté une icône RSS dans le footer de ma page
    https://github.com/gavinanderegg/gavinanderegg.github.io/com...
    Je pensais qu’un lien "application/rss+xml" suffisait, mais je comprends qu’aujourd’hui les gens ne partent pas du principe que tous les sites ont ce type de lien. En tant que personne qui lit surtout les billets de blog via RSS, le rendre plus explicite est une très bonne chose
    [1] https://mastodon.social/@gavinanderegg/111362850402497489

    • Ma page ne mettait pas non plus très bien en avant son flux RSS. Comme je ne suis pas très à l’aise avec le HTML, j’ai repris la façon dont vous l’aviez fait sur votre site et l’ai adaptée au mien
      Nous voilà donc tous les deux avec un RSS exposé
  • J’utilise miniflux et, quand je cherche un flux en entrant simplement le domaine, trois fois sur quatre il le trouve quelque part comme /rss ou feed
    Ce serait bien que ce soit explicite. C’est peut-être intégré au framework et fourni gratuitement, donc les gens ne prennent pas la peine de l’exposer ; mais c’est peut-être naïf de ma part

  • Le fait que RSS ait été étouffé me met en colère chaque fois que j’y pense

    • Étouffé par qui ? Google a peut-être tué son propre lecteur de news, mais RSS ne dépend pas de Google et n’a donc jamais cessé de fonctionner
      J’aime beaucoup le fait que Wordpress ajoute automatiquement un flux à tous les sites sur Internet
      Je vois cela comme un filtre. Les contenus clickbait idiots vont ailleurs, tandis que les contenus de qualité, dont les auteurs assument directement la responsabilité, arrivent bien dans mon lecteur de flux. Pour moi, c’est presque un mal pour un bien
      Bien sûr, entretenir une bonne collection de flux demande un effort supplémentaire. Mais n’est-ce pas le cas de toutes les bonnes choses de la vie ? Cet effort s’accumule comme des intérêts composés et paie vite
      Vive RSS, vive le Web ouvert !