14 points par GN⁺ 2024-08-22 | 4 commentaires | Partager sur WhatsApp
  • Le Web sémantique correspond à l’ancien Web 3.0. Avant que « Web 3.0 » ne finisse par désigner « des choses comme la crypto », cela signifiait des sites web lisibles par les machines (Machine-Readable)
  • Je pensais que le concept de Web sémantique n’était plus vraiment utilisé, mais en réalité il est désormais très largement adopté, au point qu’il n’est pas exagéré de dire que nous utilisons déjà le Web 3.0
  • Si le Web 3.0 existe déjà, où se trouve-t-il ? Il est pour l’essentiel caché dans le balisage

Articles de blog avec JSON-LD

  • Il est possible d’inclure des métadonnées JSON-LD en ajoutant un élément <script type="application/ld+json"> dans le <head> d’une page HTML
  • JSON-LD est le principal format d’encodage des métadonnées du Web sémantique
  • Exemple : description utilisant le type BlogPosting
{
  "@context": "https://schema.org";,
  "@type": "BlogPosting",
  "headline": "From Shell to Excel - with a little bit of HTTPS",
  "url": "https://csvbase.com/blog/10";,
  "description": "Write once, read everywhere",
  "author": {
    "@type": "Person",
    "name": "Cal Paterson",
    "email": "cal@calpaterson.com",
    "url": "https://calpaterson.com/about.html";
  },
  "image": "https://csvbase.com/blog-static/excel.png";,
  "datePublished": "2024-08-12",
  "dateCreated": "2024-08-12",
  "dateModified": "2024-08-12"
}
  • Les clés qui commencent par @ sont des métadonnées (des méta-métadonnées ?)
    • @context représente l’espace de noms, et @type le type de classe
    • Les autres clés sont des champs autorisés pour le type BlogPosting
  • La valeur d’une clé peut elle aussi être d’un autre type (comme le Person de la clé author)

Qu’est-ce que j’y gagne ?

  • Qui lit cela ? De nombreux bots analysent les métadonnées JSON-LD
  • Les billets de blog contenant des métadonnées du Web sémantique obtiennent des aperçus de liens sur les réseaux sociaux, ce qui améliore le taux de clic
  • Les crawlers des moteurs de recherche utilisent ces métadonnées pour afficher plus d’informations dans les résultats
  • Des agrégateurs de liens automatisés utilisent ces données pour présenter les posts aux utilisateurs (comme Android qui affiche des actualités issues de plusieurs sites)
  • Les métadonnées du Web sémantique ne nécessitent aucune autorisation et sont neutres vis-à-vis des fournisseurs

Est-ce difficile ?

  • Non, JSON-LD est très simple
    • JSON-LD consiste à organiser sous une forme lisible par ordinateur des informations déjà présentes sur la page
  • Si vous savez écrire une app frontend, vous comprendrez facilement JSON-LD

D’autres types de JSON-LD

  • En plus de BlogPosting, il existe des types comme Event, LocalBusiness, JobPosting, Product ou Recipe
  • csvbase utilise le type Dataset pour décrire des données tabulaires.
{
  "@context": ["https://schema.org";, {"csvw": "https://www.w3.org/ns/csvw#";}],
  "@type": "Dataset",
  "name": "stock-exchanges",
  "url": "https://csvbase.com/meripaterson/stock-exchanges";,
  "isAccessibleForFree": true,
  "distribution": [
    {
      "@type": "DataDownload",
      "contentUrl": "https://csvbase.com/meripaterson/stock-exchanges.csv";,
      "encodingFormat": "text/csv",
      "contentSize": "16222"
    },
    {
      "@type": "DataDownload",
      "contentUrl": "https://csvbase.com/meripaterson/stock-exchanges.parquet";,
      "encodingFormat": "application/parquet",
      "contentSize": "10751"
    },
    {
      "@type": "DataDownload",
      "contentUrl": "https://csvbase.com/meripaterson/stock-exchanges.xlsx";,
      "encodingFormat": "application/vnd.openxmlformats-officedocument.spreadsheetml.sheet",
      "contentSize": "15500"
    },
    {
      "@type": "DataDownload",
      "contentUrl": "https://csvbase.com/meripaterson/stock-exchanges.jsonl";,
      "encodingFormat": "application/x-jsonlines",
      "contentSize": "38627"
    }
  ],
  "dateCreated": "2022-04-25T13:43:24.746075+01:00",
  "dateModified": "2023-04-02T20:27:33.255648+01:00",
  "maintainer": {
    "@type": "Person",
    "name": "meripaterson",
    "url": "https://csvbase.com/meripaterson";
  },
  "description": "The world's stock exchanges...",
  "mainEntity": {
    "@type": "csvw:Table",
    "csvw:tableSchema": {
      "csvw:columns": [
        {"csvw:name": "csvbase_row_id", "csvw:datatype": "integer"},
        {"csvw:name": "Continent", "csvw:datatype": "string"},
        {"csvw:name": "Country", "csvw:datatype": "string"},
        {"csvw:name": "Name", "csvw:datatype": "string"},
        {"csvw:name": "MIC", "csvw:datatype": "string"},
        {"csvw:name": "Last changed", "csvw:datatype": "date"}
      ]
    }
  }
}

Est-ce vraiment nécessaire ? L’IA ne va-t-elle pas tout régler ?

  • Les grands modèles de langage (LLM) commettent souvent des erreurs
  • Il est important de fournir des métadonnées pour garantir l’exactitude
  • Utiliser des LLM coûte cher, et il faut des GPU pour lire des pages web

Alternatives

  • Open Graph Protocol : un standard créé par Facebook, principalement destiné à décrire le contenu
  • Microdata : simple, mais difficile à parser
  • Twitter Cards : décrit comment Twitter doit afficher le contenu
  • D’anciens standards basés sur XML : profondément pris en charge dans les systèmes de bibliothèques et d’archives

Une technologie ennuyeuse (Boring technology)

  • Il est très surprenant que le Web sémantique soit aussi discret. D’innombrables sites ont déjà mis en place ce type de métadonnées
  • « Le Web sémantique est déjà largement répandu ; il n’a simplement jamais eu son moment de gloire »

Résumé de GN⁺

  • Le Web sémantique est une technologie permettant de créer des sites web lisibles par les machines, et elle est déjà largement utilisée.
  • JSON-LD est le principal format d’encodage des métadonnées du Web sémantique et prend en charge divers types comme les billets de blog, les événements et les produits.
  • Les métadonnées du Web sémantique aident les réseaux sociaux et les moteurs de recherche à améliorer les aperçus de liens et les résultats de recherche.
  • Extraire automatiquement des métadonnées à l’aide de l’IA peut coûter cher et manquer de précision.
  • Il existe diverses alternatives, comme Open Graph Protocol, Microdata et Twitter Cards.

4 commentaires

 
cometkim 2024-08-22

Je recommande cet essai à celles et ceux qui s’interrogent sur l’histoire du Web sémantique et sur sa place aujourd’hui.

https://lespetitescases.net/why-I-dont-use-semantic-web-technologies-a…

 
[Ce commentaire a été masqué.]
 
ipuris 2024-08-22

Je ne pense pas que JSON-LD soit le cœur ou la technologie essentielle du web sémantique, mais l’idée que « le web sémantique est déjà largement répandu, il n’a simplement jamais eu son moment de gloire » me parle beaucoup aussi.. !

 
GN⁺ 2024-08-22
Avis Hacker News
  • Problèmes des standards du web sémantique

    • Manque d’application phare depuis des décennies
    • La qualité du web s’est dégradée, et il n’y a pas eu d’équivalent à Wikipédia
    • Incomplétude de la vision : les requêtes SPARQL et les reasoners sont utiles, mais leur coût cognitif est élevé pour l’utilisateur moyen
    • Pour un meilleur web, il faut toujours aller dans la direction du web sémantique
  • Expérience d’échec d’une tentative

    • Le site essayé n’avait pas de catégorie « Poem »
    • C’est demandé depuis 9 ans, mais le problème n’a pas été résolu
  • Comparaison entre JSON-LD et RSS

    • « Googlers, JSON-LD pourrait avoir autant de notoriété que RSS »
    • Avis selon lequel il serait bon de lancer puis d’arrêter des apps ou des services
  • La signification des LLM et du web sémantique

    • Le sens ne devrait pas être défini par l’éditeur
    • Doute sur le fait que l’éditeur moyen puisse classer plus précisément qu’un LLM
    • Le piratage SEO et le spam de blogs existent parce que l’éditeur était l’unique source de vérité
    • Il faut résoudre le problème de la définition du sens
  • État actuel du web sémantique

    • Déclarer la victoire via l’intégration avec Facebook signifie la mort du web sémantique
    • OWL et les autres standards visaient à annoter le contenu des pages
    • Les informations sur l’auteur, le titre, la photo et la date de publication sont presque dénuées de sens
  • Concepts importants manquants

    • Aucune mention des linked data, de RDF, des requêtes fédérées et des requêtes web
    • JSON-LD n’est qu’un format de sérialisation
    • Les technologies de linked data améliorent l’interopérabilité et la réutilisabilité des données
    • Les LLM et les linked data sont complémentaires
  • Métadonnées des PDF

    • Les métadonnées des PDF reposent aussi sur les standards du web sémantique
    • RDF y est écrit en XML au lieu de JSON-LD
  • Importance du HTML

    • On dirait que certains l’évitent parce que HTML est difficile
    • Le sens n’est pas caché dans le balisage, il est le balisage lui-même
  • IA et métadonnées

    • Deux raisons pour lesquelles l’IA ne peut pas remplacer les métadonnées
      • Les LLM se trompent souvent
      • Le temps GPU coûte cher
    • Les LLM affichent déjà une précision de 99 %
    • À l’avenir, faire passer du texte dans un LLM ne sera probablement pas un gros problème
  • JSON-LD et SEO

    • Google promeut JSON-LD depuis plus de 5 ans pour améliorer le SEO
    • La plupart des métadonnées pertinentes des pages sont déjà capturées via le protocole Open Graph
    • Il n’est pas nécessaire de générer du JSON-LD avec un travail supplémentaire