- Le Web sémantique correspond à l’ancien Web 3.0. Avant que « Web 3.0 » ne finisse par désigner « des choses comme la crypto », cela signifiait des sites web lisibles par les machines (Machine-Readable)
- Je pensais que le concept de Web sémantique n’était plus vraiment utilisé, mais en réalité il est désormais très largement adopté, au point qu’il n’est pas exagéré de dire que nous utilisons déjà le Web 3.0
- Si le Web 3.0 existe déjà, où se trouve-t-il ? Il est pour l’essentiel caché dans le balisage
Articles de blog avec JSON-LD
- Il est possible d’inclure des métadonnées JSON-LD en ajoutant un élément
<script type="application/ld+json"> dans le <head> d’une page HTML
- JSON-LD est le principal format d’encodage des métadonnées du Web sémantique
- Exemple : description utilisant le type BlogPosting
{
"@context": "https://schema.org",
"@type": "BlogPosting",
"headline": "From Shell to Excel - with a little bit of HTTPS",
"url": "https://csvbase.com/blog/10",
"description": "Write once, read everywhere",
"author": {
"@type": "Person",
"name": "Cal Paterson",
"email": "cal@calpaterson.com",
"url": "https://calpaterson.com/about.html"
},
"image": "https://csvbase.com/blog-static/excel.png",
"datePublished": "2024-08-12",
"dateCreated": "2024-08-12",
"dateModified": "2024-08-12"
}
- Les clés qui commencent par
@ sont des métadonnées (des méta-métadonnées ?)
@context représente l’espace de noms, et @type le type de classe
- Les autres clés sont des champs autorisés pour le type BlogPosting
- La valeur d’une clé peut elle aussi être d’un autre type (comme le
Person de la clé author)
Qu’est-ce que j’y gagne ?
- Qui lit cela ? De nombreux bots analysent les métadonnées JSON-LD
- Les billets de blog contenant des métadonnées du Web sémantique obtiennent des aperçus de liens sur les réseaux sociaux, ce qui améliore le taux de clic
- Les crawlers des moteurs de recherche utilisent ces métadonnées pour afficher plus d’informations dans les résultats
- Des agrégateurs de liens automatisés utilisent ces données pour présenter les posts aux utilisateurs (comme Android qui affiche des actualités issues de plusieurs sites)
- Les métadonnées du Web sémantique ne nécessitent aucune autorisation et sont neutres vis-à-vis des fournisseurs
Est-ce difficile ?
- Non, JSON-LD est très simple
- JSON-LD consiste à organiser sous une forme lisible par ordinateur des informations déjà présentes sur la page
- Si vous savez écrire une app frontend, vous comprendrez facilement JSON-LD
D’autres types de JSON-LD
- En plus de BlogPosting, il existe des types comme Event, LocalBusiness, JobPosting, Product ou Recipe
- csvbase utilise le type Dataset pour décrire des données tabulaires.
{
"@context": ["https://schema.org", {"csvw": "https://www.w3.org/ns/csvw#"}],
"@type": "Dataset",
"name": "stock-exchanges",
"url": "https://csvbase.com/meripaterson/stock-exchanges",
"isAccessibleForFree": true,
"distribution": [
{
"@type": "DataDownload",
"contentUrl": "https://csvbase.com/meripaterson/stock-exchanges.csv",
"encodingFormat": "text/csv",
"contentSize": "16222"
},
{
"@type": "DataDownload",
"contentUrl": "https://csvbase.com/meripaterson/stock-exchanges.parquet",
"encodingFormat": "application/parquet",
"contentSize": "10751"
},
{
"@type": "DataDownload",
"contentUrl": "https://csvbase.com/meripaterson/stock-exchanges.xlsx",
"encodingFormat": "application/vnd.openxmlformats-officedocument.spreadsheetml.sheet",
"contentSize": "15500"
},
{
"@type": "DataDownload",
"contentUrl": "https://csvbase.com/meripaterson/stock-exchanges.jsonl",
"encodingFormat": "application/x-jsonlines",
"contentSize": "38627"
}
],
"dateCreated": "2022-04-25T13:43:24.746075+01:00",
"dateModified": "2023-04-02T20:27:33.255648+01:00",
"maintainer": {
"@type": "Person",
"name": "meripaterson",
"url": "https://csvbase.com/meripaterson"
},
"description": "The world's stock exchanges...",
"mainEntity": {
"@type": "csvw:Table",
"csvw:tableSchema": {
"csvw:columns": [
{"csvw:name": "csvbase_row_id", "csvw:datatype": "integer"},
{"csvw:name": "Continent", "csvw:datatype": "string"},
{"csvw:name": "Country", "csvw:datatype": "string"},
{"csvw:name": "Name", "csvw:datatype": "string"},
{"csvw:name": "MIC", "csvw:datatype": "string"},
{"csvw:name": "Last changed", "csvw:datatype": "date"}
]
}
}
}
Est-ce vraiment nécessaire ? L’IA ne va-t-elle pas tout régler ?
- Les grands modèles de langage (LLM) commettent souvent des erreurs
- Il est important de fournir des métadonnées pour garantir l’exactitude
- Utiliser des LLM coûte cher, et il faut des GPU pour lire des pages web
Alternatives
- Open Graph Protocol : un standard créé par Facebook, principalement destiné à décrire le contenu
- Microdata : simple, mais difficile à parser
- Twitter Cards : décrit comment Twitter doit afficher le contenu
- D’anciens standards basés sur XML : profondément pris en charge dans les systèmes de bibliothèques et d’archives
Une technologie ennuyeuse (Boring technology)
- Il est très surprenant que le Web sémantique soit aussi discret. D’innombrables sites ont déjà mis en place ce type de métadonnées
- « Le Web sémantique est déjà largement répandu ; il n’a simplement jamais eu son moment de gloire »
Résumé de GN⁺
- Le Web sémantique est une technologie permettant de créer des sites web lisibles par les machines, et elle est déjà largement utilisée.
- JSON-LD est le principal format d’encodage des métadonnées du Web sémantique et prend en charge divers types comme les billets de blog, les événements et les produits.
- Les métadonnées du Web sémantique aident les réseaux sociaux et les moteurs de recherche à améliorer les aperçus de liens et les résultats de recherche.
- Extraire automatiquement des métadonnées à l’aide de l’IA peut coûter cher et manquer de précision.
- Il existe diverses alternatives, comme Open Graph Protocol, Microdata et Twitter Cards.
4 commentaires
Je recommande cet essai à celles et ceux qui s’interrogent sur l’histoire du Web sémantique et sur sa place aujourd’hui.
https://lespetitescases.net/why-I-dont-use-semantic-web-technologies-a…
Je ne pense pas que JSON-LD soit le cœur ou la technologie essentielle du web sémantique, mais l’idée que « le web sémantique est déjà largement répandu, il n’a simplement jamais eu son moment de gloire » me parle beaucoup aussi.. !
Avis Hacker News
Problèmes des standards du web sémantique
Expérience d’échec d’une tentative
Comparaison entre JSON-LD et RSS
La signification des LLM et du web sémantique
État actuel du web sémantique
Concepts importants manquants
Métadonnées des PDF
Importance du HTML
IA et métadonnées
JSON-LD et SEO