La sémantique douce de schema.org

juillet 29, 2013
Après le Knowledge Graph dans le précédent billet, voici un autre aspect du Web sémantique à la mode Google et consors, mais dont les processus sont nettement plus ouverts et transparents, et l’intégration au Web sémantique beaucoup plus évidente, bien qu’assez subtile comme nous allons le voir. Après plus deux ans de développement, l’apport de schema.org à la structuration et à l’explicitation de la sémantique des pages Web, et la valeur ajoutée qu’il apporte en termes de référencement et de présentation des résultats de recherche est incontestable. De nombreux tutoriels expliquent comment insérer les balises schema.org dans le code HTML, et les résultats obtenus, par exemple sous forme de Google Rich Snippets. On pourra commencer par cette rapide introduction par Joshua Shinavier à l’historique du balisage sémantique du HTML, ses différentes syntaxes et le développement de schema.org. On lira ensuite avec profit un excellent billet de Manu Sporny sur la futilité des débats techniques entre partisans des syntaxes microdata et RDFa sur des différences qu’il qualifie de « mythiques », et l’intérêt de choisir après tout RDFa.
Par contre l’articulation de schema.org avec le Web sémantique, et en particulier l’écosystème des données liées n’est pas forcément évidente à comprendre. Dans le marquage RDFa, qu’il utilise ou non schema.org, les données (les triplets RDF) sont noyées dans le code HTML. Heureusement des outils existent, comme le RDFa Distiller, qui permettent d’extraire ces données sous forme de RDF en syntaxe plus classique comme Turtle ou RDF-XML, ces données extraites pouvant être indépendantes de la page HTML dont elles sont issues. Voir cette très bonne explication d’Adrian Pohl illustrée par un exemple du catalogue WorldCat. Lire la suite »