La sémantique douce de schema.org

Après le Knowledge Graph dans le précédent billet, voici un autre aspect du Web sémantique à la mode Google et consors, mais dont les processus sont nettement plus ouverts et transparents, et l’intégration au Web sémantique beaucoup plus évidente, bien qu’assez subtile comme nous allons le voir. Après plus deux ans de développement, l’apport de schema.org à la structuration et à l’explicitation de la sémantique des pages Web, et la valeur ajoutée qu’il apporte en termes de référencement et de présentation des résultats de recherche est incontestable. De nombreux tutoriels expliquent comment insérer les balises schema.org dans le code HTML, et les résultats obtenus, par exemple sous forme de Google Rich Snippets. On pourra commencer par cette rapide introduction par Joshua Shinavier à l’historique du balisage sémantique du HTML, ses différentes syntaxes et le développement de schema.org. On lira ensuite avec profit un excellent billet de Manu Sporny sur la futilité des débats techniques entre partisans des syntaxes microdata et RDFa sur des différences qu’il qualifie de « mythiques », et l’intérêt de choisir après tout RDFa.
Par contre l’articulation de schema.org avec le Web sémantique, et en particulier l’écosystème des données liées n’est pas forcément évidente à comprendre. Dans le marquage RDFa, qu’il utilise ou non schema.org, les données (les triplets RDF) sont noyées dans le code HTML. Heureusement des outils existent, comme le RDFa Distiller, qui permettent d’extraire ces données sous forme de RDF en syntaxe plus classique comme Turtle ou RDF-XML, ces données extraites pouvant être indépendantes de la page HTML dont elles sont issues. Voir cette très bonne explication d’Adrian Pohl illustrée par un exemple du catalogue WorldCat.
La syntaxe RDFa n’étant pas spécifique à schema.org, le marquage sémantique utilisant cette syntaxe peut en principe utiliser tout autre vocabulaire en complément de schema.org. Le choix est vaste, on peut faire ses courses dans le catalogue de plus en riche des Linked Open Vocabularies (LOV). Mais bien sûr si l’objectif est uniquement le SEO en direction des grands moteurs et de Google en particulier, l’apport de l’utilisation d’autres vocabulaires que schema.org est douteux. Quelles sont les applications qui utiliseront un RDFa « polyglotte » non limité à schema.org? La question est encore ouverte, et de fait l’articulation avec l’écosystème du Web sémantique s’est faite plutôt jusqu’ici par adaptation et copie dans le schéma général de vocabulaires pré-existants comme GoodRelations ou rNews, et d’autres en cours d’intégration ou en projet. Dans sa dernière version 1.0b annoncée la semaine dernière (et disponible comme les versions précédentes sur la page correspondante du catalogue LOV), schema.org comprend plus de 1000 éléments (classes et propriétés). Si chaque industrie ou communauté veut apporter sa contribution, la croissance du schéma risque de devenir problématique : augmentation de la complexité, conflits terminologiques et sémantiques dans des domaines différents, les problèmes liés à une représentation par un espace de noms unique d’une classification du monde entier à un niveau arbitraire de granularité sont connues. La discussion sur le sujet est ouverte.
Taillé sur mesure pour les moteurs, schema.org présente une sémantique non-standard. Certes schema.org peut se traduire comme un vocabulaire RDF, mais qui ne suit explicitement ni la sémantique de OWL, ni celle de RDFS sur un point important, la façon d’attacher les propriétés aux classes. La dernière version officialise les propriétés « domain includes » et « range includes » qui permettent d’exprimer une relation assez peu contraignante entre une propriété et la ou les classes sur laquelle on peut l’appliquer, et la ou les classes attendues pour ses valeurs, respectivement. Ces deux attributs sont utilisées pour décrire les propriétés dont les URI sont désormais déréférençables. Par exemple la description de http://schema.org/illustrator indique que cette propriété peut être utilisée sur la classe http://schema.org/Book et que la valeur de la propriété a pour classe attendue http://schema.org/Person.
Il faut comprendre ces descriptions comme des recommandations indicatives, pragmatiques et heuristiques, elles ne sont pas prévues pour faire du raisonnement comme leurs homologues en RDFS rdfs:domain et rdfs:range. On ne déduira pas en schema.org comme en RDFS que le sujet d’un prédicat « illustrator » est nécessairement de type Book, ni que sa valeur est nécessairement de type Person. Mais les systèmes s’appuyant sur schema.org, à commencer par les parsers de Google, s’attendront à trouver là en général un Livre et une Personne, et se comporteront en conséquence.
Il est très intéressant de noter qu’une façon tout à fait similaire de relier les propriétés aux classes est proposée par le vocabulaire BIBFRAME, en cours de développement par l’OCLC avec pour objectif déclaré de traduire le sacro-saint format documentaire MARC 21 en un schéma Linked Data.
Le succès d’entreprises comme schema.org et BIBFRAME amèneront sans doute à restreindre le périmètre d’usage des ontologies exprimées en RDFS-OWL à des applications de raisonnement pur et dur. La plupart des vocabulaires utilisés dans le Web de données et répertoriés dans le catalogue LOV s’appuient de fait sur la sémantique de RDFS et/ou de OWL, mais dans la pratique de l’utilisation dans le Web des données, cette sémantique est beaucoup trop dure, et on peut imaginer que les auteurs de tels vocabulaires ont utilisé RDFS ou OWL à défaut d’autres méta-modèles disponibles.
Cette pratique pourrait changer dans l’avenir, et l’utilisation de domain includes et range includes se généraliser pour les vocabulaires à usage des données ouvertes sur le Web, où les heuristiques de recherche et d’interconnexion sont plus importantes que le raisonnement, les ontologies OWL demeurant réservées à des environnements de gestion de données plus contraintes et contrôlées. Les ambitions déclarées de OWL, vieilles maintenant de plus 10 ans, à être le langage d’ontologie universel pour le Web, semblent donc bien être vouées à ne jamais vraiment se concrétiser.

Laisser un commentaire

Choisissez une méthode de connexion pour poster votre commentaire:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :