Ceci n’est pas le Web sémantique

février 20, 2013

Le Google Knowledge Graph a fait du chemin depuis sa première annonce au printemps dernier. Beaucoup de choses ont été écrites sur la portée de l’événement, qui entérinerait l’adhésion officielle de Google aux principes de base du Web sémantique, résumés par la formule choc things, not strings. Avec des chiffres qui se veulent impressionnants : des centaines de millions de choses et des milliards de faits (propriétés des choses et relations entre elles).

Selon une déclaration de Larry Page le mois dernier, le Knowledge Graph n’est encore qu’à 1% de ses objectifs. Au passage le patron de Google souligne que la tâche est ardue, en particulier dans ses aspects multilingues. Effectivement si l’on en croit ces offres de recrutement de contributeurs multilingues on constate qu’en matière de construction de la connaissance et de consolidation des données Google lui-même doit admettre que la puissance de ses algorithmes ne fait pas tout, et qu’arrivé au niveau de détail où le diable se niche, Humans do it better, pour reprendre le slogan un peu désuet (aujourd’hui abandonné d’ailleurs) de l’Open Directory.

Nul ne peut nier que le Knowledge Graph ajoute une vraie valeur à la recherche, avec une expérience utilisateur agréable et fluide qui permet de rebondir par exemple d’un peintre à ses oeuvres, de celles-ci aux musées où elles sont exposées etc. On navigue ainsi dans ce qui ressemble bien à un graphe de connaissances, et on y apprend beaucoup de choses. Mais de là à dire que Google a adopté et mis en œuvre les principes du Web  sémantique, il y a un pas. Pour bien s’en rendre compte, comparons une description Knowledge Graph et une page de data.bnf.fr pour un tableau de Magritte, dont le sujet semble particulièrement adapté à notre propos.

La Trahison des images version Google Knowledge Graph

"La trahison des images" version Google Knowledge Graph

trahison-bnf

"La trahison des images" version data.bnf.fr

Du point de vue de l’expérience utilisateur, beaucoup de similarités.  Les informations de description ne sont certes pas tout à fait les mêmes, et Google gagne sans doute sur le plan de la navigation. On peut aller directement sur la page du peintre, ou rebondir sur d’autres œuvres du même. Dans la page de la BnF on peut naviguer vers la fiche du peintre, d’où on pourra repartir sur d’autres œuvres.

Mais ce sont là des différences de surface. La différence fondamentale est dans la sémantique formellement déclarée (ou pas) derrière ces pages. L’URI de la chose décrite par la fiche de la BnF est déclarée  explicitement dans le code RDF qui est accessible soit par le lien en bas de la page html, soit par négociation de contenu dans le protocole http. Les données de la BnF font d’ailleurs la distinction, qui aurait sans doute plu au peintre, entre le tableau lui-même en tant qu’objet du monde réel, sa représentation comme un concept (une autorité) dans le catalogue de la BnF, et les différents formats de ces descriptions. Tout cela de façon explicite, réutilisable, en s’appuyant sur des vocabulaires ouverts à sémantique partagée (SKOS, FRBR, Dublin Core, FOAF…). Ces URI explicites sont réutilisées dans la fiche correspondante de VIAF, où on pourra rebondir vers l’entrée équivalente dans le catalogue de la Bibliothèque Nationale d’Allemagne. VIAF est un impressionnant projet coordonnant les listes d’autorité (auteurs, titres, lieux …) des plus grandes bibliothèques du monde, et les rendant disponibles pour le Web des données.

Rien de tel derrière la page Google. Ouvrez  le code source de la page, et cherchez une URI qui identifie l’œuvre, ou son créateur, ou même un objet qui représente l’une ou l’autre, et réutilisable indépendamment du contexte de la requête. Rien de semblable … la navigation vers les autres "nœuds" du Knowledge Graph se fait en relançant une requête. Les identifiants des objets du Knowledge Graph, s’ils existent à n’en pas douter quelque part dans la base de données de Google, ne sont pas explicités, donc non adressables, et a fortiori non réutilisables ailleurs dans le Web de données. Au lancement du Knowledge Graph en mai dernier, Kingsley Idehen écrivait à ce sujet sur la liste Linked Open Data :

They have no option but provide an API. Anything less than that contradicts the entire endeavor.

Voir une analyse plus détaillée du même à la même époque sur Google+. Bientôt un an plus tard cette option minimale n’est toujours pas proposée par Google. Donc aujourd’hui si le Knowledge Graph a le goût et la couleur du Web sémantique,  il constitue toujours de fait un vaste silo de connaissances impossible à connecter au reste du Web des données, même s’il puise largement dans ce dernier. Par exemple Freebase est citée comme source des entités du Knowledge Graph. Les objets de Freebase ont des URI publiques intégrées dans le Web des données, mais on ne les retrouve pas dans les descriptions du Knowledge Graph.  Au passage remarquons que tous les types d’entités de Freebase ne sont pas traitées en Knowledge Graph, l’exemple le plus flagrant étant les entreprises, pour des raisons qu’on peut imaginer, mais c’est quand même curieux de trouver Bill Gates mais pas Microsoft, et même Larry Page mais pas Google! De même les médicaments sont absents, même sous leur forme la plus générique (aspirine, pénicilline). Même remarque pour les URI de DBpedia qui pourraient être explicitement utilisées, puisque le Knowledge Graph puise largement dans les descriptions structurées de Wikipedia.

Google aurait pourtant a priori plus à gagner qu’à perdre en interfaçant son Knowledge Graph avec le reste du Web des données, ne serait-ce que pour mettre sa pratique en cohérence avec son discours, et d’une certaine façon rendre au Web des données ce qu’il lui emprunte. Nul doute que Google dispose des moyens techniques et des ressources pour le faire, donc les raisons pour lesquelles il ne l’a pas (encore) fait restent obscures. Mais puisque 99% du travail reste à faire, espérons que cette ouverture en fasse partie, et qu’elle ne soit pas programmée dans le 1% final. Soyons patients…


Un petit air de renouveau

février 15, 2013

Bientôt trois années depuis mon précédent billet dans ces pages un peu à l’abandon. Manque de disponibilité, manque de motivation … peut-être.  Et sans doute la plus mauvaise des raisons que personne ne s’avoue vraiment,  c’est tellement plus amusant de commencer quelque chose que de le faire durer dans ce grand terrain de jeu des technologies du Web. Le tissage de la Toile est plein de choses inachevées,  j’ai écrit là-dessus ailleurs un soir de décembre un peu déprimé.

En réunion d’équipe hier, donc, une décision terrible : puisqu’on ne fait plus rien de ce vieux blog, on le ferme. Dans le feu de l’action, j’ai dit oui. Et puis ce matin j’ai relu de vieux billets, regardé les statistiques de fréquentation qui s’essoufflent, et je me suis dit que c’était trop bête de jeter tout çà.  Comme lorsqu’il faut vider un grenier. On a tellement de "choses" passionnantes qui se passent dans notre métier en ce moment et sur lesquelles on a toujours des "choses" à dire, pourquoi ne pas plutôt ranimer les braises et remettre du bois dans la conversation ici? Lire la suite »


Mondeca helps to bring Electronic Patient Record to reality

octobre 6, 2011
Data interoperability is one of the key issues in assembling unified Electronic Patient Records, both within and across healthcare providers. ASIP Santé, the French national healthcare agency responsible for implementing nation-wide healthcare management systems, has been charged to ensure such interoperability for the French national healthcare.

The task is a daunting one since most healthcare providers use their own custom terminologies and medical codes. This is due to a number of issues with standard terminologies: 1) standard terminologies take too long to be updated with the latest terms; 2) significant internal data, systems, and expertise rely on the usage of legacy custom terminologies; and 3) a part of the business domain is not covered by a standard terminology. Lire la suite »


Linked Data : the future of digital libraries

mai 26, 2011

Linked Data is a quickly growing initiative for interlinking heterogeneous data and metadata in order to make it easier to access and search in a unified way. Linked Data appears to be the perfect paradigm to approach the problems faced by librarians. It addresses the issues of data interoperability, interconnecting data silos, and unified data access.

Libraries have been experimenting with Linked Data from the very start of the initiative. Below are some links that document this experience:

  1. Linked Data at the Library of Congress: http://id.loc.gov/authorities/about.html
  2. Linked Data at the National Library of Sweden: http://code4lib.org/files/LIBRIS_code4lib.pdf
  3. Use cases compiled by the W3C Library Linked Data Incubator Group: http://www.w3.org/2005/Incubator/lld/wiki/UseCases

An important aspect of getting Linked Data is to use reference vocabularies, such as taxonomies, thesauri, and other related flavors. Reference vocabularies provide the magic glue that keeps the data together, by helping to: 1) standardize terminology across data sets, 2) link terms from related data sets, and 3) map query terms to the relevant terms in the Linked Data.

Mondeca is now a member of the SLA (Special Libraries Association) and will be exhibiting at the SLA 2011 conference in Philadelphia (June 12-15, 2011): http://sla2011.tornado1.com .


Smarter content

décembre 10, 2010

What is "Smart Content"?

Smart Content, also referred to as Intelligent Content, has been a growing trend in the content-rich industries. The fact that many prominent publishers, including such market leaders as Elsevier, are making smart content the cornerstone of their business strategy shows that smart content is here to stay. As a  CEO of a prominent publishing house eloquently put, "there will be companies that get smart content, and the others will die".

The term "smart content" is a marketing concept, which comes after the products behind it have been successfully adopted by the market, although there still remains much work to be done. Its purpose is to embody the technological evolution that has been taking place. However, like other successful but vague marketing concepts (e.g., Web 2.0), it makes intuitive sense but needs further clarification. The cornerstone of the smart content phenomenon seems to be a greater degree of structure, formalism, and optimization infused into the various processes of the content lifecycle. However, it would be an insult to the content to imply that it is not already intelligent to some degree. Thus, a more accurate term for the ongoing progress would be Smarter Content. Lire la suite »


Talk at the International Society for Knowledge Organization (ISKO)

octobre 18, 2010

Bernard Vatant from Mondeca was invited to speak at the Linked Open Data ISKO conference in London (September 14th, 2010) on the topic of "Porting terminologies to the Semantic Web". Below is the abstract of his talk:

Terminologies have been developed for years in the closed world of enterprises, targeting the specific technical needs or specific communities of users. Their aim is to ease semantic interoperability across resources and systems dealing with well-defined, vertical domains. On the other hand, Semantic Web technologies and the growing Linked Data Cloud are deploying in a global scope, using a unified system of identifiers (URI), a generic data model (RDF) and the universal HTTP protocol to identify and exchange description of resources.

The glue between the terminology world and the Semantic Web will be ensured by nothing but vocabularies published in RDF, and currently SKOS is the favourite language for such publication. But SKOS has been built on a concept-centric model, leveraging mainly the thesaurus world, standards and best practices. In SKOS, concepts and their semantic relationships are defined independently of the terms used to name them (labels). SKOS is quickly becoming the lingua franca to migrate legacy vocabularies to the Semantic Web across the librarian community.

The SKOS-XL extension makes provision for description of terms themselves, considering them as first-order citizens, allowing the description of more specific relationships to concepts than just “preferred” and “alternative”, as well as other fine-grained information such as context of use, translation, acronyms, lexical variants. But does this (non-normative) extension meet the requirements of terminologists? Does it meet the requirements of terminology standards such as developed by ISO/TC 37? How is the terminology community involved in this process?

As approaches to this issue, we’ll first quickly present the model underlying the new management system for EUROVOC, a vocabulary presenting itself as a thesaurus, but with extensions of expressivity at the terminological level. We’ll also look at the lexvo.org initiative, which proposes a semiotic approach to terminology in the Semantic Web framework.

Presentation slides are available here: http://www.slideshare.net/event/linked-data-the-future-of-knowledge-organization-on-the-web
.


Web et Philosophie : colloque samedi 16 octobre

octobre 13, 2010

Amis du web (sémantique) et de la philosophie, ce samedi aura lieu PhiloWeb 2010, le "premier symposium international du web et de la philosophie", à Paris; derrière ce titre un tantinet pompeux se cache un univers de réflexion extrêmement intéressant, qui explore l’articulation entre ces deux univers que l’on jugerait trop facilement disjoints; comment la philosophie peut-elle éduquer notre regard sur le web ? comment le web modifie-t-il les pratiques philosophiques ? Si vous aimez comme moi nourrir une activité technique, d’ingénierie, avec des réflexions de fond, ou appuyer une réflexion de fond sur l’actualité de la technique, ce colloque est fait pour vous. Lire la suite »


Suivre

Recevez les nouvelles publications par mail.