Vous lisez quoi cet été?

août 7, 2013

Voici un petit billet de vacances à glisser entre deux pages du livre que vous lisez sur la plage ou à la terrasse d’un café. Le seul danger de ce qui suit étant de ne plus être tout à fait sûr à la fin de ce que vous êtes en train de lire. Vous voilà prévenus, continuez à vos risques et périls ou bien retournez tranquillement à votre lecture de vacances car en icelle bien aultre goust trouverez.

« Tu as lu ça? » Voilà une question simple et anodine qu’on imagine posée dans une conversation tranquille entre amis, autour d’un verre. Le livre est posé là sur un coin de table, désigné d’un geste ou même d’un simple regard. Pas besoin semble-t-il d’explications supplémentaires pour identifier l’objet de la question. Selon l’expression de Pat Hayes dans In Defence of Ambiguity et que je traduis ici au mieux il s’agit d’une identification ostentatoire : on identifie ce dont on parle en le montrant. Et la plupart du temps la question sera comprise sans problème, et la réponse « oui » ou « non » considérée comme non ambiguë dans le contexte de cette conversation. Ce qui est assez extraordinaire quand on y pense, tant cette question est beaucoup plus subtile qu’il n’y parait, et susceptible de toute une palette d’interprétations et de réponses. Suivant le contexte de la conversation l’objet de la question, le « ça » qui a été lu (ou pas) peut représenter en effet des choses bien différentes.

Si le livre posé sur la table m’a été offert ou prêté par cette amie qui pose la question, sa question peut concerner explicitement cet exemplaire physique bien précis et unique qu’elle a peut-être dédicacé et annoté de façon à le distinguer de tous les autres exemplaires de la même édition, autrement interchangeables. Mais la plupart du temps cet exemplaire n’a rien de particulier et le « ça » que j’ai lu pourrait être tout aussi bien un autre exemplaire identique sans changer le sens de la question ni de la réponse. Et comment savoir que j’ai lu un exemplaire identique à celui-ci, sans même l’ouvrir? Je reconnais la maquette de couverture, le nom de l’auteur, le titre, tout cela la plupart du temps par un processus global ne nécessitant pas une analyse explicite et formelle en termes d’éléments identifiants. Je reconnais ce livre du premier coup d’œil comme je reconnaîtrais un modèle de voiture ou un paquet de mes biscuits favoris, par comparaison instantanée à une représentation stockée dans ma mémoire.
J’ai pu aussi lire « ce livre » dans une autre édition, voire en version électronique sur ma tablette, en ligne sur Google Books. Si je réponds malgré tout « oui, je l’ai lu » dans ce cas, comment est-ce que je décrète que c’est bien « ce » livre, dans une édition différente? Cette fois je dois bien passer par une analyse un peu plus formelle d’éléments identifiants : c’est bien le même auteur, le même titre, mais est-ce suffisant? Je poserai peut-être quelques questions sur le contenu pour être bien sûr qu’on parle bien du même. Et mon édition n’a peut-être pas exactement le même contenu. Peut-être une préface différente? Est-ce qu’avec une autre préface c’est toujours le même livre ?
Un autre cas encore : mon amie lit dans la version originale, et j’ai lu une traduction. Je répondrai encore oui peut-être, mais en précisant bien que c’est une traduction que j’ai lue. Il faut dans ce cas que je fasse le rapprochement, par exemple dans la traduction que j’ai lue il y avait le titre original et je m’en souviens, sinon il faudra que je fasse la traduction, ça commence à devenir compliqué si l’original est en chinois.

C’est toute la richesse et la flexibilité du langage et de l’esprit humain de pouvoir gérer instantanément toutes ces subtilités et l’ambiguïté fondamentale du référent de la question (le livre), de pouvoir passer sans dommage de l’objet physique désigné à mon regard à des représentations mentales plus larges. Comment traduire cette flexibilité dans des langages formels, des vocabulaires qui nous permettent de communiquer sans ambigüité avec les machines? Cette traduction nécessite des objets clairement identifiés, typés et décrits qui peuvent expliciter le « ça » de différentes façons. Pour ce faire, les bibliothécaires ont mis au point un cadre de représentation assez élaboré nommé FRBR, qui distingue quatre niveaux de représentation du livre (Œuvre, Expression, Manifestation et Item). Découpage intéressant et utile, mais dont le nombre de niveaux et leur distinction parait finalement assez arbitraire, et dont la terminologie peut paraître déroutante a priori, même pour les documentalistes. BIBFRAME dont nous avons déjà parlé réduira d’ailleurs le nombre de niveaux à trois seulement, pour simplifier, mais la démarche générale de FRBR est intéressante et peut sans doute être utilisée dans d’autres domaines (voir quelques réflexions récentes à ce sujet).

Le modèle FRBR est-il suffisant ou même pertinent quand je considère le livre dans un tout autre contexte que la classification et la recherche documentaire comme la vente en ligne? Un livre sur un site marchand, c’est un produit, c’est-à-dire une référence et une description, je l’achète comme n’importe quel autre produit en ligne. Je ne sais pas quel exemplaire m’arrivera par la poste. Du point de vue FRBR, ce que j’achète serait à la rigueur au niveau de la Manifestation, identifiée par un ISBN par exemple. Mais le vendeur stocke et me propose des données qui ne sont pas du tout de l’ordre de FRBR : nombre d’exemplaires en stock, état neuf ou occasion, pourcentage de remise, délai d’acheminement, options de livraison, recommandations (ceux qui ont acheté ce livre ont aussi consulté …), et une fois expédié, c’est un exemplaire (Item) qui est géré par le service de suivi, avec un transporteur, un numéro de colis, une date de livraison prévue … Dans ce contexte, le livre sera sans doute mieux décrit par un vocabulaire comme GoodRelations.

Un autre schéma de représentation serait nécessaire pour décrire la chaîne de fabrication du livre, un autre pour le processus de sélection chez un éditeur (ce manuscrit non encore publié est un livre en puissance, mais est-ce déjà un livre), un autre encore pour le processus de restauration s’il s’agit d’un livre ancien et précieux.

On le voit, il ne peut exister de représentation unique du livre, chaque contexte d’information utilise son mode de représentation et d’identification. Vouloir les unifier dans une représentation unique de ce qu’est un livre est un exercice de compromis difficile, entre les deux extrêmes de l’accumulation (la réunion de toutes les représentations risque d’être incohérente) et du plus petit modèle commun (l’intersection de toutes les représentations risque d’être vide). C’est pourquoi on peut se poser la question du périmètre d’utilisation d’une représentation à tout faire comme http://schema.org/Book qui à la fois ne capture pas tous les aspects du concept, et se trouve encombrée par héritage de son parent http://schema.org/CreativeWork de propriétés dont la pertinence dans certains des contextes évoqués plus haut est plus que douteuse.

Ce qui est indispensable par contre ce sont des interfaces de traduction entre la représentation de la bibliothèque et celle du site marchand, entre le site marchand et son fournisseur, entre la bibliothèque et l’atelier de restauration, et à ces interfaces le partage d’identifiants et de vocabulaires minimaux communs. Une architecture composée de représentations pertinentes dans un contexte, et d’interfaces explicitant les règles de traduction d’un contexte à l’autre, est certainement l’avenir de l’architecture des systèmes d’information sémantique. D’où l’importance de la gouvernance des biens communs que représentent des vocabulaires variés et interconnectés, écosystème que nous avons commencé à décrire dans le projet Linked Open Vocabularies, et auquel le W3C s’intéresse de près avec sa nouvelle proposition de Vocabulary Services. Nous en reparlerons.

En attendant, bonne lecture … et beuvez frais si faire se peut.


La sémantique douce de schema.org

juillet 29, 2013
Après le Knowledge Graph dans le précédent billet, voici un autre aspect du Web sémantique à la mode Google et consors, mais dont les processus sont nettement plus ouverts et transparents, et l’intégration au Web sémantique beaucoup plus évidente, bien qu’assez subtile comme nous allons le voir. Après plus deux ans de développement, l’apport de schema.org à la structuration et à l’explicitation de la sémantique des pages Web, et la valeur ajoutée qu’il apporte en termes de référencement et de présentation des résultats de recherche est incontestable. De nombreux tutoriels expliquent comment insérer les balises schema.org dans le code HTML, et les résultats obtenus, par exemple sous forme de Google Rich Snippets. On pourra commencer par cette rapide introduction par Joshua Shinavier à l’historique du balisage sémantique du HTML, ses différentes syntaxes et le développement de schema.org. On lira ensuite avec profit un excellent billet de Manu Sporny sur la futilité des débats techniques entre partisans des syntaxes microdata et RDFa sur des différences qu’il qualifie de « mythiques », et l’intérêt de choisir après tout RDFa.
Par contre l’articulation de schema.org avec le Web sémantique, et en particulier l’écosystème des données liées n’est pas forcément évidente à comprendre. Dans le marquage RDFa, qu’il utilise ou non schema.org, les données (les triplets RDF) sont noyées dans le code HTML. Heureusement des outils existent, comme le RDFa Distiller, qui permettent d’extraire ces données sous forme de RDF en syntaxe plus classique comme Turtle ou RDF-XML, ces données extraites pouvant être indépendantes de la page HTML dont elles sont issues. Voir cette très bonne explication d’Adrian Pohl illustrée par un exemple du catalogue WorldCat. Lire le reste de cette entrée »

Ceci n’est pas le Web sémantique

février 20, 2013

Le Google Knowledge Graph a fait du chemin depuis sa première annonce au printemps dernier. Beaucoup de choses ont été écrites sur la portée de l’événement, qui entérinerait l’adhésion officielle de Google aux principes de base du Web sémantique, résumés par la formule choc things, not strings. Avec des chiffres qui se veulent impressionnants : des centaines de millions de choses et des milliards de faits (propriétés des choses et relations entre elles).

Selon une déclaration de Larry Page le mois dernier, le Knowledge Graph n’est encore qu’à 1% de ses objectifs. Au passage le patron de Google souligne que la tâche est ardue, en particulier dans ses aspects multilingues. Effectivement si l’on en croit ces offres de recrutement de contributeurs multilingues on constate qu’en matière de construction de la connaissance et de consolidation des données Google lui-même doit admettre que la puissance de ses algorithmes ne fait pas tout, et qu’arrivé au niveau de détail où le diable se niche, Humans do it better, pour reprendre le slogan un peu désuet (aujourd’hui abandonné d’ailleurs) de l’Open Directory.

Nul ne peut nier que le Knowledge Graph ajoute une vraie valeur à la recherche, avec une expérience utilisateur agréable et fluide qui permet de rebondir par exemple d’un peintre à ses oeuvres, de celles-ci aux musées où elles sont exposées etc. On navigue ainsi dans ce qui ressemble bien à un graphe de connaissances, et on y apprend beaucoup de choses. Mais de là à dire que Google a adopté et mis en œuvre les principes du Web  sémantique, il y a un pas. Pour bien s’en rendre compte, comparons une description Knowledge Graph et une page de data.bnf.fr pour un tableau de Magritte, dont le sujet semble particulièrement adapté à notre propos. Lire le reste de cette entrée »


Un petit air de renouveau

février 15, 2013

Bientôt trois années depuis mon précédent billet dans ces pages un peu à l’abandon. Manque de disponibilité, manque de motivation … peut-être.  Et sans doute la plus mauvaise des raisons que personne ne s’avoue vraiment,  c’est tellement plus amusant de commencer quelque chose que de le faire durer dans ce grand terrain de jeu des technologies du Web. Le tissage de la Toile est plein de choses inachevées,  j’ai écrit là-dessus ailleurs un soir de décembre un peu déprimé.

En réunion d’équipe hier, donc, une décision terrible : puisqu’on ne fait plus rien de ce vieux blog, on le ferme. Dans le feu de l’action, j’ai dit oui. Et puis ce matin j’ai relu de vieux billets, regardé les statistiques de fréquentation qui s’essoufflent, et je me suis dit que c’était trop bête de jeter tout çà.  Comme lorsqu’il faut vider un grenier. On a tellement de « choses » passionnantes qui se passent dans notre métier en ce moment et sur lesquelles on a toujours des « choses » à dire, pourquoi ne pas plutôt ranimer les braises et remettre du bois dans la conversation ici? Lire le reste de cette entrée »


Mondeca helps to bring Electronic Patient Record to reality

octobre 6, 2011
Data interoperability is one of the key issues in assembling unified Electronic Patient Records, both within and across healthcare providers. ASIP Santé, the French national healthcare agency responsible for implementing nation-wide healthcare management systems, has been charged to ensure such interoperability for the French national healthcare.

The task is a daunting one since most healthcare providers use their own custom terminologies and medical codes. This is due to a number of issues with standard terminologies: 1) standard terminologies take too long to be updated with the latest terms; 2) significant internal data, systems, and expertise rely on the usage of legacy custom terminologies; and 3) a part of the business domain is not covered by a standard terminology. Lire le reste de cette entrée »


Linked Data : the future of digital libraries

Mai 26, 2011

Linked Data is a quickly growing initiative for interlinking heterogeneous data and metadata in order to make it easier to access and search in a unified way. Linked Data appears to be the perfect paradigm to approach the problems faced by librarians. It addresses the issues of data interoperability, interconnecting data silos, and unified data access.

Libraries have been experimenting with Linked Data from the very start of the initiative. Below are some links that document this experience:

  1. Linked Data at the Library of Congress: http://id.loc.gov/authorities/about.html
  2. Linked Data at the National Library of Sweden: http://code4lib.org/files/LIBRIS_code4lib.pdf
  3. Use cases compiled by the W3C Library Linked Data Incubator Group: http://www.w3.org/2005/Incubator/lld/wiki/UseCases

An important aspect of getting Linked Data is to use reference vocabularies, such as taxonomies, thesauri, and other related flavors. Reference vocabularies provide the magic glue that keeps the data together, by helping to: 1) standardize terminology across data sets, 2) link terms from related data sets, and 3) map query terms to the relevant terms in the Linked Data.

Mondeca is now a member of the SLA (Special Libraries Association) and will be exhibiting at the SLA 2011 conference in Philadelphia (June 12-15, 2011): http://sla2011.tornado1.com .


Smarter content

décembre 10, 2010

What is « Smart Content »?

Smart Content, also referred to as Intelligent Content, has been a growing trend in the content-rich industries. The fact that many prominent publishers, including such market leaders as Elsevier, are making smart content the cornerstone of their business strategy shows that smart content is here to stay. As a  CEO of a prominent publishing house eloquently put, « there will be companies that get smart content, and the others will die ».

The term « smart content » is a marketing concept, which comes after the products behind it have been successfully adopted by the market, although there still remains much work to be done. Its purpose is to embody the technological evolution that has been taking place. However, like other successful but vague marketing concepts (e.g., Web 2.0), it makes intuitive sense but needs further clarification. The cornerstone of the smart content phenomenon seems to be a greater degree of structure, formalism, and optimization infused into the various processes of the content lifecycle. However, it would be an insult to the content to imply that it is not already intelligent to some degree. Thus, a more accurate term for the ongoing progress would be Smarter Content. Lire le reste de cette entrée »