Leçon 3 : Anatomie d’une Description (1)

octobre 30, 2006

Les descriptions en RDF utilisent des constructions très simples, qu’on peut assimiler en grammaire de l’école élémentaire à des phrases de type  « Sujet + Verbe + Complément » ou plus généralement « Groupe Sujet + Groupe Verbal + Groupe Complément », et appelées dans le vocabulaire technique RDF des triplets « Sujet Prédicat Objet », ou encore « Sujet Propriété Objet ».  Avec cette boite à outil minimaliste, une description RDF peut se réduire en première approximation à un ensemble de phrases qui ont toutes le même sujet. En langage naturel, plusieurs éléments de description sont souvent imbriqués dans une expression complexe, comme par exemple : « … une montagne d’altitude 3913 m, voisine du Mont Pelvoux« .  A noter que la chose qui est le sujet n’est dans ce cas ni identifiée ni nommée explicitement, mais sa description contient implicitement trois phrases ayant ce même sujet. 

 … « est une » montagne
 … « a une altitude en mètres de » 3913
 … « est voisin de » Mont Pelvoux

Le premier élément de description définit un type pour le sujet. La façon la plus fréquente d’exprimer le typage en RDF est d’utiliser une classe, de préférence définie dans un langage d’ontologie comme RDFS ou OWL. On peut chercher une telle ontologie dans une bibliothèque comme Swoogle, et comme la plupart des ontologies disponibles sur le Web utilisent l’anglais, chercher si une classe « Mountain » est disponible.
http://swoogle.umbc.edu/index.php?service=search&queryType=search_swd_ontology&searchString=mountain
Le nombre de réponses laisse l’embarras du choix, mais par exemple http://sweet.jpl.nasa.gov/ontology/earthrealm.owl définit une classe « Mountain » qui semble convenir. 
On peut donc se risquer à écrire ce morceau de description (D1)

<rdf:Description>
 <rdf:type rdf:resource= »http://sweet.jpl.nasa.gov/ontology/earthrealm.owl#Mountain »/&gt;
 …
</rdf:Description>

Si on choisit ce genre de déclaration il faut bien en mesurer les conséquences. L’ontologie où cette classe est définie attache toutes sortes de propriétés logiques à la classe en question, et donc si je déclare ma chose comme instance de cette classe, pour tous les agents du Web sémantique, elle héritera de toutes les propriétés de la dite classe, pour le meilleur et pour le pire. En particulier si l’éditeur de l’ontologie (la NASA) décide de modifier cette ontologie, il y aura un impact sur ma description. La déclaration ci-dessus implique qu’on assume ces conséquences.

Une façon différente d’exprimer le typage est d’utiliser un vocabulaire contrôlé, de type thesaurus ou taxonomie, typiquement représenté en langage SKOS, et de déclarer le typage comme une indexation/classification de ma chose sur un élément de ce vocabulaire, en utilisant un attribut d’indexation spécifique, moins contraignant que le rdf:type ci-dessus.
Par exemple en utilisant l’ontologie geonames dont nous avons déjà parlé, on aura la description (D2)

<rdf:Description>
 <geonames:featureCode rdf:resource= » http://www.geonames.org/ontology#T.MT »/&gt;
 …
</rdf:Description>

La définition de la propriété « featureCode » dans l’ontologie de référence http://www.geonames.org/ontology/ontology_v1.2.3.rdf permet de déduire de cette déclaration que ma chose est de classe http://www.geonames.org/ontology#Feature, qui entraîne certes moins de contraintes logiques que la classe « Mountain » de la NASA, mais qui est néanmoins le rattachement à une classe logique avec des propriétés attachées comme latitude et longitude. Un autre intérêt de la description D2 est qu’elle permet a priori des descriptions multiples, utilisant des attributs et/ou des vocabulaires différents.

Pourquoi choisir D2 plutôt que D1? Tout dépend de l’usage que l’on veut faire de la description. Si on veut l’attacher à une chose bien identifiée et utiliser cette description dans une base de connaissances pour faire des raisonnements en utilisant des règles complexes, une description de type D1 est sans doute préférable. Mais si le but de la description est plutôt l’indexation et la recherche – classer et pouvoir retrouver les choses à partir de leurs éléments de description, par une recherche multicritères ou les rubriques d’une taxonomie de navigation – une description de type D2 sera plus adaptée.

Sans aller davantage dans les détails, une leçon à tirer est que pour formaliser une description « naturelle » en RDF, on doit prendre en compte les usages qu’on aura de cette description. Aucun choix n’est « bon » ou « mauvais » dans l’absolu, et aucune description n’épuise le sujet.

Publicités

Un mot, plusieurs choses

octobre 25, 2006

 Les villes et le nom 

« Des dieux de deux sortes protègent la ville de Léandra. Les uns et les autres sont si petits qu’on ne les voit pas et si nombreux qu’on ne peut pas les compter. les uns se tiennent près des portes des maisons, à l’intérieur, près du portemanteau et du porte-parapluies; dans les déménagements, ils suivent les familles et s’installent dans les nouveaux logis, à la remise des clefs. Les autres ont leur séjour dans la cuisine, ils se cachent de préférence sous les marmites, ou dans le manteau de la cheminée, ou dans le réduit aux balais; ils font partie de la maison et quand la famille qui y habitait s’en va, eux-mêmes restent avec les nouveaux locataires; peut-être étaient-ils déjà là quand la maison n’existait pas encore, dans la mauvaise herbe des terrains à bâtir, cachés dans un petit pot couvert de rouille; si l’on rase la maison et qu’à sa place ont construit un immeuble genre caserne pour cinquante familles, on les y retrouve multipliés, dans la cuisine d’autant d’appartements. Pour les distinguer, nous appelerons les uns Pénates, les autres Lares.Il n’est pas dit que dans une maison les Lares se tiennent toujours avec les Lares et les Pénates avec les Pénates; ils se fréquentent les uns et les autres, se promènent ensemble sur les corniches de stuc et les tuyaux de chauffage central, ils commentent ce qui se passe dans la famille, ils se querellent facilement, mais ils peuvent aussi bien s’entendre pendant des années; à les voir en file indienne, on ne fait pas la différence entre les uns et les autres. Les Lares ont vu passer entre leux murs des Pénates d’origine et de coutumes diverses; les Pénates doivent se faire une place au coude à coude avec les Lares d’illustres palais déchus, empreints de dignité, comme avec ceux, susceptibles et méfiants, des bidonvilles.

L’essence véritable de Léandra est un sujet de discussion sans fin. Les Pénates croient qu’ils sont, eux, l’âme de la ville, même s’ils y sont arrivés l’année précédente, et qu’ils l’emportent avec eux quand ils émigrent. Les Lares considérent les Pénates comme des hôtes provisoires, importuns, envahissants; la véritable Léandra c’est la leur, qui donne forme à tout ce qu’elle contient, la Léandra qui était là avant que n’arrivent tous ces intrus, et demeurera lorsque tous seront partis.

Ils ont ceci en commun : que sur ce qui arrive dans une famille et dans la ville, ils trouvent toujours à dire, les Pénates amenant sur le tapis les vieux, les bisaïeux, les grand-tantes, la famille d’autrefois, les Lares l’ambiance comme elle était avant qu’ils ne la détruisent. Mais il n’est pas dit qu’ils ne vivent que de souvenirs : ils rêvent, ils font des projets de carrière pour les enfants quand ils seront devenus grands (il s’agit des Pénates), ou sur ce que pourraient devenir telle maison ou telle zone (les Lares) si elles étaient entre de bonnes mains. Quand on tend l’oreille, spécialement la nuit, dans les maisons de Léandra, on les entend discuter sans arrêt, se rabaissant le caquet, se renvoyer brocards, pouffements, petits rires ironiques. »

Italo Calvino, les villes invisibles (ISBN : 2020016109)

 

…le mot n’est pas la chose, et en construisant des identifiants pour mieux sémantiser le web et asserter sur le monde, il ne faut pas oublier que d’autres pourraient avoir une compréhension différente de la chose qu’essaie de désigner l’identifiant.


Leçon 2 : Sémantique du Pic Sans Nom

octobre 25, 2006

J’ai la chance de bénéficier de mes fenêtres de cette vue sur le Massif des Ecrins. De gauche à droite l’Ailefroide, le Pic du Coup de Sabre, le Pic Sans Nom et le Pelvoux, la Barre des Ecrins se profilant au fond entre ces deux derniers. A quarante kilomètres, chacun des sommets découpe l’horizon sans la moindre ambiguité.

Ailefroide, Pic Sans Nom, Pelvoux

Pourtant, définir une chose aussi évidente et incontournable qu’une montagne est une tâche tout aussi redoutable que de la gravir. Les géographes, à force de ténacité et de calculs, n’arrivent souvent à capturer sur les cartes qu’une description minimale : un point défini par trois nombres : latitude, longitude, altitude, si possible un nom, quelques synonymes … Mais les choses bougent beaucoup dans ce domaine actuellement, et la géo-sémantique est un domaine en pleine effervescence. Voir par exemple http://www.mindswap.org/2004/geo/geoStuff.shtml

Un Web Service « sémantique » a récemment été mis en place par Geonames. Pour commencer cherchons notre Pic sans Nom dans l’interface classique de Geonames, par une interrogation en langage naturel : http://www.geonames.org/search.html?q=pic+sans+nom

Par chance, il y a une seule réponse, qui nous envoie à une carte Google Maps situant notre montagne : http://www.geonames.org/maps/geonameId=6295658

Dans la bulle ouverte, le lien « semantic web rdf » renvoie au document : http://sws.geonames.org/6295658/about.rdf

Ce document rdf décrit la « chose » identifiée par l’URI http://sws.geonames.org/6295658/
Autrement dit il fournit une description, ou représentation formelle de notre montagne, qui contient typiquement un ou plusieurs noms, des attributs de typage (classe, code), des propriétés mesurables (longitude, latitude), et des relations avec d’autres choses.

Cette description raconte beaucoup de choses, on y reviendra dans le détail. Mais l’important est que maintenant je dispose d’un identifiant Semantic Web qui peut me servir par exemple à poser des métadonnées sur des photos du Pic Sans Nom glanées sur le Web : http://perso.orange.fr/universimmedia/geo/ecrins.rdf


Leçon 1 : Toute chose est une Chose

octobre 20, 2006

Pour les néophytes du Web Sémantique, il faut commencer par cette évidence. Everything is a Thing est le principe de base du langage d’ontologie OWL, où la classe Thing est la racine de toutes les autres. Les « choses » du Web Sémantique vont des données, pages Web et autres documents, aux concepts les plus abstraits, en passant par les personnes et des choses plus ordinaires, les entreprises, les produits, les pays … Dans tous les cas, ces choses sont susceptibles d’être décrites en utilisant un langage commun, le Resource Description Framework, appellation mystérieuse qu’on évite en général de traduire en français, ou alors par un vilain « Cadre de Description des Ressources », alors qu’on pourrait plus simplement dire « Langage de Description des Choses ».

En effet si l’anglais « Resource » comme le français « Ressource » est à comprendre, du moins à l’origine du RDF, au sens très particulier de « Ressource Documentaire », en particulier publiée sur le Web, le mot a pris avec l’arrivée des langages d’ontologie une signification beaucoup plus vaste, et par un de ces courts-circuits dont l’histoire du langage a le secret, la resource RDF, devenue thing en OWL, semble par une évidente, mais fausse, étymologie, la traduction du latin res (chose).

Un sens apparement assez lointain de l’origine latine resurgere, littéralement « surgir à nouveau ». Mais à mieux y regarder, les choses ont cette capacité de disparaître pour resurgir aux moments et aux endroits les plus inattendus. C’est là une leçon que les choses nous donnent.