dbpedia, geonames et autres données ouvertes

janvier 30, 2007

J’ai déjà eu l’occasion de parler ici du tissage de la Toile, et du rôle qu’y jouent les vocabulaires de référence. Un autre aspect commence à se développer à grande échelle, c’est celui de la fédération des données, et en particulier des données ouvertes, publiées sur le Web, libres de droits et réutilisables. L’expérience de geonames.org dont nous avons déjà parlé à plusieurs reprises, est exemplaire, et pas seulement parce que votre serviteur y contribue en tant qu’éditeur de l’ontologie. En effet on y rencontre les questions de scalabilité (la base geonames contient actuellemnt plus de 6 300 000 objets), de qualité et d’intégration des données, d’environnement collaboratif, et de modèle économique. L’expérience devient de plus en plus intéressante avec l’entrée en scène du projet dbpedia.org, dont le but est de “RDF-iser” les données structurées extraites de Wikipedia. C’est à grande échelle ce que Thomas nous a expliqué en petit avec sa base “Music is Knowledge”. D’ailleurs la musique est en bonne place dans les données traitées dans les prototypes. Comme la base geonames intègre aussi des liens vers les articles Wikipedia documentant les objets géographiques, tout ce petit monde communique et cherche à se coordonner au mieux, entre autres à travers la toute nouvelle initiative Interlinking Open Data on the Semantic Web.

Pourquoi un vendeur de logiciel comme Mondeca s’intéresse-t-il de façon active à de telles initiatives? La plupart des projets de Mondeca concernent en effet des données internes aux entreprises, et semblent loin du monde des données ouvertes et du savoir partagé. Mais dans de nombreux domaines, entre autres le tourisme, la possibilité d’intégrer des données ouvertes aux données internes, sur la base de vocabulaires et de standards RDF communs, est susceptible d’apporter une plus-value qui n’est pas à négliger. Nous intégrons déjà les interfaces Google Maps, comme dans le portail de la Nièvre, mais une intégration supplémentaire par exemple des objets localisés par Geonames sur le territoire, des richesses du patrimoine local décrites dans Wikipedia, une indexation des milieux naturels et des problématiques d’environnement s’appuyant sur le thésaurus ouvert GEMET … et bien d’autres à venir … sont autant de “plus” que les communautés de savoir partagé peuvent apporter, et que la lingua franca RDF va faciliter. Et plutôt que d’attendre que tout cela arrive pour en récolter les fruits quels qu’ils soient, notre habitude à Mondeca est d’être pro-actifs dans toute cette évolution, et d’en anticiper les résultats. C’est ainsi que nous avons aidé l’an dernier l’INSEE à publier les données administratives de la France en RDF, données maintenant intégrées par geonames.org.

De plus la problématique de l’intégration des données ouvertes est de plus en plus similaire à celle qu’on rencontre dans l’entreprise pour l’intégration des données internes, tout aussi nombreuses et disparates, et le tissage de la Toile est une excellente école, surtout depuis que le Web sémantique commence à quitter les sphères académiques pour affronter la dure réalité des “vraies données du vrai monde”. Et chacun peut voir que la frontière entre données internes privées et données externes publiques et partagées devient de plus en plus artificielle et difficile à tracer, et qu’il serait vain de vouloir la marquer de barbelés ou de pare-feux, pour se retrancher d’un côté ou de l’autre. Bien sûr le modèle économique de tout cela n’est pas évident, et les déboires de l’édition musicale le montrent bien. Si les données sont publiques, les services qui permettent d’y accéder de façon intelligente feront la différence. Et bien sûr, plus les données publiques seront organisées intelligement, plus la tâche de tels services sera facilitée. C’est donc dans une stratégie “gagnant-gagnant” que s’inscrit la participation de Mondeca à de telles initiatives.


Leçon 2 : Sémantique du Pic Sans Nom

octobre 25, 2006

J’ai la chance de bénéficier de mes fenêtres de cette vue sur le Massif des Ecrins. De gauche à droite l’Ailefroide, le Pic du Coup de Sabre, le Pic Sans Nom et le Pelvoux, la Barre des Ecrins se profilant au fond entre ces deux derniers. A quarante kilomètres, chacun des sommets découpe l’horizon sans la moindre ambiguité.

Ailefroide, Pic Sans Nom, Pelvoux

Pourtant, définir une chose aussi évidente et incontournable qu’une montagne est une tâche tout aussi redoutable que de la gravir. Les géographes, à force de ténacité et de calculs, n’arrivent souvent à capturer sur les cartes qu’une description minimale : un point défini par trois nombres : latitude, longitude, altitude, si possible un nom, quelques synonymes … Mais les choses bougent beaucoup dans ce domaine actuellement, et la géo-sémantique est un domaine en pleine effervescence. Voir par exemple http://www.mindswap.org/2004/geo/geoStuff.shtml

Un Web Service “sémantique” a récemment été mis en place par Geonames. Pour commencer cherchons notre Pic sans Nom dans l’interface classique de Geonames, par une interrogation en langage naturel : http://www.geonames.org/search.html?q=pic+sans+nom

Par chance, il y a une seule réponse, qui nous envoie à une carte Google Maps situant notre montagne : http://www.geonames.org/maps/geonameId=6295658

Dans la bulle ouverte, le lien “semantic web rdf” renvoie au document : http://sws.geonames.org/6295658/about.rdf

Ce document rdf décrit la “chose” identifiée par l’URI http://sws.geonames.org/6295658/
Autrement dit il fournit une description, ou représentation formelle de notre montagne, qui contient typiquement un ou plusieurs noms, des attributs de typage (classe, code), des propriétés mesurables (longitude, latitude), et des relations avec d’autres choses.

Cette description raconte beaucoup de choses, on y reviendra dans le détail. Mais l’important est que maintenant je dispose d’un identifiant Semantic Web qui peut me servir par exemple à poser des métadonnées sur des photos du Pic Sans Nom glanées sur le Web : http://perso.orange.fr/universimmedia/geo/ecrins.rdf