dbpedia, geonames et autres données ouvertes

J’ai déjà eu l’occasion de parler ici du tissage de la Toile, et du rôle qu’y jouent les vocabulaires de référence. Un autre aspect commence à se développer à grande échelle, c’est celui de la fédération des données, et en particulier des données ouvertes, publiées sur le Web, libres de droits et réutilisables. L’expérience de geonames.org dont nous avons déjà parlé à plusieurs reprises, est exemplaire, et pas seulement parce que votre serviteur y contribue en tant qu’éditeur de l’ontologie. En effet on y rencontre les questions de scalabilité (la base geonames contient actuellemnt plus de 6 300 000 objets), de qualité et d’intégration des données, d’environnement collaboratif, et de modèle économique. L’expérience devient de plus en plus intéressante avec l’entrée en scène du projet dbpedia.org, dont le but est de « RDF-iser » les données structurées extraites de Wikipedia. C’est à grande échelle ce que Thomas nous a expliqué en petit avec sa base « Music is Knowledge ». D’ailleurs la musique est en bonne place dans les données traitées dans les prototypes. Comme la base geonames intègre aussi des liens vers les articles Wikipedia documentant les objets géographiques, tout ce petit monde communique et cherche à se coordonner au mieux, entre autres à travers la toute nouvelle initiative Interlinking Open Data on the Semantic Web.

Pourquoi un vendeur de logiciel comme Mondeca s’intéresse-t-il de façon active à de telles initiatives? La plupart des projets de Mondeca concernent en effet des données internes aux entreprises, et semblent loin du monde des données ouvertes et du savoir partagé. Mais dans de nombreux domaines, entre autres le tourisme, la possibilité d’intégrer des données ouvertes aux données internes, sur la base de vocabulaires et de standards RDF communs, est susceptible d’apporter une plus-value qui n’est pas à négliger. Nous intégrons déjà les interfaces Google Maps, comme dans le portail de la Nièvre, mais une intégration supplémentaire par exemple des objets localisés par Geonames sur le territoire, des richesses du patrimoine local décrites dans Wikipedia, une indexation des milieux naturels et des problématiques d’environnement s’appuyant sur le thésaurus ouvert GEMET … et bien d’autres à venir … sont autant de « plus » que les communautés de savoir partagé peuvent apporter, et que la lingua franca RDF va faciliter. Et plutôt que d’attendre que tout cela arrive pour en récolter les fruits quels qu’ils soient, notre habitude à Mondeca est d’être pro-actifs dans toute cette évolution, et d’en anticiper les résultats. C’est ainsi que nous avons aidé l’an dernier l’INSEE à publier les données administratives de la France en RDF, données maintenant intégrées par geonames.org.

De plus la problématique de l’intégration des données ouvertes est de plus en plus similaire à celle qu’on rencontre dans l’entreprise pour l’intégration des données internes, tout aussi nombreuses et disparates, et le tissage de la Toile est une excellente école, surtout depuis que le Web sémantique commence à quitter les sphères académiques pour affronter la dure réalité des « vraies données du vrai monde ». Et chacun peut voir que la frontière entre données internes privées et données externes publiques et partagées devient de plus en plus artificielle et difficile à tracer, et qu’il serait vain de vouloir la marquer de barbelés ou de pare-feux, pour se retrancher d’un côté ou de l’autre. Bien sûr le modèle économique de tout cela n’est pas évident, et les déboires de l’édition musicale le montrent bien. Si les données sont publiques, les services qui permettent d’y accéder de façon intelligente feront la différence. Et bien sûr, plus les données publiques seront organisées intelligement, plus la tâche de tels services sera facilitée. C’est donc dans une stratégie « gagnant-gagnant » que s’inscrit la participation de Mondeca à de telles initiatives.

Laisser un commentaire

Choisissez une méthode de connexion pour poster votre commentaire:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :