How-to install a Sesame RDF server

avril 5, 2008

[An english translation of the previous french article]

Every profession has its own tools. For the emerging professions of the semantic web, RDF repositories will become the foundations of the semantic pyramid, a tool that every “semantic worker” will use; maybe one day, when referring to these “semantic workers”, we will speak about “semantic manager”, or “semantic architects”… Anyway these RDF repositories are talking about promising performances for growing amounts of data : they are reaching one billion of triples, and that is the focus of the next “semantic web challenge” (see also here and there). This remains however ridiculously small compared to relationnal databases, that can store terabytes of data; especially when you consider that, in order to garantee optimal performances on complex queries and inference, RDF databases are generally all loaded into memory…

But not everyone needs a billion-triple-large RDF database, and you can start working with such a tool by installing the Sesame RDF server. Lisez la suite de cette entrée »


Un moteur de transformation RDF basé sur SPARQL (2)

janvier 19, 2008

[la suite du billet précédent sur le manque d'outil pour effectuer des transformations sur un graphe RDF, et la pertinence de cette opération pour l'échange de données.]

Pourquoi faire ?

La problématique est la suivante : je veux échanger des données exprimées en RDF, d’un système de départ à un système d’arrivée; les ontologies de départ et d’arrivée sont différentes, je dois donc transformer les données de départ pour construire un graphe conforme à l’ontologie d’arrivée. Il sera possible que seule une partie m’intéresse, et que toute l’information ne soit pas transformée.

Chaque opération de transformation est exprimée sous la forme d’une requête CONSTRUCT en SPARQL (1), qui permet de construire un pattern dans le graphe d’arrivée en fonction d’un pattern dans le graphe de départ; la requête s’exécute sur le graphe de départ, et ses résultats sont insérés dans le graphe d’arrivée.

Il suffit donc de décrire les requêtes SPARQL à exécuter à chaque opération. A l’usage, un peu de “sucre syntaxique” ne sera pas complètement inutile; certaines opérations de transformations vont en effet souvent revenir, et des raccourcis pour les écrire seront les bienvenus :

  • recopier tous les statements RDF qui ont un prédicat donné (typiquement recopier tous les rdfs:label);
  • recopier tous les statements rdf:type qui ont une certaines valeur, éventuellement en changeant cette valeur si elle n’est pas dans mon ontologie d’arrivée;
  • etc;

Et maintenant… un exemple. Lisez la suite de cette entrée »


How-to install a Sesame RDF server - Comment installer un serveur RDF Sesame

décembre 19, 2007

Il n’y a pas d’artisans sans outils. Dans les nouvelles professions du web sémantique, les repository RDF vont s’imposer comme des fondations incontournables, comme les outils de base des artisans de la pyramide sémantique; peut-être un jour, à propos de ces artisans, parlera-t-on de “semantic manager”, ou de “semantic architect”… Bref, ces bases RDF commencent à annoncer de bonnes performances pour des volumes conséquents, on parle en ce moment du milliard de triplets, c’est d’ailleurs le sujet du prochain “semantic web challenge” (voir aussi ici). Cela reste toutefois bien en deçà des bases relationnelles classiques, où les volumes de données peuvent se compter en tera-octets, d’autant que, pour garantir des performances optimales sur des requêtes complexes et de l’inférence, les bases RDF sont en général entièrement montées en mémoire…

Mais tout le monde n’a pas besoin d’un bulldozer qui gère un milliard de triplets RDF, et pour commencer à se faire la main sur ces outils, je vous propose de vous équiper d’un simple marteau et d’un tournevis, en installant le serveur RDF Sesame. Lisez la suite de cette entrée »


Requêter le contenu de Wikipedia avec SPARQL

décembre 6, 2007

Pour prolonger le débat récent entre Thomas et Bruno sur RDF et XML, un petit exemple illustrant le fait que SPARQL permet de requêter un graphe RDF, même très grand, sans connaître a priori ni sa structure, ni l’ontologie sous-jacente.

DBpedia, dont je vous ai déjà parlé, définit une URI à partir de chaque article du Wikipedia anglais, cette URI identifiant le sujet de l’article, la chose dont il parle. En fait l’article parle en général de beaucoup de choses, mais il a un sujet principal, par principe même de l’encyclopédie : “un article, une chose décrite”. Lisez la suite de cette entrée »


UIMA peut-il réconcilier le text-mining et les outils sémantiques ?

septembre 11, 2007

… peut être.

UIMA (Unstructured Information Management Architecture) est le framework de traitement des données non structurées d’abord lancé par IBM, dont l’architecture est en cours de normalisation à l’OASIS. L’objectif de ce framework est de décrire des étapes de traitement d’un document non structuré (texte, image, vidéo, etc.), en vue d’en extraire de façon automatique des informations structurées. UIMA ne décrit par contre ni comment ces informations doivent être extraites du texte, ni la façon de s’en servir.

Lisez la suite de cette entrée »


Un moteur de transformation RDF basé sur SPARQL

juin 26, 2007

Le Web Sémantique permettra aux applications de communiquer entre elles plus facilement et plus efficacement, en limitant les formats d’échanges, en explicitant la sémantique des informations, en les rendant publiques, réutilisables, etc.

Mais soyons honnêtes, d’un point de vue pragmatique, nous n’y sommes pas encore (et ce n’est pas faute d’évangélisation de notre part !) même si on sent les choses bouger; l’échange de données entre les applications est toujours limité par :

  • la syntaxe des fichiers : le plus souvent du XML, mais combien de fois avons-nous encore à traiter des fichiers textes, des feuilles excel, des dump de base de données ?
  • leur grammaire : quand les fichiers sont en XML, combien n’ont pas de DTD explicite ? et même lorsqu’elle l’est, il existe de toutes façons autant de formats propriétaires qu’il y a de propriétaires… RDF est là pour remédier à ce problème (encore que le problème de sa sérialisation reste entier), et commence à gagner en visibilité;
  • leur sémantique : même en étant optimiste et en supposant que deux applications A et B du même domaine sachent respectivement exporter et importer du RDF, quelle est ma chance qu’elles s’appuient sur la même ontologie ? quand bien même elle partagerait la même ontologie, quelle est mon pourcentage de chance qu’elles l’implémentent de la même façon et avec le même degré de complétude ?

Lisez la suite de cette entrée »


Contenu et métadonnées : le texte n’est pas mort

mars 26, 2007

Les aspects multimédia tiennent ces temps-ci le devant de la scène des nouvelles technologies du Web (2.0, ou plus si affinités). Les images de Flickr, les vidéos de YouTube, les cartes de Google Maps, les liens de del.icio.us … seraient les prototypes des contenus du Web du futur. Le texte s’y réduirait comme peau de chagrin jusqu’à son minimum incompressible, le “tag”, stade ultime d’épuration, ou degré zéro du texte - selon les points de vue. La sémantique riche et subtile du texte construit, implicite et lisible seulement des humains, se réfugierait alors dans les métadonnées, sous une forme explicite pour l’usage des seules machines.

C’est aller bien vite en besogne, et oublier que l’essentiel du contenu publié sur le Web et utilisé par les internautes est encore aujourd’hui du texte. Et oublier aussi que les formats de données qui nous sont chers, de HTML à XML, sont des formats texte, de même que les zillions de lignes de codes écrites pour créer nos sites dynamiques, feuilles de style, applets, javascript …

Donc le texte n’est pas mort, loin de là. A lire ce livre blanc publié par la société dixxit, intitulé sobrement “Référencement : la revanche du contenu”, la qualité éditoriale est plus que jamais à l’ordre du jour. C’est-à-dire qu’un contenu texte bien construit, structuré en paragraphes concis, utilisant un vocabulaire métier à la fois précis et riche, est selon la formule consacrée bon pour l’internaute, bon pour le moteur. On a envie d’ajouter : bon pour le Web sémantique. Notre expérience avec les outils de traitement automatique du langage naturel interfacés avec Mondeca ITM pour la génération automatique de méta-données aboutit aux mêmes conclusions, assez évidentes. Ces outils fonctionnent d’autant mieux que le contenu texte est bien structuré, et utilise un vocabulaire contrôlé. Les textes juridiques ou techniques sont traités avec beaucoup plus de succès que les textes littéraires ou la langue de bois journalistique.

Donc, la réponse à “Que faire pour que mes pages participent au Web sémantique?” n’est sans doute pas “Mettez des métadonnées RDF partout”. Pas plus que la réponse à “Que faire pour que mon site soit bien référencé?” n’est désormais “Utilisez les bons mots-clés dans les tags meta et dans les liens”.  A terme, la réponse aux deux questions sera sans doute la même : “Créez du contenu clair, intelligent, sobre, bien structuré, explicite, en utilisant un vocabulaire riche et précis, et en respectant des règles simples de présentation” … et le reste vous sera donné par surcroit. Certes les moteurs d’extraction sémantique sont pour l’instant moins évolués que les moteurs classiques, mais leur évolution en cours, couplée avec la prise de conscience actuelle de l’importance de la qualité du contenu, va clairement dans ce sens. Le texte, et le savoir-faire lié à sa composition et à son traitement, a donc encore de beaux jours devant lui, et on ne peut que s’en réjouir.